๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
  • ํ•€ํ„ฐ๋ ˆ์ŠคํŠธ  ๊ณต์œ ํ•˜๊ธฐ
  • ์นด์นด์˜คํ†ก ๊ณต์œ ํ•˜๊ธฐ
  • ๋„ค์ด๋ฒ„๋ธ”๋กœ๊ทธ ๊ณต์œ ํ•˜๊ธฐ
  • ๋„ค์ด๋ฒ„๋ฐด๋“œ ๊ณต์œ ํ•˜๊ธฐ
  • ํŽ˜์ด์Šค๋ถ ๊ณต์œ ํ•˜๊ธฐ
  • ํŠธ์œ„ํ„ฐ ๊ณต์œ ํ•˜๊ธฐ
์ž๊ฒฉ์ฆ

[๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ] ๋น…๋ถ„๊ธฐ ์ฒดํ—˜ํ™˜๊ฒฝ 1์œ ํ˜• ๋ฌธ์ œ ํ’€์ด(2025. 6 ์—…๋ฐ์ดํŠธ)

by ๐Ÿ’—๋ผ๋ผ 2025. 7. 15.

๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ ์‹œํ—˜์€ ๊ตฌ๋ฆ„ goorm ํ™˜๊ฒฝ์—์„œ ์ง„ํ–‰๋˜๋Š”๋ฐ,
๋น…๋ถ„๊ธฐ 10ํšŒ ์‹ค๊ธฐ์‹œํ—˜์„ ๋ณด๋ฆ„๊ฐ€๋Ÿ‰ ์•ž๋‘๊ณ  ์ฒดํ—˜ํ™˜๊ฒฝ์— ์žˆ๋Š” 1~3 ์œ ํ˜• ๋ฌธ์ œ๋“ค์ด ๋ชจ๋‘ ๋ณ€๊ฒฝ๋œ ๋ฐ” ์žˆ๋‹ค.
์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋ณ€๊ฒฝ๋œ ์ฒดํ—˜ํ™˜๊ฒฝ 1์œ ํ˜• ๋ฌธ์ œ ํ’€์ด๋ฅผ ํ•ด๋ณด๋ ค ํ•œ๋‹ค.


<<ํšŒ์‚ฌ์˜ ์ง์› ์—ฐ๋ด‰๊ณผ ๊ทผ์† ์—ฐ์ˆ˜ ๋“ฑ์— ๊ด€ํ•œ ๋ฐ์ดํ„ฐ>>
- ์ง์›ID: ๊ณ ์œ  ์‹๋ณ„์ž
- ๋ถ€์„œ: ์†Œ์† ๋ถ€์„œ
- ์—ฐ๋ด‰: ์—ฐ๊ฐ„ ๊ธ‰์—ฌ
- ๊ทผ์†์—ฐ์ˆ˜: ์ด ๊ทผ๋ฌด๊ธฐ๊ฐ„
- ์„ฑ๊ณผ๋“ฑ๊ธ‰: ์„ฑ๊ณผ ๋“ฑ๊ธ‰(A, B, C)
- ๊ต์œก์ฐธ์—ฌํšŸ์ˆ˜: ํšŒ์‚ฌ ๊ต์œก์— ์ฐธ์—ฌํ•œ ํšŸ์ˆ˜
- ๊ณ ๊ฐ๋งŒ์กฑ๋„: ๋‹ด๋‹น ์—…๋ฌด์— ๋Œ€ํ•œ ๊ณ ๊ฐ์˜ ๋งŒ์กฑ๋„

import pandas as pd
df = pd.read_csv("data/employee_performance.csv")
print(df.head())
> ์ง์›ID ๋ถ€์„œ ์—ฐ๋ด‰ ๊ทผ์†์—ฐ์ˆ˜ ์„ฑ๊ณผ๋“ฑ๊ธ‰ ๊ต์œก์ฐธ์—ฌํšŸ์ˆ˜ ๊ณ ๊ฐ๋งŒ์กฑ๋„
0 E1 Marketing 57285 4.0 A 14 8.0
1 E2 Finance 31605 15.0 C 5 4.0
2 E3 IT 101158 10.0 A 19 4.0
3 E4 Finance 102303 25.0 A 8 9.0
4 E5 Finance 57139 13.0 A 19 7.0

โ–ถ ๋จผ์ € df.info()๋กœ ๋ฐ์ดํ„ฐ ํƒ์ƒ‰์„ ํ•ด๋ณด๋ฉด ๊ฒฐ์ธก์น˜์™€ ๋ฐ์ดํ„ฐํƒ€์ž… ํ™•์ธ์ด ๊ฐ€๋Šฅํ•˜๊ณ ,
์ œ๊ณต ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ ๊ทผ์†์—ฐ์ˆ˜์™€ ๊ณ ๊ฐ๋งŒ์กฑ๋„์— ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•œ๋‹ค.
# print(df.info())

# Column Non-Null Count Dtype
--- ------ -------------- -----
0 ์ง์›ID 1000 non-null object
1 ๋ถ€์„œ 1000 non-null object
2 ์—ฐ๋ด‰ 1000 non-null int64
3 ๊ทผ์†์—ฐ์ˆ˜ 952 non-null float64
4 ์„ฑ๊ณผ๋“ฑ๊ธ‰ 1000 non-null object
5 ๊ต์œก์ฐธ์—ฌํšŸ์ˆ˜ 1000 non-null int64
6 ๊ณ ๊ฐ๋งŒ์กฑ๋„ 895 non-null float64

print(df.isnull().sum()) # ํ•ด๋‹น ์ปฌ๋Ÿผ ๊ฒฐ์ธก์น˜ ๊ฐœ์ˆ˜ ํ™•์ธ

์ง์›ID 0
๋ถ€์„œ 0
์—ฐ๋ด‰ 0
๊ทผ์†์—ฐ์ˆ˜ 48
์„ฑ๊ณผ๋“ฑ๊ธ‰ 0
๊ต์œก์ฐธ์—ฌํšŸ์ˆ˜ 0
๊ณ ๊ฐ๋งŒ์กฑ๋„ 105
dtype: int64

โ–ถ ์ˆ˜ํ–‰ ์ˆœ์„œ์— ๋”ฐ๋ผ ์ฝ”๋”ฉํ•˜๊ธฐ

1) ๊ณ ๊ฐ๋งŒ์กฑ๋„๊ฐ€ ์—†๋Š” ์ง์›์˜ ๊ฒฝ์šฐ, ํ‰๊ท  ๊ณ ๊ฐ๋งŒ์กฑ๋„๋กœ ๊ฒฐ์ธก์น˜ ์ฑ„์šฐ๊ธฐ
mean_1=df['๊ณ ๊ฐ๋งŒ์กฑ๋„'].mean()
df['๊ณ ๊ฐ๋งŒ์กฑ๋„']=df['๊ณ ๊ฐ๋งŒ์กฑ๋„'].fillna(mean_1)
print(df.isnull().sum())

์ง์›ID 0
๋ถ€์„œ 0
์—ฐ๋ด‰ 0
๊ทผ์†์—ฐ์ˆ˜ 48
์„ฑ๊ณผ๋“ฑ๊ธ‰ 0
๊ต์œก์ฐธ์—ฌํšŸ์ˆ˜ 0
๊ณ ๊ฐ๋งŒ์กฑ๋„ 0
dtype: int64

2) ๊ทผ์†์—ฐ์ˆ˜๊ฐ€ ์—†๋Š” ์ง์›์˜ ๊ฒฝ์šฐ, ํ•ด๋‹น ์ง์› ์‚ญ์ œ
df=df.dropna(subset='๊ทผ์†์—ฐ์ˆ˜')

์ œ๊ณต ๋ฐ์ดํ„ฐ์˜ ๊ฒฐ์ธก์น˜๋Š” ๊ทผ์†์—ฐ์ˆ˜์™€ ๊ณ ๊ฐ๋งŒ์กฑ๋„ ๋‘ ์ปฌ๋Ÿผ์— ์กด์žฌํ•˜์˜€๊ณ 
๊ณ ๊ฐ๋งŒ์กฑ๋„์˜ ๊ฒฐ์ธก์น˜๋Š” ํ‰๊ท  ๊ณ ๊ฐ๋งŒ์กฑ๋„๋กœ ๋Œ€์ฒดํ•œ ์ƒํƒœ์ด๋ฏ€๋กœ
์ด์ œ ๊ทผ์†์—ฐ์ˆ˜์—๋งŒ ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•œ๋‹ค.
๋”ฐ๋ผ์„œ
df=df.dropna() ๋ผ๊ณ  ์ž…๋ ฅํ•ด๋„ ๋™์ผํ•œ ๊ฒฐ๊ณผ๊ฐ€ ์ถœ๋ ฅ๋œ๋‹ค.
print(df.info())

# Column Non-Null Count Dtype
--- ------ -------------- -----
0 ์ง์›ID 952 non-null object
1 ๋ถ€์„œ 952 non-null object
2 ์—ฐ๋ด‰ 952 non-null int64
3 ๊ทผ์†์—ฐ์ˆ˜ 952 non-null float64
4 ์„ฑ๊ณผ๋“ฑ๊ธ‰ 952 non-null object
5 ๊ต์œก์ฐธ์—ฌํšŸ์ˆ˜ 952 non-null int64
6 ๊ณ ๊ฐ๋งŒ์กฑ๋„ 952 non-null float64

3) ์ง์›์˜ ๊ณ ๊ฐ๋งŒ์กฑ๋„์˜ 3์‚ฌ๋ถ„์œ„์ˆ˜ ๊ฐ’ ๊ณ„์‚ฐ [์ œ์ถœํ˜•์‹: ๋ฒ„๋ฆผํ•˜์—ฌ ์ •์ˆ˜(integer)๋กœ ์ž‘์„ฑ]
Q3=df['๊ณ ๊ฐ๋งŒ์กฑ๋„'].quantile(0.75)
print(int(Q3))
# ์ •๋‹ต 8

4) ๋ถ€์„œ๋ณ„๋กœ ํ‰๊ท ์—ฐ๋ด‰์„ ๊ตฌํ•˜๊ณ , ๋‘ ๋ฒˆ์งธ๋กœ ํ‰๊ท ์—ฐ๋ด‰์ด ๋†’์€ ๋ถ€์„œ์˜ ํ‰๊ท ์—ฐ๋ด‰ ๊ณ„์‚ฐ
[์ œ์ถœํ˜•์‹: ๋ฒ„๋ฆผํ•˜์—ฌ ์ •์ˆ˜(integer)๋กœ ์ž‘์„ฑ]
df1=df.groupby('๋ถ€์„œ')[['์—ฐ๋ด‰']].mean()
print(df1)

> ์—ฐ๋ด‰
๋ถ€์„œ
Finance 71319.595092
HR 75460.411392
IT 70314.602740
Marketing 73320.153374
Operations 73926.703947
Sales 74690.188235

df1=df1.sort_values('์—ฐ๋ด‰', ascending=False)
print(df1)

> ์—ฐ๋ด‰
๋ถ€์„œ
HR 75460.411392
Sales 74690.188235
Operations 73926.703947
Marketing 73320.153374
Finance 71319.595092
IT 70314.602740

print(int(df1['์—ฐ๋ด‰'].iloc[1]))
# ์ •๋‹ต 74690

โ–ถ ๋‹ต์•ˆ์ œ์ถœ
โ‘  3)์—์„œ ๊ณ„์‚ฐํ•œ ๊ฐ’ ์ž…๋ ฅ ---> 8
โ“ฉ 4)์—์„œ ๊ณ„์‚ฐํ•œ ๊ฐ’ ์ž…๋ ฅ ---> 74690

๋น„์ „๊ณต์ž ๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ํ•„๊ธฐ ์‹ค๊ธฐ 1ํŠธ ํ•ฉ๊ฒฉํ›„๊ธฐ

๋ฐ˜์‘ํ˜•

๋Œ“๊ธ€