๐ถ ํ์ต ๋ฒ์
- ๊ฐ์ข: ๋ฐ๋ฅ๋ถํฐ ์์ํ๋ ๋จธ์ ๋ฌ๋ 1~2 ์ฃผ์ฐจ
๐ถ ๊ณต๋ถ ๋ด์ฉ
โจ ์บ๊ธ(Kaggle)
๐ฉ ๋ด์ฉ
1. ๋ฐ์ดํฐ ๊ณผํ ๋ฐ ๋จธ์ ๋ฌ๋ ๊ฒฝ์ง๋ํ ํ๋ซํผ
2. ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ, ๋จธ์ ๋ฌ๋ ์์ง๋์ด๋ค์ด ๋ค์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ๋ฐ์ดํฐ๋ฅผ ๋ถ์
3. ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋๋ฐ ํ์ํ ๋ฐ์ดํฐ์
๊ณผ ๋๊ตฌ๋ฅผ ์ ๊ณต
๐ฉ ์ฌ์ฉ๋ฒ
โ๏ธ 1. kaggle ์ค์น
pip install kaggle
โ๏ธ 2. ๋ฐ์ดํฐ ๋ค์ด๋ก๋
kaggle datasets download -d <dataset-identifier>
โ๏ธ 3. ๋ฐ์ดํฐ์
๋ถ๋ฌ์ค๊ธฐ
import pandas as pd
df = pd.read_csv('data.csv')
df.head(5)

1 . ํ๋กํ ํด๋ฆญ → API ํญ๋ชฉ 'Create New Token' ํด๋ฆญ → kaggle.json ๋ค์ด๋ก๋
2. C:\Users\{User}\.kaggle ํด๋ ์์ฑ ๋ฐ ๋ฃ์ด์ฃผ๊ธฐ
โจ DataFrame๊ณผ ๊ธฐ๋ณธ์ ๋ณด ํ์ธ
# ๋ฐ์ดํฐ ํ๋ ์์ ํฌ๊ธฐ (ํ, ์ด) ํ์ธ
df.shape
# ๋ฐ์ดํฐ ํ๋ ์์ ์ปฌ๋ผ๋ช
ํ์ธ
# ์ปฌ๋ผ๋ช
์์ด ๋ฐ์ดํฐ๋ง ์กด์ฌํ๋ ๊ฒฝ์ฐ๋ ์์ด์ ๋ ์๋ํ์ง๋ ์์
df.columns
# ๋ฐ์ดํฐ ํ๋ ์์ ๋ฐ์ดํฐ ํ์
ํ์ธ
df.dtypes
# ๋ฐ์ดํฐ ํ๋ ์์ ์์ฝ ํต๊ณ๋ ํ์ธ
df.describe()
# ๋ฐ์ดํฐ ํ๋ ์์ ์ ๋ณด ํ์ธ (null ๊ฐ, ๋ฐ์ดํฐ ํ์
๋ฑ)
df.info()
โจ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
๐ฉ ๊ฐ๋
- ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ๋ง์ ์ํ ๋ฐ์ดํฐ๋ฅผ ์ค๋นํ๋ ๊ณผ์
- ๋ฐ์ดํฐ์ ํ์ง์ด ๋์์ง๊ณ , ๋ถ์๊ฒฐ๊ณผ์ ์ ๋ขฐ์ฑ์ด ์ฌ๋ผ๊ฐ
๐ฉ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
1. ๊ฒฐ์ธก์น ์ฒ๋ฆฌ (Handling Missing Data)
- ๊ฒฐ์ธก์น๋ ๋ฐ์ดํฐ์
์ ๋๋ฝ๋ ๊ฐ์ ์๋ฏธ
โ๏ธ ๊ธฐ๋ฅ
1) ์ญ์ : ๊ฒฐ์ธก์น๊ฐ ์๋ ํ์ด๋ ์ด์ ์ญ์ , ๋ฐ์ดํฐ ์์ค ๋ฐ์ ๊ฐ๋ฅ
2) ๋์ฒด: ํ๊ท , ์ค์๊ฐ, ์ต๋น๊ฐ ๋ฑ์ผ๋ก ๊ฒฐ์ธก์น๋ฅผ ๋์ฒด
3) ์์ธก: ๋ค๋ฅธ ํน์ฑ์ ์ฌ์ฉํ์ฌ ๊ฒฐ์ธก์น๋ฅผ ์์ธก
2. ์ด์์น ์ฒ๋ฆฌ (Handling Outliers)
- ์ด์์น๋ ๋ฐ์ดํฐ์์ ๋น์ ์์ ์ผ๋ก ํฌ๊ฑฐ๋ ์์ ๊ฐ์ ์๋ฏธ
โ๏ธ ๊ธฐ๋ฅ
1) ์ ๊ฑฐ: ์ด์์น๋ฅผ ๋ฐ์ดํฐ์
์์ ์ ๊ฑฐ
2) ๋ณํ: ์ด์์น๋ฅผ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋ณํ
3) IQR ๋ฐฉ๋ฒ: IQR(Interquartile Range)์ ์ฌ์ฉํ์ฌ ์ด์์น๋ฅผ ํ์งํ๊ณ ์ฒ๋ฆฌ
3. ๋ฐ์ดํฐ ์ ๊ทํ (Normalization)
- ์ ๊ทํ๋ ๋ฐ์ดํฐ๋ฅผ ์ผ์ ํ ๋ฒ์๋ก ์ค์ผ์ผ๋งํ๋ ๊ณผ์
- ์ผ๋ฐ์ ์ผ๋ก [0, 1] ๋ฒ์๋ก ๋ณํ
4. ๋ฐ์ดํฐ ํ์คํ (Standardization)
- ํ์คํ๋ ๋ฐ์ดํฐ๋ฅผ ํ๊ท 0, ๋ถ์ฐ 1๋ก ๋ณํํ๋ ๊ณผ์
5. ํน์ฑ ๊ณตํ (Feature Engineering)
- ํน์ฑ ๊ณตํ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋ก์ด ์ ์ฉํ ํน์ฑ์ ์์ฑํ๋ ๊ณผ์
โ๏ธ ๊ธฐ๋ฅ
1) ํน์ฑ ์์ฑ: ๊ธฐ์กด ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ํน์ฑ์ ์์ฑ
2) ํน์ฑ ์ ํ: ๋ชจ๋ธ ์ฑ๋ฅ์ ์ค์ํ ํน์ฑ์ ์ ํํ๊ณ , ์ค์ํ์ง ์์ ํน์ฑ์ ์ ๊ฑฐ
6. ๋ฐ์ดํฐ ์ธ์ฝ๋ฉ (Data Encoding)
- ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋ ํํ๋ก ๋ณํ
โ๏ธ ๊ธฐ๋ฅ
1) ๋ ์ด๋ธ ์ธ์ฝ๋ฉ (Label Encoding): ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ์ซ์๋ก ๋ณํ
2) ์-ํซ ์ธ์ฝ๋ฉ (One-Hot Encoding): ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ์ด์ง ๋ฒกํฐ๋ก ๋ณํ
7. ๋ฐ์ดํฐ ๋ถํ (Data Splitting)
- ๋ฐ์ดํฐ๋ฅผ ํ์ต์ฉ(train), ๊ฒ์ฆ์ฉ(validation), ํ
์คํธ์ฉ(test)์ผ๋ก ๋ถํ
- ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐ
โ๏ธ ๊ธฐ๋ฅ
1) ํ์ต ๋ฐ์ดํฐ (Training Data): ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ
2) ๊ฒ์ฆ ๋ฐ์ดํฐ (Validation Data): ๋ชจ๋ธ ํ๋ ๋ฐ ์ฑ๋ฅ ๊ฒ์ฆ์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ
3) - **ํ
์คํธ ๋ฐ์ดํฐ (Test Data):** ์ต์ข
๋ชจ๋ธ ํ๊ฐ์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ
๐ถ ๋๋์
1. ๋จธ์ ๋ฌ๋ ๊ฐ์ข๋ฅผ ์์ํ๋๋ฐ ๋ญ๊ฐ, ๋ชฐ์์น๋ ์ด๋๋..
2. ์ค๋ ์๋ก์ด ์กฐ๋ฅผ ๋ง๋ฌ๋๋ฐ, ๋ค๋ค ์ข์ ๋ถ๋ค ใ
3. ๊ฐ์ธ๊ณผ์ ํด์ค ๊ฐ์ข๊ฐ ์์๋๋ฐ.. ๋ณ๋ก..
4. ๋ชธ ๊ด๋ฆฌ๋ ์ํ๋ฉด์ ๊ฐ๋ณด์๊ตฌ์..
'๊ต์ก > ์คํ๋ฅดํ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [TIL] ๋ด์ผ๋ฐฐ์์บ ํ AI 9๊ธฐ - 11ํ (1) | 2024.12.12 |
|---|---|
| [TIL] ๋ด์ผ๋ฐฐ์์บ ํ AI 9๊ธฐ - 10ํ (1) | 2024.12.06 |
| [TIL] ๋ด์ผ๋ฐฐ์์บ ํ AI 9๊ธฐ - 8ํ (2) | 2024.12.04 |
| [TIL] ๋ด์ผ๋ฐฐ์์บ ํ AI 9๊ธฐ - 7ํ (1) | 2024.12.04 |
| [TIL] ๋ด์ผ๋ฐฐ์์บ ํ AI 9๊ธฐ - 6ํ (2) | 2024.12.02 |