Data encoding
class_ML/2. Data Preprocessing/2. Data Encoding.ipynb at main · good593/class_ML
Contribute to good593/class_ML development by creating an account on GitHub.
github.com
- 데이터 타입이 숫자냐 문자냐를 떠나서 사칙연산이 안되면 (범주형 데이터) 인코딩을 해줘야 한다.
- 종류
- one-hot encoding할 때 0이 너무 많이지는 경우에는 (->sparse data, 차원의 저주) 쓰면 안된다.
- Mean-encoding 주의점: 빨주노초파남보와 가까운 수치형 데이터가 필요하다 /
상관관계가 있는 두 변수로 평균값 주면 된다.df.groupby(category_col)[target_col].mean() - label encoding: 1,2,3,4를 붙이는 것. LabelEncoder().fit_transform(df[col])
- one-hot-encoding (best solution) >
target(독립적인 변수일 때) , >
mean encoding(target에 중요한 feature 있다.)
Data scaling
https://colab.research.google.com/drive/12pfU5BOWxuRzNUDaUfqwvnyvdvAVzSsN#scrollTo=IDy67RfEtbf-
Google Colab Notebook
Run, share, and edit Python notebooks
colab.research.google.com
분류 모델
https://colab.research.google.com/drive/14OlbjBYFaV3meek3VpY9bnfHj8f2A0xC#scrollTo=mfXNFz_NJVMX
Google Colab Notebook
Run, share, and edit Python notebooks
colab.research.google.com
- mglearn: 머신러닝을 잘 설명한 모듈
- logisticRegression(c=100), hyperparameter C 정규화 조절. 낮을수록 계수가 0으로 근사하 정규화 강화
>> 주말 타이타닉 데이터 만져보면서 적용해보기
'개발공부 > SK Networks Family AI bootcamp 강의노트' 카테고리의 다른 글
18일차 [ 지도 학습 ] (0) | 2025.02.10 |
---|---|
[플레이데이터 SK네트웍스 Family AI캠프 10기] 2월 1주차 회고 (0) | 2025.02.10 |
16-17일차 [ 타이타닉 데이터 재분석 ] (0) | 2025.02.06 |
16일차 [ numpy 심화 ] (0) | 2025.02.06 |
16일차 [Bike sharing demand 데이터 분석/ 머신러닝 개요 / numpy 기초] (0) | 2025.02.06 |