개발공부/SK Networks Family AI bootcamp 강의노트

17일차 [data encoding, scaling]

HyunJung_Jo 2025. 2. 7. 17:42

Data encoding

 

class_ML/2. Data Preprocessing/2. Data Encoding.ipynb at main · good593/class_ML

Contribute to good593/class_ML development by creating an account on GitHub.

github.com

  • 데이터 타입이 숫자냐 문자냐를 떠나서 사칙연산이 안되면 (범주형 데이터) 인코딩을 해줘야 한다.
  • 종류
    • one-hot encoding할 때 0이 너무 많이지는 경우에는 (->sparse data, 차원의 저주) 쓰면 안된다.
    • Mean-encoding 주의점: 빨주노초파남보와 가까운 수치형 데이터가 필요하다 /
      상관관계가 있는 두 변수로 평균값 주면 된다.df.groupby(category_col)[target_col].mean()
    • label encoding: 1,2,3,4를 붙이는 것. LabelEncoder().fit_transform(df[col])
  • one-hot-encoding (best solution) >
    target(독립적인 변수일 때) , >
    mean encoding(target에 중요한 feature 있다.) 

머신러닝 학습 흐름. 스케일링은 선택사

Data scaling

https://colab.research.google.com/drive/12pfU5BOWxuRzNUDaUfqwvnyvdvAVzSsN#scrollTo=IDy67RfEtbf-

 

Google Colab Notebook

Run, share, and edit Python notebooks

colab.research.google.com

분류 모델

https://colab.research.google.com/drive/14OlbjBYFaV3meek3VpY9bnfHj8f2A0xC#scrollTo=mfXNFz_NJVMX

 

Google Colab Notebook

Run, share, and edit Python notebooks

colab.research.google.com

  • mglearn: 머신러닝을 잘 설명한 모듈
  • logisticRegression(c=100), hyperparameter C 정규화 조절. 낮을수록 계수가 0으로 근사하 정규화 강화

>> 주말 타이타닉 데이터 만져보면서 적용해보기