SK Networks Family AI bootcamp 강의노트/Kaggle
타이타닉 데이터셋 분석 및 학습 설계도
HyunJung_Jo
2025. 2. 11. 23:27
Workflow
- EDA
- pivot_table
- groupby
- 통계분석
- 상관관계
- 교차분석
- Data Preprocessing
- 결측치 치환 혹은 삭제
- data encoding (one-hot encoding, mean-encoding, label-encoding)
- data scaling (standard scaler, minmax scaler, max abs scaler, robust scaler)
- train_test_split()
- Train
- 분류모델 : 로지스틱 회귀, linear SVM,
- 분류, 회귀 : Decision Tree, K-NN
- 앙상블 : Light GBM
- random_state:42 고정
- HPO: Bayesian Search
- Evaluation
- 회귀: R2, RMSE
- 정규화: Ridge (L2), Lasso (L1)
- 분류: Recall, Precision, AUROC (이진분류)
- Prediction