SK Networks Family AI bootcamp 강의노트 48

26일차 [ Multi Classification Model (pytorch)]

명상/책읽기를 어느정도 습관처럼 하게 되었다. 짬짬이 운동을 좀 더 체화해야겠다. 어깨 한번 접어서 편 이후로는 이제 어깨가 아프지 않는다. 내 컨디션을 위해서 조금더 스트레칭해야겠다. 또... 프로젝트 관리를 잘 하기 위해 좀 더 고안을 해봐야겠다. 아무래도 챗봇 프젝/단위프젝/토이프젝/ 다 해야하니까...!이진 분류 모델 실습댕댕이냐 아니냐 / 댕댕이와 갓냥이,버스,식물중 뭐가 대표이냐 / 댕댕이랑 식물이 있느냐/  수업 자료원본https://colab.research.google.com/drive/12RdRIoemME_3ig9p0Qx4vFTDuLxQv7Ye#scrollTo=8Wb_HYb1fl8r Google Colab NotebookRun, share, and edit Python notebooks..

2차 단위 프로젝트

주제: 고객 이탈 데이터셋 예제들 (데이터 분석과 ML/DL)기간: 25.02.19~25.03.052팀 팀원 : 전서빈,정소열,박현준,신민주,조현정,김현수 (팀장)내부 경진대회 여는 것처럼 각자 모델 만들고 잘 만든 것 고르기데이터셋:  통신사고객 이탈https://www.kaggle.com/datasets/blastchar/telco-customer-churn Telco Customer ChurnFocused customer retention programswww.kaggle.com todo2/24까지 데이터 EDA, 전처리, (+model)

24일차 [ Loading Dataset (중요한 내용) ]

오늘은 아침부터 좀 달렸더니 15분 컷했다. 앞으로 조금씩 뛰는 시간을 줄여나갈 생각이다.그리고 공부했던 것 중 모르는 거를 정리해나갈거다. 넋이 나가거나 인스타할 시간에 숨 좀 크게 쉬고 하루, 이틀치씩 잠깐 잠깐씩 핵심어만 뽑아보고 그걸 상세설명으로 조금씩 이해해 나갈거다. 또 오늘은 토이 프젝에서 맡았던 API KEY 관리를 UI상에서 어떻게 하는 지도 cursor ai로 해결해볼거다.https://colab.research.google.com/drive/1zjOSxjWQ09sK6FOU-fJ7isryTgaijpg4#scrollTo=DYodSamweDYp Google Colab NotebookRun, share, and edit Python notebookscolab.research.google.co..

23일차 [ pytorch (중요) ]

Dtyperank 0,1,2,3 -> scalar, vector, matrix, tensorcpu는 코어만 있음. / gpu는 코어 +전용 램 메모리 있음. cpu는 메모리와 스토리지 간에 데이터 스왑 가능, gpu와 cpu는 상호간에 데이터 스왑 불가Tensor 연산indexing and slicingdata = [ [1, 2, 3], [4, 5, 6], [7, 8, 9]]tensor = torch.tensor(data, dtype=torch.float)print(tensor)print('-'*50)print('First row: ',tensor[0])print('Last row: ',tensor[-1])print('First column: ', tensor[:, 0])print('Last col..

23일차 [ DL 개요 ]

저번주엔 번개불에 콩 구워먹듯이 ML을 했다. 이번주도 그러겠지. 사실 ML 내용도 다 숙지 하지 못했다. 그리고 체력도 바닥나서 살빠졌냐는 소리도 들었다. 심지어 먹는 양이 늘었는데도...이번주는 어떨지 좀 두렵다. 부디 내 뇌가 복습하는 기분으로 이번 주를 지내줬으면 좋겠다. 독서와 명상을 병행하면서 정신과 영혼을 살찌우고 키워나갈거다. 그렇게 버틸거다. 일정관리를 위해서 계획표를 어떻게 자동화할 지도 좀 고민해야겠다. 그냥 누가 주간 계획표 하나 짜줬으면 좋겠다. 학교 다닐땐 그런거 다 해줬는데 내가 하려니까 힘들다. 휴. 혼자서 다 해내는 사람들은 정말 대단한 것 같다...대세는 파이토치https://www.assemblyai.com/blog/pytorch-vs-tensorflow-in-2023/..

22일차 [ AutoML / XAI / Pipeline ]

PyCaretML 자동화 framework(?)https://colab.research.google.com/drive/141jfGXbkUX1ZQdStKuxVGtd3VEW00bwa#scrollTo=JDPQBD9o3rOD Google Colab NotebookRun, share, and edit Python notebookscolab.research.google.comcross validation fold default 10인데 일반적으로는 5 정도가 적당하다XAIhttps://colab.research.google.com/drive/13nCk-re9Cg-LPGzInskBpz07fE3mTnhK Google Colab NotebookRun, share, and edit Python notebookscolab...

21일차 [ 불균형 데이터셋 전처리 / cross validation / ML flow]

경진대회의 중요성포트폴리오에 단순히 나 AI할 줄 안다라고 어필하는 것이 아니라, 어디서 어떻게 무얼 해서 성능 개선을 했는 지를 알려주는 게 더 어필할 수 있다.마치 애플 신제품 발표회처럼, 몇 퍼센트의 성능을 어떤 시도를 통해 올렸다는 것을 알려줘야 나중에라도 우리 회사에 도움이 될 수 있겠다고 확신을 줄 수 있다. 시간,score을 축으로 놓고 무슨 시도를 해서 score가 올라가고 내려갔는지를 그려보자. 이런 시도를 통해 내가 경진대회에서 1등을 했다는 것을 보여주면 실력을 인정받을 수 있다.불균형 데이터https://colab.research.google.com/drive/14AflpyNTYblQToAOuC0DuJE7lcz3ZjbD Google Colab NotebookRun, share, an..

20일차 [ 비지도 학습 (데이터 차원 축소 및 행렬 분해) ]

Google Colab NotebookRun, share, and edit Python notebookscolab.research.google.com 간단 설명차원의 저주 (Curse of Dimensionality):데이터의 차원이 높아질수록, 필요한 데이터 양이 기하급수적으로 증가하게 됩니다. 예를 들어, 2차원에서는 데이터 포인트들이 서로 가깝게 있지만, 10차원에 가면 데이터 포인트들이 훨씬 멀어지게 되어, 서로의 유사성을 파악하기 어려워지는 현상을 말합니다. 이로 인해 머신러닝 모델의 성능이 저하될 수 있습니다.주성분 분석 (PCA, Principal Component Analysis):데이터의 차원을 축소하는 방법으로, 데이터의 변동성이 가장 큰 방향으로 새로운 축을 찾아내는 기법입니다. 주성..

타이타닉 데이터셋 분석 및 학습 설계도

WorkflowEDApivot_tablegroupby통계분석상관관계교차분석Data Preprocessing결측치 치환 혹은 삭제data encoding (one-hot encoding, mean-encoding, label-encoding)data scaling (standard scaler, minmax scaler, max abs scaler, robust scaler)train_test_split()Train분류모델 : 로지스틱 회귀, linear SVM,분류, 회귀 : Decision Tree, K-NN앙상블 : Light GBMrandom_state:42 고정HPO: Bayesian Search Evaluation회귀: R2, RMSE정규화: Ridge (L2), Lasso (L1)분류: Rec..