[디스플레이센서 이상요인 분석] 2021/8/5 멘토링 4회차 - PCA, 레이블 라벨링, Feature Importance
August 05 2021
오늘 한 것
- PCA
- 오늘은 PCA에 대해 많은 것을 알았습니다. 주성분 분석의 목적이 컬럼수를 줄이기 위함인줄 알았는데 아니었습니다. 일단 PCA에 대해 간략히 적고 시간이 있을 때 PCA에 대해 더 자세히 다뤄보도록 하겠습니다.
- Label의 라벨링
- 불량품의 기준을 1-3사분위수 이외로 지정하였는데 너무 많은 범위로 잡은 것같아 줄여야 할 것같습니다.
- 이제까지 공장에서 디스플레이 센서가 감지하는 수치에 대해 분석하여 불량요인이 되는 센서를 찾는 줄 알았지만 나무플래닛에서 제공한 PPT를 다시 보니 센서는 생산 공정에 대한 이상탐색 센서였습니다. 이에 따라 github의 프로젝트명을 수정해야한다고 생각합니다. 어떤 이름이 좋을지 구글링을 해보고 있는데 주말동안 생각해봐야겠습니다.
- 서비스제공
- 프로젝트 목표에 대해 주어진 데이터를 불량 공정 요인분석에서 끝내는게 아니라 어느 데이터를 이용하여도 불량 공정 요인분석하게 해주도록 서비스를 제공하는 것이 어떨까 하는 선생님의 조언을 받았습니다.
월요일까지 할 것
- 각자 담당한 분류 모델 알고리즘에 대해 공부하고 해당 알고리즘으로 학습 및 PPT 페이지 만들기
모델 알고리즘
- Random Forest <- 내가 담당한 알고리즘
- SVM (Support Vector Machine)
- GBM
PPT작성
개인 공부
- Naive Bayes
- Logistic Regression
- Decision Tree(의사결정 트리)
- 맞는지 확인 필요 8/6
- 전체 컬럼에 대해 변동성이 강한 피처의 개수를 알아낸다
- Scree Chart를 그려 elbow Point로 찾기
- 변동성의 누적 비율이 80%이상이 되는 지점의 피처 개수로 찾기(기준은 꼭 80%여야 되는 것은 아니다)
- 좀 더 elbow Point보다는 좀 더 정확한 방법임.
- 분류모델을 학습 후 feature Importance 로 중요도가 높은 피처를 알아낸다.
- 2에서 알아낸 중요도가 높은 피처와 label과의 산포도를 그려 피처에 따라 label의 값의 분포가 달라지면 새당 피처는 중요도가 높은 피처가 맞고, 피처의 값에 따라 label의 값이 뭐든 될 수 있으면 해당 피처는 중요도가 높지 않은 피처이다.
- 중요도가 높지 않은 피처가 2에서 높게 나온 이유
- 연속값을 가진 label의 라벨링을 잘못하였을 경우
- 중요 피처를 이전의 전처리 과정에서 제거해버렸을지도 모름
- 해결방법 : 마음에 걸리는건 VIF계수로 인한 컬럼 제거밖에 없음.
- 모델 학습의 파라미터를 잘못 설정하였을지도 모름
- 해결방법 : 정확도가 아닌 roc-auc가 높은 모델을 만들어 중요피처를 뽑아보도록 해보자
- PCA수행 전후로 2에서 알아낸 중요도가 높은 피처와 label과의 산포도를 그려 산포도의 형태가 유지되는지 확인힌다.
- 산포도의 형태가 유지되면 해당 피처는 중요도가 높은 피처가 맞음
- 산포도의 형태가 유지되지 않는다면 해당 피처는 중요도가 높은 피처가 맞음
Leave a comment