[디스플레이센서 이상요인 분석] 2021/8/10 멘토링 5회차 - RandomForest

August 10 2021

오늘 한 것 - 소스파일 정리 후 재실행하여 결과 넣기

레이블 분류 라벨링

  1. 값이 상위 5%이내를 불량품으로 지정

  2. 값이 상위 1%이내를 불량품으로 지정

32_K-Digital_Training_Project-Mentoring5_132_K-Digital_Training_Project-Mentoring5_2

PCA

  • 57개의 피처가 나머지 피처에 대해 90% 설명가능
32_K-Digital_Training_Project-Mentoring5_5

분류 모델 훈련

  • RandomForestClassifier

    • 재현율이 0.2정도로 매우 낮으며 피처중요도가 가장 높은 피처와 레이블의 분포를 그려보니 그래도 -4이하로는 레이블값이 양품(0)으로 나옵니다. => 조금은 분류가 되는 거 같음
32_K-Digital_Training_Project-Mentoring5_6
  • GridSearchCV로 하이퍼파라미터 튜닝을 해봤지만 0.3정도까지밖에 올라가지 않습니다.

  • 오버샘플링을 해봤는데 재현율이 0.6정도로 올라갑니다

  • 하지만, 피처중요도가 가장 높은 피처와 레이블의 분포도 그래프를 그려보니 피처의 값과 상관없이 레이블이 0과 1의 값을 갖고 있어 데이터가 혼잡해 보입니다.

  • SVM

  • XGBClassifier

재현율을 높일 수 있는 다른 방안

  1. 임계값 조정 : Binarizer객체에 임계값을 설정하여 fit과 transform하고 재현율이 높은 지점 찾기
  2. 하이퍼 파라미터 조정
  3. RFE로 성능이 좋아지는 지점의 피처추출해보기

Leave a comment