[디스플레이센서 이상요인 분석] 2021/8/12 멘토링 6회차 - 성능 개선

August 12 2021

오늘 한 것 - 성능 개선

  • 그저께는 3가지의 분류모델을 이용하여 모델학습을 하고, 하이퍼파라미터튜닝과 업샘플링까지 해보았지만 피처중요도가 높은 피처로 레이블이 분류가 잘 되지 않아 성능이 좋지 않았습니다. 그래서 RFE를 사용해보거나 임계치의 기준을 바꿔보는 등으로 성능을 개선해보았지만 지난 시간보다 성능이 더 좋아지지 않았습니다.


8/12 멘토링 내용

8/17까지 할 것

불량품에 영향을 주는 요인 = > 피처 3개 이상 찾아보기

  • feature importance
  • 다중공선성 제거, 상관계수로 제거된 피처들 중에 있을 수도 있음
  • 회귀모델의 coef_를 랏쏘와 릿지의 제약방법을 바꿔 가며 모델링해서 뽑아보고, 아래 방법으로 도출한 피처와 비교해보기
  • 트리를 이용해서 노드를 선택해서 얼마에서 얼마로 영향을 주는지 찾아야 함
잘 된 분류의 기준 –> 아래에 해당하는 말단노드(리프)를 찾아서 그 상위노드 쭉 탐색
  • 지니계수가 낮고
  • 샘플의 수가 많고
  • 불량의 개수가 많은

  • 노드를 화면에서 확대하며 보는 수밖에 없음
수행시 설정내용의 공통 조건
  • VIF하기 전의 전처리 결과로 하기
  • 레이블 분류 임계값은 0.01로하기
  • PCA수행시 n_component 뽑아내는 기준은 누적 기여율이 0.9이상인 피처의 개수임.

Leave a comment