[디스플레이센서 이상요인 분석] 2021/8/5 멘토링 4회차 - PCA, 레이블 라벨링, Feature Importance

August 05 2021

오늘 한 것

  • PCA
    • 오늘은 PCA에 대해 많은 것을 알았습니다. 주성분 분석의 목적이 컬럼수를 줄이기 위함인줄 알았는데 아니었습니다. 일단 PCA에 대해 간략히 적고 시간이 있을 때 PCA에 대해 더 자세히 다뤄보도록 하겠습니다.
  • Label의 라벨링
    • 불량품의 기준을 1-3사분위수 이외로 지정하였는데 너무 많은 범위로 잡은 것같아 줄여야 할 것같습니다.
  • 이제까지 공장에서 디스플레이 센서가 감지하는 수치에 대해 분석하여 불량요인이 되는 센서를 찾는 줄 알았지만 나무플래닛에서 제공한 PPT를 다시 보니 센서는 생산 공정에 대한 이상탐색 센서였습니다. 이에 따라 github의 프로젝트명을 수정해야한다고 생각합니다. 어떤 이름이 좋을지 구글링을 해보고 있는데 주말동안 생각해봐야겠습니다.
  • 서비스제공
    • 프로젝트 목표에 대해 주어진 데이터를 불량 공정 요인분석에서 끝내는게 아니라 어느 데이터를 이용하여도 불량 공정 요인분석하게 해주도록 서비스를 제공하는 것이 어떨까 하는 선생님의 조언을 받았습니다.

월요일까지 할 것

  • 각자 담당한 분류 모델 알고리즘에 대해 공부하고 해당 알고리즘으로 학습 및 PPT 페이지 만들기

모델 알고리즘

  • Random Forest <- 내가 담당한 알고리즘
  • SVM (Support Vector Machine)
  • GBM

    PPT작성

개인 공부

  • Naive Bayes
  • Logistic Regression
  • Decision Tree(의사결정 트리)

- 맞는지 확인 필요 8/6

  1. 전체 컬럼에 대해 변동성이 강한 피처의 개수를 알아낸다
    • Scree Chart를 그려 elbow Point로 찾기
      • 이는 기울기가 애매한 부분이 있을지도 모름.
    • 변동성의 누적 비율이 80%이상이 되는 지점의 피처 개수로 찾기(기준은 꼭 80%여야 되는 것은 아니다)
      • 좀 더 elbow Point보다는 좀 더 정확한 방법임.
  2. 분류모델을 학습 후 feature Importance 로 중요도가 높은 피처를 알아낸다.
  3. 2에서 알아낸 중요도가 높은 피처와 label과의 산포도를 그려 피처에 따라 label의 값의 분포가 달라지면 새당 피처는 중요도가 높은 피처가 맞고, 피처의 값에 따라 label의 값이 뭐든 될 수 있으면 해당 피처는 중요도가 높지 않은 피처이다.
    • 중요도가 높지 않은 피처가 2에서 높게 나온 이유
      • 연속값을 가진 label의 라벨링을 잘못하였을 경우
        • 해결방법 : 불량이 될 기준을 다르게 해보자
      • 중요 피처를 이전의 전처리 과정에서 제거해버렸을지도 모름
        • 해결방법 : 마음에 걸리는건 VIF계수로 인한 컬럼 제거밖에 없음.
      • 모델 학습의 파라미터를 잘못 설정하였을지도 모름
        • 해결방법 : 정확도가 아닌 roc-auc가 높은 모델을 만들어 중요피처를 뽑아보도록 해보자
  4. PCA수행 전후로 2에서 알아낸 중요도가 높은 피처와 label과의 산포도를 그려 산포도의 형태가 유지되는지 확인힌다.
    • 산포도의 형태가 유지되면 해당 피처는 중요도가 높은 피처가 맞음
    • 산포도의 형태가 유지되지 않는다면 해당 피처는 중요도가 높은 피처가 맞음

Leave a comment