[디스플레이센서 이상요인 분석] 2021/7/29 멘토링 2회차 내용

July 29 2021

오늘 한 것

워낙 피처가 많다보니 VIF계수가 10이 넘는 컬럼이 780개나 되었고 그 중 VIF계수가 가장 큰 컬럼은 $7.9010502e+13$ 였습니다. 그래서 오늘은 상관관계가 1.0인 컬럼들에 대해 그룹화를 하고 각 그룹내에서 한 컬럼 이외의 나머지 컬럼들은 제거하여 VIF계수를 확인해보았습니다. 컬럼 수가 가장 많은 그룹을 제거했을 때 $6.xxxxxxe+13$ 정도로 낮아지는 것을 확인했습니다.

금요일까지 각자 할 것

  1. 상관관계 1인 각 그룹에서 컬럼하나를 제외한 나머지 칼럼을 제거하여 다중공선성 변화확인하기
  2. 분산이 0인 컬럼은 제거하기

일요일 오전까지 각자 할 것

  1. Left, Right, L, R에 따라서 컬럼 나누기 나중에 폐기율 LEFT RIGHT 나눠서 분류를 해보기 위해
  2. 주성분 분석해서 산점도 그려보기
  3. PPT작성 - 담당자 정해야됨

목요일 까지 해야 하는 것

  1. VIF계수 구해서 다중공선성이 가장 높은 것을 제거 ->다중공선성이 30이하가 될때까지 이 과정을 계속 반복.

  2. 상관관계 0.x로 줄여서 VIF계수구하기

  3. 시계열
  4. 종속변수 자체를 연관분석, 시계열분석 해보기 (큰영향은 안 줌)
  5. 분류 모델로 만드는 것이 가장 좋음!
  6. 레이블의 값을 이진화 하여 값이 어느 정도로 나오는 것이 좋을지 찾아보자

Leave a comment