[디스플레이센서 이상요인 분석] 2021/7/29 멘토링 2회차 내용
오늘 한 것
워낙 피처가 많다보니 VIF계수가 10이 넘는 컬럼이 780개나 되었고 그 중 VIF계수가 가장 큰 컬럼은 $7.9010502e+13$ 였습니다. 그래서 오늘은 상관관계가 1.0인 컬럼들에 대해 그룹화를 하고 각 그룹내에서 한 컬럼 이외의 나머지 컬럼들은 제거하여 VIF계수를 확인해보았습니다. 컬럼 수가 가장 많은 그룹을 제거했을 때 $6.xxxxxxe+13$ 정도로 낮아지는 것을 확인했습니다.
금요일까지 각자 할 것
- 상관관계 1인 각 그룹에서 컬럼하나를 제외한 나머지 칼럼을 제거하여 다중공선성 변화확인하기
- 분산이 0인 컬럼은 제거하기
일요일 오전까지 각자 할 것
- Left, Right, L, R에 따라서 컬럼 나누기 나중에 폐기율 LEFT RIGHT 나눠서 분류를 해보기 위해
- 주성분 분석해서 산점도 그려보기
- PPT작성 - 담당자 정해야됨
목요일 까지 해야 하는 것
-
VIF계수 구해서 다중공선성이 가장 높은 것을 제거 ->다중공선성이 30이하가 될때까지 이 과정을 계속 반복.
-
상관관계 0.x로 줄여서 VIF계수구하기
- 시계열
- 종속변수 자체를 연관분석, 시계열분석 해보기 (큰영향은 안 줌)
- 분류 모델로 만드는 것이 가장 좋음!
- 레이블의 값을 이진화 하여 값이 어느 정도로 나오는 것이 좋을지 찾아보자
Leave a comment