[디스플레이센서 이상요인 분석] 2021/7/28 상관관계 및 다중공선성 확인

July 28 2021

오늘 한 것

1.상관관계 확인

  • 상관관계가 높은 컬럼들에 대해 컬럼을 지우면 feature가 줄어들고 성능이 좋아지는줄 알았지만 그게 아니었음.
  • 그치만 상관관계가 1.0인 데이터들이 약 40여개 정도 존재하므로 확실히 제거해야할 feature가 생김
  • 무조건 다 삭제하는게 아니라 다음과 같은 상관관계가 존재할 경우 A만 남기고 B와 C는 삭제하면 되는데 이걸 어떤 방식으로 삭제해 나가야할지 내일 해봐야 함.
  • (A=B=C, D=E, F=G)이므로 A D F 만 남기고 삭제.
A B 1.0
A C 1.0
B C 1.0
D E 1.0
F G 1.0

2.다중공선성과 VIF에 대해 학습하고 데이터의 다중공선성 확인

  • 전체 컬럼 800여개 중에서 다중 공선성이 10이상인 컬럼들이 780여개 존재하며 그 수치가 매우x1000 큼.
  • 상관관계가 1.0인 컬럼들을 지우면 수치가 더 줄어들지 않을까 생각됨.
  • VIF Factor가 높은 컬럼들에 대해 제거하고 분산 팽창 요인(VIF)분석을 해봐야 하는데 컬럼 수가 너무 많아 팀원들과 분배하여 해봐야 할듯함.

  • 내일 저녁에 멘토링이 있는데 멘토링 전까지는 아직 다 못한 기술통계량을 더 분석하고 상관관계가 1.0인 컬럼들을 지운 다음에 분산 팽창 요인을 다시 계산하는 작업을 해봐야겠습니다.

Leave a comment