머신러닝의 개념

June 23 2021

빅데이터 분석

  • 빅데이터 분석이란 다양한 소스에서 다양한 크기(테라바이트 - 제타바이트)의 정형, 반정형 및 비정형 데이터를 포함하는 매우 방대하고 다양한 데이터 세트에 대해 고급 분석 기술을 사용하는 것입니다.

  • 여기서 정형데이터는 데이터베이스의 정해진 규칙(Rule)에 맞게 데이터를 들어간 데이터 중에 수치 만으로 의미 파악이 쉬운 데이터로, 날짜나 이름, 성별등과 같이 데이터를 보고 그 의미를 알 수 있고, 규칙적인 값으로 되어있는 것을 말합니다.

  • 반정형 데이터는 HTML이나 XML과 같은 포맷을 말하며 비정형 데이터는 텍스트, 음성, 영상과 같이 규칙이 없어 의미를 파악하기 힘든 데이터들을 말합니다.

머신러닝

  • 머신러닝(Machine Learning)
  • 원인데이터에 대한 결과값을 학습 및 검증하여 이전에 본 적이 없는 데이터를 예측하는 것입니다. 예를 들어, 음악 스트리밍 유저가 자주 듣는 음악에 대해 학습하고 검증하여 유저가 좋아할만한 음악을 추천해줄 수 있는 것이죠.

  • 이때, 원인데이터는 피처(=속성,feature)라고 부르며, 원인에 의한 결과값은 레이블(=클래스, 타겟, 결정값, label) 이라고 부릅니다.

  • 만약 한 학생의 수업시간과 자습시간에 따른 성적이 어떤지 알고자 할때 수업시간과 자습시간은 성적에 대한 원인으로 feature라고 하며, 성적은 lable라고 부릅니다.

모델(Model)

  • 피처와 레이블의 관계를 정의한 것모델이라고 하며 모델을 만들고 관계를 배우는 것‘학습한다’ 또는 ‘훈련한다’ 고 합니다.

  • 그리고 모델을 학습시키려면 학습데이터의 피처와 레이블을 이용하며, 올바르게 학습이 되었는지 검증을 해야 하는데요,

검증을 할 때는 절대! 학습에 사용된 데이터를 사용해서는 안됩니다.

  • 학습시키는데에 사용한 데이터로 검증을 하면 당연히 학습이 잘 되었다고 결과가 나오게 되는데(얼마나 잘 검증되었는지는 예측값이나 확률수치로 보여줍니다) 새로운 데이터로 확인을 해보면 잘 학습되었다는 검증결과와는 달리 학습이 잘되었을 수 있기 때문이죠.

  • 예를 들어 우리가 문제집로 공부(학습)하고 모의고사(검증)를 보고 수능(예측)을 본다고 해봅시다. 학습내용을 이해하지 않고 문제집을 외우고 학습할 때 사용한 문제집 그대로 출제된 모의고사문제를 풀면 당연히 모의고사점수는 높겠죠. 하지만 전혀 다르게 출제된 수능성적은 좋지 않을 것입니다. 따라서 학습할 때와 다른 문제로 모의고사를 봐야 제대로 학습했는지 알 수 있으므로 학습데이터와 검증데이터는 달라야 합니다

  • 나중에 다루겠지만 이를 과대적합(overfitting)이라고 합니다.

피처와 레이블

  • 모델을 학습할 때는 학습데이터의 피처(원인 데이터)와 레이블(결과 데이터)이 사용되고, 검증할 때는 테스트데이터의 피처(원인 데이터)와 레이블(결과 데이터)이 사용됩니다.

  • 아래는 머신러닝 소스에서 학습데이터와 테스트데이터를 각각 지칭하는 변수들로 앞으로 주구장창 보게 될테니 외울 필요까지는 없습니다.

    • X_train : 학습데이터의 피처
    • y_train : 학습데이터의 레이블
    • X_lable : 테스트데이터의 피처
    • y_lable : 테스트데이터의 레이블

Leave a comment