2021/8/27 - 와이즈넛/엘핀 프로젝트 설명

August 27 2021

와이즈넛 기술 소개

  • 프로젝트 설명 일시 : 8월 26일 목요일 오후 5시
  • 와이즈넛
    • 1998년 가격 비교 사이트 mySimon에서 출발한 국내 벤처 기업 검색 SW를 시작으로 인공지능 챗봇을 수행함
    • 챗봇연구는 4년정도 되었음 -> 최종 목표는 인공지능 집사 Jarvis
  • 검색창은 검색 엔진을 이용함 - > 텍스트를 다룬다는 것
  • 클라우드 기반의 머신러닝을 하고 있음
  • 주로 연구단계에서 python으로 하고, 서비스는 Java나 C++로 converting

49_K-Digital_Training_Project_1

AI챗봇 구현에 필요한 기술과 기능 구성

  • 인공지능은 특정한 목적(챗봇은 입력한 질문에 원하는 대답을 내기 위한 목적)을 이루기 위한 도구일 뿐임
  • Machine Reading Comprehension : 글을 학습하고 글의 질문에 대한 답변을 해주는 것
  • QA Knowledge Graph
  • Keyword, Pattern Matching : 챗봇
  • Intent, entity, Classification : 지도학습의 분류방법

프로젝트 소개

  • 데이터 : 제공해줌
  • 프로젝트 세개를 3주간 모두 진행함
  • 3개의 프로젝트는 각각 일주일내로 진행할 수 있는 분량

  • tensorflow 이용
  • 서비스 구현은 안할 것임
  • 챗봇은 아키텍처에 맞는 프로그래밍하는데 많은 시간을 소요함
  • 유사도 평가에는 수학이 필요하긴 하지만 많이 차지하지 않음
  • 멘토링은 주 3회 진행 예정:
    • 월 - 프로젝트 설명
    • 수 - 중간점검
    • 금 - 마지막 점검

1.키워드 추출 및 데이터 핸들링

  • input데이터를 형태소분석기로 분리하여 모델링을 함

  • TF-ISF - Top20

  • TextRank - Top20 : 구글의 검색엔진 방식

    • 중요한 단어가 다른 단어들로부터 많은 링크를 받는 점을 활용
    • 문맥상 이어진 단어는 같이 스코어가 높음
    • 링크가 적은 단어는 상대적으로 스코어가 낮음

2. 단어 임베딩을 통한 유사도 평가

  • word2Vec : 단어를 벡터로 표현하는 것
  • countvector는 숫자에 의미가 없음
    • 단어를 숫자로 표현했지만 의미가 강함 -> sementic하다고 함
  • 벡터로 표현한 숫자가 비슷함 -> 의미가 비슷하다는 의미임

3. 문서 분류 알고리즘 이해


1.AI기반의 OCR인식

  • 텍스트 이미지를 인식하여 텐스트를 추출함

데이터

  • 계량기에서 얻은 6-7종류의 한글, 영어, 숫자, QR 이미지

어디까지 하나?

  • PCA검증
  • 파이썬에서 안드로이드까지 코팅은 아마 시간이 부족할 것(C언어)
  • 앱까지 가능한지는 훈련생의 역량에 따라 다를 것

2. 안면인식

  • OpenCV로 안면인식모델을 개발

  • 공공기관에서 서비스 중임

데이터

  • AI Hub의 데이터를 사용할 것

Updated:

Leave a comment