2021/8/27 - 와이즈넛/엘핀 프로젝트 설명
와이즈넛 기술 소개
- 프로젝트 설명 일시 : 8월 26일 목요일 오후 5시
- 와이즈넛
- 1998년 가격 비교 사이트 mySimon에서 출발한 국내 벤처 기업 검색 SW를 시작으로 인공지능 챗봇을 수행함
- 챗봇연구는 4년정도 되었음 -> 최종 목표는 인공지능 집사 Jarvis
- 검색창은 검색 엔진을 이용함 - > 텍스트를 다룬다는 것
- 클라우드 기반의 머신러닝을 하고 있음
- 주로 연구단계에서 python으로 하고, 서비스는 Java나 C++로 converting
AI챗봇 구현에 필요한 기술과 기능 구성
- 인공지능은 특정한 목적(챗봇은 입력한 질문에 원하는 대답을 내기 위한 목적)을 이루기 위한 도구일 뿐임
- Machine Reading Comprehension : 글을 학습하고 글의 질문에 대한 답변을 해주는 것
- QA Knowledge Graph
- Keyword, Pattern Matching : 챗봇
- Intent, entity, Classification : 지도학습의 분류방법
프로젝트 소개
- 데이터 : 제공해줌
- 프로젝트 세개를 3주간 모두 진행함
-
3개의 프로젝트는 각각 일주일내로 진행할 수 있는 분량
- tensorflow 이용
- 서비스 구현은 안할 것임
- 챗봇은 아키텍처에 맞는 프로그래밍하는데 많은 시간을 소요함
- 유사도 평가에는 수학이 필요하긴 하지만 많이 차지하지 않음
- 멘토링은 주 3회 진행 예정:
- 월 - 프로젝트 설명
- 수 - 중간점검
- 금 - 마지막 점검
1.키워드 추출 및 데이터 핸들링
-
input데이터를 형태소분석기로 분리하여 모델링을 함
-
TF-ISF - Top20
-
TextRank - Top20 : 구글의 검색엔진 방식
- 중요한 단어가 다른 단어들로부터 많은 링크를 받는 점을 활용
- 문맥상 이어진 단어는 같이 스코어가 높음
- 링크가 적은 단어는 상대적으로 스코어가 낮음
2. 단어 임베딩을 통한 유사도 평가
- word2Vec : 단어를 벡터로 표현하는 것
- countvector는 숫자에 의미가 없음
- 단어를 숫자로 표현했지만 의미가 강함 -> sementic하다고 함
- 벡터로 표현한 숫자가 비슷함 -> 의미가 비슷하다는 의미임
3. 문서 분류 알고리즘 이해
1.AI기반의 OCR인식
- 텍스트 이미지를 인식하여 텐스트를 추출함
데이터
- 계량기에서 얻은 6-7종류의 한글, 영어, 숫자, QR 이미지
어디까지 하나?
- PCA검증
- 파이썬에서 안드로이드까지 코팅은 아마 시간이 부족할 것(C언어)
- 앱까지 가능한지는 훈련생의 역량에 따라 다를 것
2. 안면인식
-
OpenCV로 안면인식모델을 개발
-
공공기관에서 서비스 중임
데이터
- AI Hub의 데이터를 사용할 것
Leave a comment