[전력계량기OCR인식] 2021/8/31 멘토링 1회차 - 프로젝트 소개
멘토링 진행후 추가적으로 얻은 데이터정보나 프로젝트에 대한 내용을 정리하였습니다.
멘토링 내용
- 기간 : 4주간 ocrOpenCV로 개발
- 멘토링 시간 : 1주일에 1번 월요일에 진행. 시간은 미정.
데이터 정보
하나의 사진으로 이루어진 전력량 계량기와 모뎀의 이미지이며 전력량 계량기 종류별로 폴더분리되어 있지않고 섞여 있음
전력량 계량기 종류
전력량 계량기의 종류는 아래 4가지 타입으로 존재함.
- 표준형
- AE타입
- E타입
- G타입
전력량 계량기의 이미지 예시
추출해야하는 정보
- 전력량 계량기에 부착된 스티커
- 계기 타입
- 전력량
- 상세종류
- 모델명
- 제조번호
- 전력량 계량기 옆에 있는 모뎀의 원격 바코드 이미지
목표
- 4주안에 이미지에서 텍스트 추출 후 계량기 타입별 분류까지가 목표임
- 요금에 영향을 미치므로 문자추출률과 문자 인식률에 대한 목표치를 잘 잡아야함
- 추출률과 인식률은 따로 봐야됨.
- 각도도 틀어져 있고 조명이 야외라서 60~70%
- 객체 인식해서 문자추출 안드로이드 텍스트출력하면 베스트이지만 시간관계상 어려울 것임.
제조사
-
약 62개의 제조사가 있는데 제조사가 달라도 적혀있는 내용의 포맷은 비슷함.
-
폰트는 제조사마다 다름
데이터 수집방법
- 계량기 이미지의 데이터는 공공기관에서 받은 이미지 데이터
- 회사에서 직접 인터넷 크롤링하여 수집한 이미지 데이터
- 데이터 직접 수집해서 사용해도 됨
필요한 처리
- 액정부분에 빛반사가 있어서 반사처리 필요
- 정방향으로 찍지 않은 사진도 있어서 회전 필요
-
10가지 내외 영역이 고정된 영역에서 문자인식 돌리는 방식으로 하면 됨 -> ?
- 프로젝트 타겟팅이 되면 동사무소 문서 양식같은 것처럼 사진 자체를 몇 px~ 몇px을 추출해야하는지 알될 것임.
- 주변에 있는 배경들 처리하는데에도 시간이 걸릴 것임
- 핸드폰 카메라의 보정 소프트웨어에 대한 이미지 처리도 필요할 것임
- 카메라마다 광각, 스펙이 달라서 인식 서비스에 영향을 많이 줄 것임
-
사진마다 특성(빛번짐, 각도, 보정필터 등)이 달라 공통적으로 뽑아내야하는 처리가 필요
- 계량기 주변에 있는 문자까지도 해보는 것이 난이도는 높지만 좋을 것임.
서비스
- 안드로이드로 아웃풋이 나오므로 pyTorch를 하는 것이 좇으며 OpenCV로 안해도 됨.
- Convert는 모델 성능에 영향을 주므로 c나 c++ => Java Convert 코팅할 것을 고려하여 계획하는 것이 좋음.
할 것
- 9/2까지 계획서 작성하여 제출하기
Leave a comment