개인적으로 생각하는 일어 추출시의 불편한점...
1. 히라가나/한문의 병기
-> 그냥 읽을때나 해석할때는 한문에 히라가나가 적혀있으면 편하지만 OCR로 문자를 추출할때는 미묘하게
히라가나와 한문의 위치가 꼬여서 확인할때 시간을 낭비시킴.
2. 세로쓰기
-> 추출한뒤 정확히 추출되었는지 확인할때 마다 미묘하게 했깔리는 상황을 만들어 줍니다.
-> 세로쓰기 특유의 마침표나 따옴표
3. 일어 특유의 마침표나 따옴표
-> OCR로 추출하면 고확율로 꼬이는 부분
-> 마침표의 경우 이게 띄워쓰기가 된건지 안된건지 했깔리고
-> 따옴표의 경우 일어식 큰따옴표와 작은 따옴표를 시스템이 구분을 못함
P.S: 대학에서 교향으로 일어 배울때 느낀거지만, 히라가나/카타가나/한자/띄어쓰기 없음 이라는 문자 시스템을 잘도 쓰고 있다는 생각이 들어군요.
다만 중국어는 그나마 물어 볼 수 있는 지인이 2명이 있어서...
추천0
[신고]