사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템

박서연; 옥철영

doi:10.5626/KTCP.2021.27.3.145

주제분류

...

저널정보

저자정보

박서연 (울산대학교)
옥철영 (울산대학교)

이용수
내서재: 4

내서재에 추가
되었습니다. 내서재에서
삭제되었습니다.

이 논문의 연구 히스토리 (2)

2021

사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템

박서연 , 옥철영 정보과학회 컴퓨팅의 실제 논문지 2021.03 학술저널

2020

사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 시스템

박서연 , 옥철영 한국정보과학회 학술발표논문집 2020.07 학술대회자료

이 논문의 후속연구가 궁금하신가요?
연관 학술논문 또는 학술발표를 통해 보다 발전된 연구결과를 확인하실 수 있습니다.
이 논문의 연구 히스토리 확인하기

초록·키워드

오류제보하기

기존의 자동 띄어쓰기 시스템은 사용자의 띄어쓰기 정보를 활용하지 않고 띄어쓰기를 모두 제거한 문장에 대해 공백을 삽입하는 방식으로 띄어쓰기 오류를 수정한다. 이러한 방식으로 띄어쓰기 오류를 교정할 경우, 사용자가 올바르게 입력한 띄어쓰기를 수정하는 문제와 사용자의 의도를 충분히 반영하지 못하는 문제가 발생한다. 본 논문에서는 이러한 문제를 보완하기 위해 사용자가 입력한 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템을 제안한다. 실험 결과, 오류가 10% 포함된 문장에 대해서 음절 단위 정확률 99.05%, 어절 단위 F1 score 95.57%라는 높은 성능을 보였다. 이는 사용자의 띄어쓰기 정보를 활용하지 않은 기존 방식보다 음절 단위 정확률 1.85%, 어절 단위 F1 score 5.84% 향상된 결과이다. 또한, 딥러닝 방식이 아닌 음절 확률 통계정보만을 사용함으로써 초당 2691.69 문장의 빠른 교정 속도를 보였다.

Previous researches on automatic spacing corrected errors by inserting spaces in sentences without utilizing the user’s spacing information. The present approach involves modifying the user’s input incorrectly and a problem that does not sufficiently reflect user intent. In this paper, we propose a syllable N-gram based Korean word segmentation system that reflects the user’s intent. The comparison between the proposed model and the model using previous methods demonstrated an increase in the syllable accuracy from 97.20% to 99.05% and the word F1 score from 89.73% to 95.57% in the proposed model. Also, the proposed model was able to correct 2691.69 sentences per second.

#자동 띄어쓰기 #한국어 띄어쓰기 및 붙여쓰기 #사용자 의도 반영 띄어쓰기 #음절 N-gram #automatic spacing #korean word segmentation #word segmentation reflecting user's intent #syllable n-gram