
최근 몇 년간 한국어 학습자 말뭉치의 중요성과 연구 가치에 대한 논의들이 국내외 학자들을 중심으로 눈에 띄게 활발해지고 있다. 그 노력의 일환으로 지난 수년간 인디애나 대학과 웰슬리 대학의 공동 연구팀은 한국어 학습자 자료와 이를 활용한 자동 오류 처리 를 목표로 KoLLA (Korean Learner Language Analysis) 시스템을 구축하고 자료를 공개한 바 있다. 다년간의 연구 성과로 초급과 중급 100명의 학습자 작문을 포함한 소규모 말뭉치가 구축되었으며 조사 오류 정보를 더한 주석 말뭉치, 조사 오류의 자동 탐지 프로그램들이 개발되었다. 그 동안의 연구 성과를 중심으로 동사 활용 오류, 영대용어 (zero anaphor) 등에 대한 주석 작업과 말뭉치 확장 작업이 이어지고 있다. 이 논문에서는 KoLLA 시스템을 중심으로 학습자 말뭉치 구축과 주석 과정을 살펴보고, 학습자 자료의 주석에서 고려해야 할 실질적 문제들과 해결방안을 짚어 보고자 한다. 말뭉치 주석 정보는 말뭉치의 질과 활용성을 결정하는 주요 요인으로 연구의 목적에 따라 주석 결과물은 매우 다른 양상을 가지게 된다. 이 연구는 자연어 처리 시스템의 구현을 돕는 주석 말뭉치의 도구적 기능에 초점을 두는데, 이를 위해서는 주석의 견고성과 안정성이 보장되어야 한다. 따라서 본 연구에서는 EXMARaLDA의 다층위 주석 시스템을 도입하고, 띄어쓰기 오류와 맞춤법 오류, 어절 분할 (segmentation)의 주석을 통해 자료의 전처리 과정을 간소화한다. 실제 주석과 관련해 논의할 사항으로는 최종 목표 형태 (target form) 설정, 문법성의 정의, 다중 목표 형태의 제시 방식, 주변 오류들의 처리 방안 등이 있다. 주석의 신뢰도를 결정하는 주석자 일치도의 측정과 관련한 어려움도 논의의 대상이 된다. 끝으로 전처리 주석 자질이 어떻게 말뭉치에 더해지는가를 실제 예를 통해 간략히 제시하기로 한다.


학습자 말뭉치, 오류 주석, 다층위 주석, 조사 오류, 어미 활용 오류, 영대명사, 주석자 일치도


