초록

최근 몇 년간 한국어 학습자 말뭉치의 중요성과 연구 가치에 대한 논의들이 국내외 학자들을 중심으로 눈에 띄게 활발해지고 있다. 그 노력의 일환으로 지난 수년간 인디애나 대학과 웰슬리 대학의 공동 연구팀은 한국어 학습자 자료와 이를 활용한 자동 오류 처리 를 목표로 KoLLA (Korean Learner Language Analysis) 시스템을 구축하고 자료를 공개한 바 있다. 다년간의 연구 성과로 초급과 중급 100명의 학습자 작문을 포함한 소규모 말뭉치가 구축되었으며 조사 오류 정보를 더한 주석 말뭉치, 조사 오류의 자동 탐지 프로그램들이 개발되었다. 그 동안의 연구 성과를 중심으로 동사 활용 오류, 영대용어 (zero anaphor) 등에 대한 주석 작업과 말뭉치 확장 작업이 이어지고 있다. 이 논문에서는 KoLLA 시스템을 중심으로 학습자 말뭉치 구축과 주석 과정을 살펴보고, 학습자 자료의 주석에서 고려해야 할 실질적 문제들과 해결방안을 짚어 보고자 한다. 말뭉치 주석 정보는 말뭉치의 질과 활용성을 결정하는 주요 요인으로 연구의 목적에 따라 주석 결과물은 매우 다른 양상을 가지게 된다. 이 연구는 자연어 처리 시스템의 구현을 돕는 주석 말뭉치의 도구적 기능에 초점을 두는데, 이를 위해서는 주석의 견고성과 안정성이 보장되어야 한다. 따라서 본 연구에서는 EXMARaLDA의 다층위 주석 시스템을 도입하고, 띄어쓰기 오류와 맞춤법 오류, 어절 분할 (segmentation)의 주석을 통해 자료의 전처리 과정을 간소화한다. 실제 주석과 관련해 논의할 사항으로는 최종 목표 형태 (target form) 설정, 문법성의 정의, 다중 목표 형태의 제시 방식, 주변 오류들의 처리 방안 등이 있다. 주석의 신뢰도를 결정하는 주석자 일치도의 측정과 관련한 어려움도 논의의 대상이 된다. 끝으로 전처리 주석 자질이 어떻게 말뭉치에 더해지는가를 실제 예를 통해 간략히 제시하기로 한다.

키워드

학습자 말뭉치, 오류 주석, 다층위 주석, 조사 오류, 어미 활용 오류, 영대명사, 주석자 일치도

참고문헌(25)open

  1. [학술대회] Abuhakema, G. / 2008 / Annotating an Arabic learner corpus for error / Proceedings of LREC 2008 : 13470 ~ 11350

  2. [학술대회] Boyd, A. / 2010 / EAGLE: an error-annotated corpus of beginning learner German / Proceedings of LREC-10 : 1897 ~ 1902

  3. [학술대회] Dickinson, M. / 2011 / Developing methodology for Korean Particle error detection / Proceedings of the 6th Workshop on Innovative Use of NLP for Building Educational Applications : 81 ~ 86

  4. [학술대회] Gamon, M. / 2010 / Using mostly native data to correct errors in learner’s writing / Proceedings of HLT-NAACL-10 : 163 ~ 171

  5. [단행본] Granger, S. / 2015 / The Cambridge Handbook of Learner Corpus Research / Cambridge University Press

  6. [학술대회] Hana, J / 2010 / Error-tagged learner corpus of Czech / Proceedings of the Fourth Linguistic Annotation Workshop : 11 ~ 19

  7. [학술대회] Hanaoka, H. / 2010 / A Japanese particle corpus built by example-based annotation / Proceedings of LREC 2010 2010 : 1876 ~ 1880

  8. [학위논문] Israel, R. / 2014 / Building a Korean Particle Error Detection System from the Ground Up

  9. [학술대회] Israel, R. / 2013 / Detecting and correcting learner Korean particle omission errors / Proceedings of the 6th International Conference on Natural Language Processing (IJCNLP-13) : 1419 ~ 1427

  10. [단행본] Ko S / 2004 / An Analysis of Korean Learner Corpora and Errors / Hanguk Publishing Co

  11. [학술대회] Kwon, N. / 2005 / Heritage language retention: A quantitative study / Heritage Learners: Overcoming Curricular Challenges, Pre-Conference Symposium of the 25th South Asian Language Analysis (SALA 25)

  12. [학술대회] Lee, S-H. / 2015 / A learner corpus-based analysis of zero pronouns in Korean / Third Learner Corpus Research Conference

  13. [학술대회] Lee, S-H. / 2013 / Corpus-based error analysis of Korean particles / Twenty Years of Learner Corpus Research. Looking Back, Moving Ahead Proceedings of the First Learner Corpus Research Conference (LCR 2011) Louvain-la-Neuve : 289 ~ 299

  14. [학술대회] Lee, S-H. / 2012 / Developing learner corpus annotation for Korean learner particle errors / Proceedings of the 6th Linguistic Annotation Workshop : 129 ~ 133

  15. [학술대회] Lee, S-H. / 2014 / Verb conjugation errors in Korean learner language / Second Asian Pacific Corpus Linguistics Conference (APCLC) 2014

  16. [학술대회] Lee, S-H. / 2011 / Particle ellipsis in Korean corpora / The 10th Conference for the American Association for Corpus Linguistics

  17. [학술지] Lee, S-H. / 2009 / Annotation of Korean learner corpora for particle error detection / CALICO Journal 26 (3) : 529 ~ 544

  18. [단행본] Lüdeling, A. / 2015 / The Cambridge Handbook of Learner Corpus Research / Cambridge University Press : 135 ~ 157

  19. [학술대회] Lüdeling, A. / 2005 / Multi-level error annotation in learner corpora / Proceedings of Corpus Linguistics 2005 : 105 ~ 115

  20. [학술대회] Madnani, N. / 2011 / They can help:Using crowdsourcing to improve the evaluation of grammatical error detection systems / Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics : 508 ~ 513

  21. [학술지] 박석준 / 2003 / 대학생 구어 텍스트에서의 조사ㆍ어미의 분포와 사용 양상에 대한 연구 / 텍스트언어학 15 : 139 ~ 167

  22. [학술대회] Rozovskaya, A. / 2010 / Annotating ESL errors: Challenges and rewards / Proceedings of the Workshop on Innovative Use of NLP for Building Educational Applications : 28 ~ 36

  23. [학술대회] Schmidt, T. / 2010 / Linguistic tool development between community practices and technology standards / Proceedings of the Workshop on Language Resource and Language Technology Standards : 69 ~ 72

  24. [학술대회] Tetreault, J. / 2008 / The ups and downs of preposition error detection in ESL writing / Proceedings of COLING-08 : 865 ~ 872

  25. [학술대회] Tetreault, J. / 2010 / Rethinking grammatical error annotation and evaluation with the Amazon Mechanical Turk / Proceedings of the Workshop on Innovative Use of NLP for Building Educational Applications : 45 ~ 48