본문 바로가기

통일

국립국어원 2017년 190만 어절 북한 말뭉치 구축


(2017-01-29) 국립국어원 2017년 190만 어절 북한 말뭉치 구축


국립국어원이 올해 4월부터 12월까지 2017년도 북한 말뭉치 구축 사업을 진행한다고 합니다.


북한어 말뭉치 구축 사업은 북한어 및 북한 언어문화에 대한 이해를 위한 기초 자료로 말뭉치를 활용하기 위한 사업입니다. 현대 북한어 자료를 체계적으로 구축해 실효성 있는 남북 언어통합 정책의 효율적 추진을 도모하는 목적이 있습니다.


말뭉치는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합을 뜻합니다. 북한어 말뭉치는 북한어 및 북한 언어문화 연구, 통합 사전 편찬, 통합 교재 개발 등에 활용될 수 있습니다.


<사진1>


사진1은 그동안 진행된 사업의 추진 현황입니다.

2016년까지 총 원시 921만 어절, 분석 228만 어절의 말뭉치가 구축됐습니다.


올해는 문어 말뭉치 원시 100만, 분석 50만 어절 이상과 구어 말뭉치 원시 30만 및 분석 10만 어절 이상 등 총 190만 어절이 구축됩니다.


북한 신문, 잡지, 문학작품, 교과서 등 문어 말뭉치 대상 자료 실태 조사 및 말뭉치 구축이 진행되고 북한 뉴스, 영화, 탈북민 구술 자료 등에서 구어 말뭉치가 축줄될 예정입니다.


북한 후 한국은 서울말을 기준으로 표준어를 북한은 평양말을 기준으로 표준어를 사용하고 있습니다. 세월이 지날 수록 남북 언어의 이질성이 커지고 있습니다. 이를 극복하기 위해 남북 언어에 대한 연구가 지속적으로 이뤄져야할 것입니다.


강진규 기자 wingofwolf@gmail.com