코퍼스 언어학
코퍼스 언어학과 뭉치언어학과 언어정보처리론은 동의어일까요, 다의어일까요?
*************
새로운 학문: 코퍼스 언어학
컴퓨터와 언어의 만남, 담론분석의 새로운 방법론 제시
강범모 /고려대 언어학
코
퍼스 언어학(corpus linguistics)은 코퍼스를 구축하고 그것을 기반으로 언어에 관한 이론 연구와 응용 연구를 하는
학문 분야이다. 여기서 코퍼스란 텍스트, 즉 산출된 말 혹은 글의 집합을 말한다. 넓은 의미의 코퍼스는 어떤 방식으로든지 어떤
형태로든지 여러 텍스트를 모아놓은 것을 말하지만(예를 들어, 다양한 형식의 텍스트를 묶어 놓은 성경도 하나의 코퍼스이다),
현대의 코퍼스는 근대 소설 연구 혹은 현대 국어 일반의 연구 등 특정 목적을 가지고 균형성과 대표성을 고려해 텍스트들을 모아서
컴퓨터에 전자(비트) 형태로 저장한 것을 말한다. 따라서 코퍼스 언어학은 컴퓨터 코퍼스 언어학이다.
컴퓨터
코퍼스는 연구자가 실제 언어생활의 양상을 있는 그대로 관찰해 언어를 실증적으로 연구할 수 있는 방법을 언어학에 제시했을 뿐
아니라, 정보사회에 가장 중요한 정보처리의 대상인 언어정보의 처리 기술 발전에도 중요한 역할을 하고 있다.
최초의
컴퓨터 코퍼스는 1960년대 초 미국 브라운대에서 만들어졌다. 이것은 1백만 어절 규모의 미국 영어 텍스트 자료인데 보통의 책
약 20권의 분량이다. 오늘날의 기준으로 보면 아주 작은 규모이지만 당시 컴퓨터 입력의 수단이 키펀치였던 것을 고려하면 많은
수고의 결과였다.
브라운 코퍼스를 기반으로 영어 단어의 사용 빈도가 실증적으로 측정돼 언어 교육 및 심리학에 도움을 주기는 했으나 코퍼스의 규모가 작았기 때문에 그 효용성은 제한적이었다.
코
퍼스가 언어학에 큰 영향을 미친 사건은 1980년대에 영국 버밍햄대가 콜린스 출판사와 손잡고 2천만 어절 규모의 코퍼스를
구축하고 이것에 기반한 코빌드(COBUILD)영어 사전을 편찬한 것이었다. 이전까지의 언어 사전이 사전 편찬자의 직관에
의존하거나 수작업을 통한 제한적인 용례 수집에 의존하였던 것에 비해 코빌드 사전은 대용량의 코퍼스에 기반해 올림말을 결정하고
단어 의미를 기술하며, 사람들이 많이 사용하는 자연스러운 용례를 찾아 사전에 수록할 수 있었다. 그 이후, 사전 편찬에서
코퍼스는 필수적인 수단으로 인식됐으며, 우리나라에서도 국립국어연구원에서 편찬한 표준국어대사전(1999) 등 모든 주요 사전 편찬
사업이 코퍼스에 의존하고 있다.
1990년대 이후 코퍼스의 크기는 1억 어절 이상이 일상적이 됐으며, 영국의
국가 코퍼스(British National Corpus, BNC)가 대표적이다. 오늘날의 코퍼스는 이와 같이 양적인 면에서
성장하였을 뿐만 아니라, 언어의 형태, 통사, 의미적 분석을 한 결과의 코퍼스와 같이 다양한 것들이 만들어져 언어 연구에 도움을
주고 있다.
국내의 경우 비교적 늦은 시기인 1980년대 후반부터 컴퓨터 코퍼스에 대한 관심이 싹터, 연세대,
한국과학기술원, 고려대를 중심으로 코퍼스 구축이 시도되기 시작했다. 이러한 일은 1998년부터 시작된 21세기 세종계획으로 큰
전환기를 맞는다. 이것은 문화관광부 지원 사업으로 10년간 언어자원, 즉 한국어 코퍼스와 한국어 전자사전을 구축하고 그것을 학문
및 산업에서 이용할 수 있도록 보급하고 기초 연구를 수행하는 사업이다.
코퍼스 구축에 대해 말하자면, 2003년
현재 6년의 과제 수행 후 대략 현대 국어 말뭉치(이 사업에서는 코퍼스를 ‘말뭉치’라고 부른다) 1억 3천만 어절, 형태 분석
말뭉치 1천만 어절, 형태 의미 분석 말뭉치 5백만어절, 구어 말뭉치 3백만 어절이 구축됐다. 아울러 상당량의 북한어, 옛문헌의
국어자료, 한국어-영어 및 한국어-일본어 병렬말뭉치가 구축됐다.
코퍼스는 중요한 언어자원이다. 이것은 이론적
언어 연구의 기반이 될 뿐만 아니라 사전 편찬과 언어 교육의 응용 분야에서 없어서는 안 될 중요한 자원이다. 사전 편찬에
대해서는 앞서 이미 언급했다. 외국어를 교육할 경우, 가장 많이 쓰는 자연스러운 표현들을 중요시하여 먼저 학습시키는 것이
중요하다. 또한 외국어를 배우는 사람들의 언어를 수집한 코퍼스(학습자 코퍼스)는 언어 학습에서 범하기 쉬운 오류를 발견하게 해
효과적인 외국어 교육에 도움을 줄 수 있다.
코퍼스는 또한 문학, 역사 등 텍스트 기반의 전통적 인문학에 새로운
방법론을 제시할 수 있으며, 신문 자료 코퍼스는 사회 변동 연구 등 사회과학적 연구에도 활용될 수 있다. 아울러 자연언어처리,
정보검색, 기계번역 등 컴퓨터의 언어 처리에서 코퍼스에 기반한 통계적 정보가 점점 더 중요시되고 있다. 두 언어의 문장들을
병치시켜 만든 병렬 코퍼스는 기계번역 시스템 개발에도 큰 도움을 줄 수 있다.
앞서 언급한 21세기 세종계획은
언어 자원의 구축과 더불어, 언어 자원을 교육과 연구, 그리고 산업에서 이용할 수 있도록 환경을 조성하는 데에도 초점을 맞추고
있다. 그리고 이러한 모든 활동을 ‘국어정보학’이라는 새로운 학문 이름으로 부르고 있다. 매년 여름 국어정보화 아카데미라는 단기
교육 프로그램을 운영하기도 한다. 국어정보학이란 바로 국어를 기반으로 하는, 국어와 관련된 코퍼스 언어학이다.
오
늘날의 정보사회에서 점점 더 지식과 정보의 처리가 중요하게 되고, 그 중에서도 언어 정보의 처리가 중요해 진다고 볼 때, 그
중요한 기반이 되는 언어 자원, 즉 코퍼스 구축과 활용의 중요성은 더욱 커 질 것이다. 우리나라에서 코퍼스를 구축하고 활용하는
일에 언어학자, 국어학자들 뿐만 아니라 전산학자들이 많이 참여하고 있는 현재의 상황이 그 예측에 신빙성을 더한다.
강
범모는 서울대 언어학과를 졸업했고, 미국 브라운 대학교에서 박사학위를 받았다. 주로 이론언어학의 의미론과 전산언어학 및
코퍼스언어학에 관심을 가지고 연구 활동을 해 왔다. 코퍼스 언어학 사이트를 운영하고 있으며 ‘언어, 컴퓨터, 코퍼스
언어학’(고려대 출판부)를 출간했다. 최근에는 영화 속의 언어 정보에도 관심을 가져, ‘영화마을 언어학교’(도서출판 동아시아)를
냈다.
출처: Kyosu.net 2003-10-31
Powered by ScribeFire.
댓글