| 연구원소개 | 산하연구센터 | 수행과제 | 학술행사 | 사전 | 간행물 | 자료실 | 게시판
 
소장자료
말뭉치
소개
목록
 
자료실
  자료실 > 말뭉치> 소개
말뭉치
 
“말뭉치(corpus)”란 대규모의 전산화된 언어자료의 집합으로, 언어를 연구하는 각 분야에서 필요로 하는 연구 재료이며, 언어의 본질적이고 다양한 변이를 총체적으로 보여 줄 수 있다.
언어정보연구원의 말뭉치는 띄어쓰기를 기준으로 약 8,879 만 어절 규모로 이는 300 쪽의 단행본 천여 권에 해당하는 방대한 분량이다. 연세말뭉치는 1980년대 후반부터 구축하기 시작하였으며, 구축 대상을 현대 한국어 문어만으로 한정했던 것에서 벗어나, 다양한 언어자료를 전산화하기 시작하였다. ‘연세말뭉치’의 구성을 한 눈에 보이면 다음 그림과 같다.“말뭉치(corpus)”란 대규모의 전산화된 언어자료의 집합으로, 언어를 연구하는 각 분야에서 필요로 하는 연구 재료이며, 언어의 본질적이고 다양한 변이를 총체적으로 보여 줄 수 있다.
언어정보연구원의 말뭉치는 띄어쓰기를 기준으로 약 8,879 만 어절 규모로 이는 300 쪽의 단행본 천여 권에 해당하는 방대한 분량이다. 연세말뭉치는 1980년대 후반부터 구축하기 시작하였으며, 구축 대상을 현대 한국어 문어만으로 한정했던 것에서 벗어나, 다양한 언어자료를 전산화하기 시작하였다. ‘연세말뭉치’의 구성을 한 눈에 보이면 다음 그림과 같다.