산하연구센터

언어관측소 2017-11-20T12:00:03+00:00

언어관측소

2011년에 언어정보연구센터의 이름을 언어관측소로 바꾸었다. 한국인의 언어사용을 반영한 다양한 형태의 언어 자료를 구축하고, 구축된 언어자료를 언어정보학적 방법론을 사용하여 분석하는 연구 활동을 수행해 오고 있다.

언어관측소 구축 언어자료

말뭉치

번호 항목 개요 규모
1 연세 말뭉치1 1연세 말뭉치 중 가장 이르게 구축된 말뭉치로, ‘현대 한국인의 독서 실태’에 관한 설문 조사에 의해 구축된 균형 말뭉치. 표본의 대표성을 확보하고 표본 선정 기준을 마련하기 위해, ‘전문가 조사’에서는 교과서의 배제 또는 표집 비율 조정, 문제 번역물의 표집과 관계된 문제, 독서물의 유목 분류 문제에 대한 조사가 이루어졌으며, ‘일반인 조사’에서는 전문가 연구의 결과를 토대로 구축됨. 샘플 텍스트 말뭉치. 자세한 것은, 정찬섭 외 (1990:7~70) 참조 바람. 2,900,000
2 연세 말뭉치2 도서 대출 빈도에 따른 균형 잡힌 말뭉치를 구성할 목적으로 주제별 선정 기준을 사용함. 문헌정보학적 방법을 응용한 것으로, 가능한 모든 주제 분야의 낱말이 망라되도록 하기 위해 듀이 섭진 분류법(Dewey Decimal Classification) 을 이용하여 한국어 문헌을 크게 열 가지 대범주(총류, 철학, 종교, 사회 ,과학, 언어학 ,순수과학, 응용과학. 예술 ,문학, 역사 등의 분야)로 나누어 수집함. 또한 도서의 대출 빈도는 각 낱말의 인지도를 간접적으로 나타낸다는 전제 아래, 주로 1987~1988년의 도서를 대상으로 대출빈도가 높은 자료를 중심으로 하여, 234개의 표본을 선정하여 1990년~1988년에 걸쳐 구축됨. 총류(7.8%), 철학(9.9%), 종교(10.7%), 사회과학(12.8%), 언어(5.7%), 순수과학(11%), 응용과학(11.7%), 예술(8.1%), 문학(11.2%), 역사(11.3%) 등의 주제별 구성으로 구축되어 있음. 1,100,000
3 연세 말뭉치3 사람들이 많이 접하는 문헌에 각 낱말의 인지도가 간접적으로 반영된다고 보고, 1980년대 우수 출판물 목록에서 표본을 선정. 5,980,000
4 연세 말뭉치 4 실제 사용된 입말을 녹음하여 전사하는 ‘순수 입말'(구어)과, 희곡, 방송 대본, 시나리오 따위를 중심으로 한 ‘버금 입말'(준구어)로 구성. 대화(26%), 강연(24%), 상담(14%), 희곡·대본(13%), DJ방송(13%), 토론(8%), 회의(2%), 등의 내용으로 구성되어 있다. 다른 글말뭉치와는 달리, 여기에는 발화자 참여자의 나이, 성별, 직업에 대한 정보, 발화참여자의 수와 발화의 성격, 전사자의 정보, 녹음시간 정보 등이 덧붙여져 있음. 770,000
5 연세 말뭉치 5 1970년대 문헌을 대상으로 하여, 교과서에서 신문에 이르는 다양한 문헌 자료로 구성. 1970년대 문헌을 대상으로 하여, 신문(10%), 소설·수필(50%), 일반 서적(35%), 교과서(5%), 등의 문헌 자료를 수집함으로써 구축됨. 8,600,000
6 연세 말뭉치 6 해방 이후의 우리말의 모습을 제대로 반영한 말뭉치 구축을 위해, 1960년대 문헌을 대상으로 하여 말뭉치를 구축하기 시작하였으며, 1000만 어절을 목표로 하고 있음. 7,230,000
7 연세 말뭉치 7 1990년 대 중반까지의 자료로 주로 소설과 수필로 이루어져 있음. 1994년부터 1995년에 걸쳐 구축됨. 13,670,000
8 연세 말뭉치 8 초등학교 전 과목 및 중·고등학교의 국어, 사회를 중심으로 구성. 제5차(한영균 말뭉치), 제6차 교과과정의 두 종류. 870,000
9 연세 말뭉치 9 순 우리말의 사용 빈도가 높고 문장도 비교적 우리말의 구조에 맞게 사용되는, 아동 교육용 도서 중에서 적합한 자료를 선정하여, 1996년에 구축됨. 1500,000
10 연세 말뭉치 10 <연세 현대한국어사전> 편찬을 위해 보완된 1시기(1945~1965년) 말뭉치 중 단행본으로 구성 780,000
11 연세 말뭉치 11 <연세 현대한국어사전> 편찬을 위해 보완된 1시기(1945~1965년) 말뭉치 중 교과서로 구성 730,000
12 연세 20세기 한국어 말뭉치 20세기 문헌을 출판 시기와 텍스트 유형을 기준으로 수집하여 구축한 문어 원시 말뭉치 150,378,870
13 한국어 교재 말뭉치(전체) 1990년대 한국어 교육 기관의 한국어 교재 텍스트를 입력하여 구축한 말뭉치 724,856
14 한국어 교재 말뭉치(대화) 1990년대 한국어 교육 기관의 한국어 교재 텍스트 중 도입부의 대화만을 입력하여 구축한 말뭉치 119,598
15 연세 한국어 학습자 말뭉치 연세대 언어연구교육원의 수강생이 생산한 작문을 제공 받아 구축한 한국어 학습자 말뭉치 278,542
16 광복 이후 초등 국어 교과서 말뭉치 교수요목기 이후 발간된 초등학교 국어 교과서를 모두 입력하여 구축한 말뭉치 1,496,280
17 6,7차 초등 교과서 말뭉치 6차, 7차 교육과정의 교과서를 연세한국어사전 기준으로 동형어 수준까지 주석한 말뭉치 1,681,769
18 연세 문어 균형 말뭉치 다양한 장르의 텍스트를 포함하여 구축한 문어 말뭉치 1,054,362
19 연세 구어 균형 말뭉치 공적 대화와 사적 대화, 독백과 대화를 골고루 포함하는 구어 말뭉치 998,934
20 연세 다의어 말뭉치 한국어 의미 빈도 사전을 위해 구축한 다의어 수준까지 주석이 된 말뭉치 1,165,224
21 연세 한글 대장경 말뭉치 불설류를 비롯한 경문과 서문 및 해제로 구성된 말뭉치 386,472
22 독립신문 말뭉치 독립신문의 국문 텍스트 원자료를 구축한 후 원문 대조 교정을 거친 말뭉치 144,309
23 근대 유행가요 말뭉치 1930~1940년대 음반에 실린 유행가요 가사 말뭉치 29,339
24 연세 다면자료 말뭉치 발화 촬영 영상, 음성 전사 텍스트, 비언어 행위 주석으루 구성된 말뭉치 18,986
25 트위터 말뭉치 2011년 10월 한 달 간 작성된 한국어 트위터를 수집하여 구축한 말뭉치 945,175,620
26 정치 담화 말뭉치 담화 분석을 위해 주제를 정치로 한정하여 구축한 말뭉치 306,681
합계 1,148,089,842

 

언어지도

지도 구축 및 분석 도구인 GIS(지리 정보 시스템)를 사용하여, 전국 한국어 교육기관 분포 지도, 세계 한국어 교육기관 분포 지도, 결혼 이민 여성 및 이주 노동자를 포함한 국내 거주 외국인 분포 지도 등을 구축하였다. 구축된 언어지도 가운데 일부는 HK인문언어사업단 홈페이지에 공개되어 있다.