어절 어두 정보를 반영한 음절 Bi-gram 임베딩을 이용한 한국어 개체명 인식 기법 [韩语论文]-外语论文网

개체명 인식(Named-Entity Recognition)은 정보 추출(Information Extraction)의 부과업(Subtask)으로 문서에서 개체명(Named-Entity)을 찾아 추출하고, 인명, 기관명, 지명, 시간 표현, 날짜 표현 등의 미리 정의...

개체명 인식(Named-Entity Recognition)은 정보 추출(Information Extraction)의 부과업(Subtask)으로 문서에서 개체명(Named-Entity)을 찾아 추출하고, 인명, 기관명, 지명, 시간 표현, 날짜 표현 등의 미리 정의된 고유한 범주로 분류하는 과정이다. 개체명 인식기에서 추출된 개체명 정보는 자연언어처리의 전 분야에서 다양하게 사용되고 있다. 기존에 한국어 개체명 인식 연구 방법은 형태소(Morpheme) 기반 개체명 인식 방법과 음절(Syllable) 기반 개체명 인식 방법이 주로 연구되어 왔다. 형태소 기반 개체명 인식은 문서를 형태소 분석 과정을 거쳐 분해한 결과를 사용하여 개체명을 분석하는 방법이고, 음절 기반 개체명 인식은 각 음절에 개체명 레이블을 부착하는 방법이다. 하지만 형태소 기반 개체명 인식은 형태소 분석 과정에서 오류가 캐스케이딩(Cascading)되는 문제가 발생하여 실제 사용 환경에서 성능이 낮은 것으로 알려져 있다. 음절 기반 개체명 인식은 언어학 정보를 사용할 수 없다는 문제가 있다. 또한, 단어 경계 분할을 개체명 분류와 동시에 진행하기 때문에 성능 향상에 한계가 있다. 본 연구에서는 한국어 음절 기반 개체명 인식기의 성능을 향상 시키는 시스템을 제안한다. 제안하는 시스템은 두 가지로 구성된다. 첫 번째는 음절 bi-gram 단위로 개체명 코퍼스를 구축하고 임베딩 단위를 bi-gram을 사용하는 방법이다. 두 번째는 음절 bi-gram 임베딩에 어절 어두 정보를 반영하여 결합 임베딩하는 방법이다. 본 논문에서는 ‘2016 국어 정보처리시스템 경진대회’ 코퍼스를 사용하여 제안한 방법의 성능을 검증하였다. 실험 결과, 제안하는 방법은 음절 기반 개체명 인식의 성능을 상당히 향상시키는 것을 확인 할 수 있었다. 또한, 해당 결과를 형태소 기반 개체명 인식 방법과 비교한 결과 유사한 성능을 보여, 제안하는 방법이 효과적인 것을 확인하였다.

，韩语论文题目，韩语论文

한·중 사동 표현의 대조 연구	TV 포맷의 새로운 유형화 : 이야기, 놀이	韩国电影剧本中会话含义的略论探讨
高职院校韩语系建设的几点思考	영어 문장구조에 대한 이해가 읽기와 듣	깔뱅의 기도론 연구
모야모야 환아의 수술 후 자기효능감,	영어권 학습자를 위한 한국어 교재 구성	한국과 독일의 중등교육단계에서의 진로
중국인 학습자를 위한 한국어 거절 화행	도시지역 여성결혼이민자의 재사회화	汉韩常用颜色词对比探讨
항공사의 지각된 서비스품질이 실용적	형태 초점 접근법을 활용한 한국어 대조	韩国跆拳道运动的文化价值观探讨