국립국어원, 인공지능 학습용 한국어 자료 2022년 첫 공개

정형권 승인 2022.04.02 20:56 의견 0
X
사진출처 : 국립국어원

국립국어원(원장 장소원)은 인공지능의 한국어 처리 능력 향상에 필수적인 인공지능 학습용 한국어 자료 11종(신규 8종, 정비 3종)을 4월 1일 국립국어원 '모두의 말뭉치'에서 공개한다고 밝혔다.

이번 공개 자료는 국립국어원에서 2021년 한 해 동안 구축하고 정비한 자료로 온라인 약정서를 작성해 승인받으면 누구나 파일을 내려받아 이용할 수 있다.

최근 4차 산업혁명 시대가 다가옴에 따라 인공지능의 언어 능력을 강화하기 위해 빅데이터 형태의 언어 학습 자료인 말뭉치의 중요성이 더욱 커지고 있다.

이에 국립국어원은 2021년에 수집한 신문, 국회 회의록, 온라인 대화 등을 담은 원시 자료 4종과 속성 기반의 감성, 추론 확신성, 개체명 정보를 분석한 자료, 개체명 분석 정보에 위키피디아 지식 정보를 연결한 개체 연결 자료 등 분석 자료 7종을 공개한다.

이번에 새롭게 수집해 공개하는 자료는 2021년에 생산된 35개 매체의 신문 기사와 2003년부터 2020년까지 만들어진 국회 소위원회 회의록, 온라인상의 대화 자료이다.

그리고 한국어의 특성을 반영해 속성 기반으로 감성을 분석한 말뭉치, 일반인이 문장에서 추측할 수 있는 가설을 확신하는 정도를 표시한 추론 확신성 말뭉치 등도 공개한다.

특히 속성 기반 감성 분석 말뭉치와 추론 확신성 말뭉치는 국립국어원이 하반기에 개최할 예정인 '인공지능의 언어 능력 평가 대회'에 평가 자료로 사용할 예정이어서 이번 공개에서는 전체 자료의 절반 분량만 공개했다.

해당 대회를 위해 하반기에는 비윤리 표현 말뭉치, 표/그림 등에 대한 유사문장 생성 말뭉치 등도 공개할 예정이다.

이 밖에도 개체명 분석 말뭉치에 위키피디아의 지식 정보를 연결한 개체 연결 자료, 그리고 인공지능이 인터넷상의 우리말 자료를 좀 더 쉽게 분석할 수 있도록 교정한 맞춤법 교정 말뭉치도 공개한다.

국립국어원이 수집 및 구축한 한국어 말뭉치는 2020년 8월 공개한 이래로 1만여 건 이상 배포됐으며 270여 개의 기업 및 기관이 활용하고 있다.

특히 법률 자료를 다루는 엘박스 등 중소기업 및 새싹기업이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근하고 있으며 네이버, 삼성, 에스케이텔레콤 등 대기업이나 한국전자통신연구원(ETRI) 등 관련 연구기관도 인공지능 학습에 활용해 다양한 서비스 개발과 성능 향상을 꾀하고 있다.

장소원 국립국어원 원장은 "국립국어원은 앞으로도 인공지능 기술 개발을 위한 전문적이고 분석적인 우리말 자료를 지속해서 구축, 공개해 인공지능의 우리말 능력을 향상하는 데 많은 도움이 되도록 지원할 계획이다"라고 말했다.

저작권자 ⓒ 중앙교육신문, 무단 전재 및 재배포 금지