더티칭랩

자연어처리융합연구회
  • 작성자
  • 작성일자
  • 조회8

 




더티칭랩 최종 결과보고서


 

■ 개요




주제

자연어처리융합연구회

참여자

성명(소속)

정희용(소프트웨어), 조영준(소프트웨어), 김만제(인공지능), 김미수(인공지능), 신춘성(문화전문대)

정산금액

 일금 이십칠만원  원정 (\ 270,000  )

연구기간

2024년 10월 1일 ~ 2024년 12월 31일


 

 

 

 

 

 

 

 

2024년 12월 31일

 

작성자 : 정희용 (인)

 

 

 

 

전남대학교 교육혁신본부장 귀하

◆ 연구 필요성

딥러닝의 급격한 발전과 함께 자연어 처리에서의 딥러닝 기술 활용도 크게 증가하고 있으며, 이로 인해 자연어 처리의 성능도 다양한 분야에서 빠른 속도로 향상되고 있다. 자연어 처리는 학문 분야의 구분 없이 거의 대부분의 학문 영역에서 사용될 수 있다는 점에서 그 활용도가 매우 높다고 할 수 있다. 특히, 뉴스와 보고서, SNS 등 비정형 텍스트 데이터를 대상으로 하는 분석에 대한 요구가 늘어남에 따라 자연어 처리에 대한 관심은 더욱 증가하고 있다.

 

최근에는 챗봇이 공공분야의 대민 서비스를 비롯하여 다양한 업무 분야에서 활발하게 개발됨에 따라 자연어 처리의 활용 분야도 더욱 넓어지고 있다. 챗봇 분야에서의 최근 자연어 처리 연구 현황을 살펴보면, 특허상담 분야의 자동상담 서비스에서 기계독해의 성능을 향상시키기 위해 BERT를 이용하여 특허상담 질의에 대한 정답을 결정하는 연구가 있으며, 쇼핑몰의 지능형 챗봇을 구현하기 위해 패션쇼핑분야의 개체명 인식 사전을 구축한 연구 등이 있다. 다른 분야에서의 활용 현황으로, 임상의사결정 지원시스템의 구축을 위해 자연어 처리에 기반하여 녹내장 사례에 대한 지식베이스를 구축함으로써 정확도를 향상시킨 연구가 있으며, 소프트웨어 요구사항 분석 과정에서 자연어 처리와 기계학습을 이용함으로써 소프트웨어 요구사항 명세서의 요구사항에 대한 자동 분류를 수행한 연구가 있다. 또한 한의학 분야에서는 자연어 처리와 기계학습을 이용한 한의변증진단 기술의 개발에 관한 연구가 있는데, 동의보감의 증상과 변증에 대한 서술을 대상으로 자연어 처리를 적용하여 증상과 변증의 관계를 분석하고 증상으로부터 변증을 예측하는 시스템을 구현하였다. 이상과 같이 자연어 처리는 특허, 의학, 소프트웨어공학, 한의학 등 다양한 분야에서 활발하게 사용되고 있다.

 

◆ 연구 과정(논의사항)

자연어 처리는 기본적으로 언어에 대한 이해와 기술에 대한 이해를 동시에 필요로 하며, 특히 최근에는 기계학습과 딥러닝 기법에 대한 이해를 요구하기 때문에, 활용하고 싶어도 기술로 인한 장벽이 높은 편이다. 본 연구회에서는 다양한 학문 분야에서 자연어 처리에 관심을 갖고 이를 활용하고자 하는 연구자들이, 자연어 처리의 주요 분야에 대한 설명과 기술 및 연구 현황을 조사함으로써 보다 쉽게 자연어 처리 분야를 이해할 수 있도록 하고자 하였다. 특히 자연어 처리에 최근 다양하게 활용되고 있는 딥러닝 기술을 중심으로 정보교환을 함으로써 기술적인 이해를 높이고자 하였다.

 

이를 위해 우선, 자연어 처리를 포함한 전체 인공지능의 분류체계와 특허 중심의 기술개발 현황을 살펴봄으로써 인공지능 분야에서 자연어 처리의 비중과 의의를 살펴 보았다. 다음으로, 자연어 처리에서 가장 많이 활용되고 있는 머신러닝 분야의 현황을 살펴봄으로써, 기본적인 머신러닝 알고리즘과 성능 가평를 위한 평가지표에 대하여 살펴보았다. 그 후, 자연어 처리의 주요 분야 별로 각 분야의 내용과 활용 현황에 대해 살펴보고, 자연어 처리에서 주로 활용되고 있는 딥러닝 기법에 대해 정리하고 최신의 기술 동향을 살펴보았다. 그리고 마지막으로, 자연어 처리의 성능 평가를 위해 주로 활용되고 있는 데이터셋과 평가 척도에 대해 저리해 보았다. 

 

◆ 연구 결과

1. 인공지능 분류체계 현황 조사

가. 2018년 이전 인공지능 분류체계

2006년의 정의를 보면 지금과는 많이 다른 관점에서 인공지능을 분류하고 있다. 반면 2015년부터는 체계가 현재와 비슷하나, 응용프로그램 인터페이스가 인공지능 기술로 분류되어 있거나, 인지 및 이해 쪽에 치우쳐 있어 관점의 차이가 있는 것을 볼 수 있다. 주목할 것은 2015년부터 자연어 처리가 언어 이해 등의 분류로 인공지능의 주요 영역을 차지하고 있는 것이다.

 

나. 특허청의 4차 산업혁명 기술체계

2018년에 제시된 특허청 기술분류는 음성을 언어에 포함함으로써 Tractica의 분류와 다른 관점을 보이고 있다. 이는 음성 인식이 소리를 언어로 변환한 후의 처리가 동일하기 때문으로 해석된다. 이 분류에서 학습과 추론 분야에 기계학습만 존재하기 때문에, 전체를 포괄하거나 분류가 상호 배타적이라고 보기는 어렵다. 또한 상황 인식과 응용 분야는 인공지능 기술 관점에 적합하지 않고 쓰인 그대로 응용에 가까운 분류로 보는 것이 타당하다.

 

다. 과학기술정책연구원의 인공지능 기술분류

분석의 경우, 전체를 분류, 군집화, 생성 및 의사 결정으로 두고 그 밑을 다시 비기계학습과 기계학습으로 나눈 후, 기계학습은 다시 신경망과 비신경망으로 분류하였다. 인식은 이미지, 영상, 신호, 텍스트, 언어로 구분하고 있다.

 

인공지능의 분류를 체계화하고자 하였으나, 분석의 분류가 지나치게 복잡하고 회귀는 가장 많이 쓰이는 기계학습 알고리즘이면서 분류와는 성격이 다른 데에도 불구하고 분류에 속하며, 표 안의 셀 각각이 하나의 분류가 되기 때문에 지나치게 많은 분류가 존재한다는 문제점들이 있다. 따라서 보다 단순하고 직관적인 분류체계가 필요한 것으로 판단된다.

 

라. 과학기술일자리진흥원의 인공지능 기술분류

인공지능을 학습지능, 단일지능, 복합지능으로 분류하고, 텍스트, 이미지, 음성은 단일지능의 세분류로 정리하였으나, 단일지능의 정의와 하부 분류가 모호한 점이 있다. 요소 기술의 내용으로 볼때 복합지능은 사실성 기술보다 복합적인 적용에 가깝다고 할 수 있다.

 

마. 국내 인공지능 기술 개발 현황

 

인공지능 기술 개발 현황을 분석하기 위해 본 연구회에서는 국내 인공지능 관련 주요 기술의 특허 출원 동향을 살펴보았다. 표는 2010년부터 2019년까지의 인공지능 분야별 특허 출원 수를 위해서 제시한 분류체계에 맞춰 보여주고 있다.

 

표를 보면 알파고가 등장한 2016년 이후 인공지능에 대한 관심이 급격히 증가하고, 이에 따라 인공지능 분야의 특허 출원량도 급격히 증가한 것을 보여준다. 2010년과 2019년을 주요 기술별로 비교해 볼 때, 학습 및 추론, 청각지능, 시각지능의 비중이 크게 증가하였다. 특히, 시각 지능의 경우, 언어지능과 청각지능을 합친 것보다 큰 비중을 차지하고 있는 것을 볼 수 있는데, 이는 언어지능이 사용 언어별로 차이를 보이는 것에 비해 시각지능은 모든 국가가 공통으로 활용할 수 있어 활용범위가 넓고 다양하기 때문인 것으로 해석 할 수 있다.

 

자연어 처리는 인공지능 초기부터 관심도가 높았으며, 다른 분야가 알파고 이후 급격히 증가한 것에 비하면 꾸준히 성장해 온 것으로 보인다. 최근 딥러닝으로 인해 성능이 많이 향상된 것을 감안할 때, 2020년 이후 더 많은 성장을 보일 것으로 기대되기도 한다.

 

2. 기계학습 기술 현황

가. 기계학습 주요 기술 분야

 

1) 분류

 

2) 회귀

3) 군집화

4) 차원축소

5) 강화학습

 

나. 기계학습 성능 평가를 위한 데이터셋 및 평가 지표

 

 

3. 자연어 처리 기술 현황

자연어 처리는 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말한다. 최근에는 머신러닝 혹은 딥러닝을 이용하여 자연어 문서를 처리하는 기술, 즉 전통적으로 텍스트 마이닝에 속하는 분야를 모두 포괄하고 있어 그 범위가 더욱 넓어졌다고 볼 수 있다. 

 

가. 딥러닝 기반 자연어 처리의 주요 분야

1) 언어 모델

언어 모델은 문서에서 주어진 앞부분의 단어들의 시퀀스 즉 순서를 이용해 다음 단어의 예측을 수행하는 모형을 생성하는 프로세스를 말한다. 문서에 나타난 문맥을 학습하기 위한 가장 중요한 학습모형으로, 트랜스포머에 기반한 BERT, GPT가 언어 모델에 기반하여 사전학습을 수행함으로써 언어의 구조와 문맥을 학습한 후에, 파인튜닝을 통해 다양한 자연어 처리 애플리케이션을 수행하는 방식으로 활용되고 있다.

 

현재 GPT-3가 이 분야에서 가장 뛰어난 성능을 보이는 알고리즘 즉 SOTA로 알려져 있다. 위 표는 GPT-3의 성능을 나타내며, LAMBADA 데이터셋에서 기존에 비해 매우 향상된 결과를 보여주고 있다.

 

2) 문서 분류

문서분류는 주어진 문서에 대해 미리 정의된 클래스로 분류하는 작업으로 감성 분석, 스팸 메일 분류, 뉴스 기사 분류 등 다양한 응용 분야가 있다. CNN, DBN 등 다양한 딥러닝 기법들이 개발되고 사용되었다. 최근 SOTA는 BERT에 기반한 DocBert로 네 개의 분류 데이터 셋에서 SOTA를 기록하였다. 표는 머신러닝의 대표적 알고리즘 중 하나인 SVM과 딥러닝 알고리즘 중 하나인 CNN, LSTM 그리고 DocBERT의 성능을 F1과 정확도로 보여주고 있다.

 

3) 문서 생성

4) 문서 요약

 

5) 질의 응답

 

6) 기계 번역

 

나. 자연어 처리 주요 딥러닝 기법

1) 순환 신경망

2) 합성곱 신경망

3) 시퀀스-투-시퀀스 모형

4) 어텐션 메커니즘

5) 트랜스포머

6) GPT

7) BERT

 

다. 자연어 처리 성능 평가를 위한 데이터셋 및 평가지표

 

 

 

◆ 수업 운영 사례

[수강생 피드백 포함]

NA

 

 

◆ 수업 연구 개선점

NA

 

 

 

 

 

 

 

 

 

 

 

 

 

◆ 참여 소감(구성원 개인별로 모두 작성)




번호

이름

(소속)

참여 소감 내용

1

정희용

(소프트웨어)

더티칭랩이라는 특별한 동기를 통하여 바쁜 가운데 전문가들의 모임을 결성할 수 있었고 다양한 지식과 의견 교환이 이루어질 수 있었다.

2

조영준

(소프트웨어)

 

3

김만제

(인공지능)

 

4

김미수

(인공지능)

 

5

신춘성

(문화전문대)