COMPANY

저희는 세상의 모든 소리에 귀를 귀울입니다.

뉴스

글로벌 음성 데이터셋의 비교와 한국인 대화 음성 데이터의 기능 조회 : 629 2021-10-05

1. 국내 인공지능 데이터셋의 필요성 및 현황

 

최근 인공지능 기술은 끊임없이 새로운 기술이 공개되고 있는데, 국내보다는 글로벌 기업에서 신기술이 나오고 있다. 공개되고 있는 기술의 베이스는 대부분 영어 기반이며, 국내 시장은 글로벌 기업에서 개발하고 배포하는 인공지능 플랫폼에 응용 서비스를 개발하고 있는 것이 현실이다.

그러나 이제는 응용 서비스 개발이 아닌, 데이터를 통한 자체 모델 구축이 필요한 시점이다. 이에 솔루게이트는 한국 시장에 맞는 음성인식 및 자연어 처리를 위해 2020년 한국지능정보사회진흥원(NIA)에서 진행하는 인공지능 학습용 데이터 구축사업 중 한국인 대화·음성 인공지능 데이터의 구축을 진행했다. 2014년부터 경험한 음성인식 모델 구축 및 자연어 처리 구축 경험을 바탕으로 본 과업에 참여했다.

 

 

2. 국내외 음성인식 및 자연어 처리 산업 동향

 

국내외 음성인식 및 자연어 처리 시장을 ‘인공지능 시장’이라 정의해보면, 본 시장은 현 기준으로 성장기 초기에 있는 산업이라 할 수 있다. 또한 신규 기업의 진입장벽이 높은 산업이기도 하다. 국내에서는 2018년 인공지능 학습용 데이터 통합 플랫폼 AI-Hub(www.aihub.or.kr) 구축을 통해 4,400만 건의 데이터와 14종 이상의 API를 공개하는 것을 시작으로, 과학기술정보통신부(이하 과기정통부)는 2021년 6월 음성∙자연어, 헬스케어, 자율주행 등 8개 분야의 170종, 총 4억 8천만 건에 달하는 학습용 데이터를 순차적으로 개방한다고 발표했다.

 

그림 1. 국내 인공지능 시장 규모

(국내 인공지능 시장 또한 높은 성장률이 기대되며 총규모가 10.5조, 자연어 처리 분야의 시장 규모가 2.5조 원 규모가 예상된다.)

 

 

 

 

그림 2. 세계 인공지능 시장 규모

(세계 인공지능 시장 규모는 2025년까지 38%의 고성장을 예상하며 자연어 처리 분야의 시장 규모가 436억 달러 규모로 예상한다.)

 

 

 

시장 규모가 국내뿐만 아니라 세계적으로 커지고 있는 가운데 음성·자연어 처리 분야에서는 원천 데이터 확보가 가장 중요하다. 글로벌 기업인 구글의 경우에는 많은 데이터 수집을 통해 전 세계의 언어에 대해 번역, 음성인식 등의 서비스를 진행하고 있다. 한국 기업의 경우에는 네이버 클로바가 한국인의 음성·자연어 데이터를 수집하여 서비스하고 있다. 하지만, 특정 도메인에 적합한 서비스를 만들기 위해서는 특정 도메인의 데이터 확보가 중요하다. 데이터 확보 과정은 데이터 수집, 데이터 분석, 데이터 가공, 모델 개발, 모델 학습, 서비스 적용 등의 단계를 거쳐 진행한다.

 

 

 

3. 한국인 대화·음성 인공지능 데이터 구축 프로세스

 

한국인 대화·음성 인공지능 데이터 구축을 위한 과정은 기본적으로 원천 데이터 선정, 데이터 수집, 정제, 인공지능 모델 설계, 적용 순으로 진행된다.

 

그림 3. 인공지능 학습 데이터 획득·정제 및 가공 절차

 

 

 

음성 데이터의 경우에는 음원 데이터와 음원에 대한 텍스트 파일이 같이 있어야 한다. 만약 없다면 음원 파일을 전사하여 텍스트 데이터와 한 쌍을 이루어야 한다. 본 과제에서는 원천 데이터와 함께 일상 대화 수집을 위해 크라우드소싱 방식으로 일반인이 발화하는 데이터를 수집했다. 이 경우 일반인이 우선 발화하고 이를 텍스트로 작성하는 형태이다. 간혹 발화한 내용과 텍스트로 작성한 데이터에 오류가 있어, 추가적인 품질 검토가 필요하다. 솔루게이트는 이를 위해 자체적으로 음원 및 전사 검수 자동화 프로그램을 개발하여 적용했다.

 

 

그림 4. 음원 및 전사 검수 자동화 도구

 

 

 

모든 데이터에는 기본적인 정보가 있다. 원천 데이터의 경우 메타 정보가 있으며, 크라우드소싱 데이터의 경우에는 일반인의 가입 정보가 있다. 하지만 본 사업을 진행하면서, 데이터에 다양한 오류가 생길 수 있음을 경험할 수 있었다.

먼저, 성별에 대한 오류가 있었다. 메타 데이터 정보는 남자이지만 목소리가 여자 목소리일 때 혹은 그 반대인 경우를 예로 들 수 있다. 나이에 비해 어린 목소리를 가졌거나 그 반대인 경우도 있었다. 이 밖에도 사람의 목소리와 음악이 혼합된 데이터, 발화 길이가 10초 미만이거나 분 단위의 음원 데이터, 쉼없이 연속으로 발화하는 경우 등 다양한 케이스가 있었다.

데이터 구축을 위해 솔루게이트는 1차적으로 수집된 모든 데이터의 성별을 구분했다. 사전에 남과 여의 목소리로 사전 학습을 진행했으며, 중성의 경우는 제외했다.

음원의 길이가 학습에 쉽지 않은 경우에는 EPD(End Point Detection)을 활용하여 학습이 용이한 길이를 고려하여 진행했다. 마지막으로 음원 중 전사가 되지 않는 데이터의 경우 음성인식 엔진을 통해 전사를 진행하며, 이후 신뢰도 분석을 통해 전사 데이터를 보완했다.

마지막으로 음성 데이터는 ETRI(한국전자통신연구원)에서 공개한 전사 규칙(음성지능연구그룹 제공, 2019.5.8.)을 적용하여 데이터를 구축했다.

 

 

그림 5. ETRI 이중 전사 웹 서비스 검수 화면

 

 

 

이렇게 구축된 데이터를 한국어 일상 대화 모델에 맞는 서비스를 구축할 때 매우 유용하게 활용이 될 수 있다.

 

 

 

4. 음성인식 및 자연어 처리 전문 기업 솔루게이트

 

솔루게이트는 한국어 기반의 음성인식과 자연어 처리 기술을 활용하여 가상 컨텍트센터를 구축할 수 있도록 지원해 주고 있다. 최근에는 솔루션 보급과 함께, 일반 기업들이 쉽게 음성인식을 활용할 수 있도록 음성인식 엔진 모델을 공급하고 있다. 국내에는 ETRI에서 기술이전을 받은 음성인식 엔진, 오픈소스 기반의 Kaldi 엔진, 엔비디아에서 공개한 음성인식 플랫폼 등 다양하게 제공되고 있다. 하지만 모든 플랫폼을 적용하기 위해서는 데이터 확보, 정제 등을 통해 도메인에 맞는 모델을 구축해야 한다.

솔루게이트는 음성인식 엔진에 중요한 음향 모델, 언어 모델 등을 학습하여 제공하고 있다. 엔진 이외의 개발 영역은(예 : 사용자화면, 관리자 화면 등) 타 기업에서 개발할 수 있도록 별도의 API 가이드를 제공하고 있다. 이를 통해 많은 도메인에서 인공지능 기술이 널리 사용될 수 있을 것이라 예상한다. 현 솔루게이트는 이러한 기술 이외에 개인별 발화 데이터를 통해 목소리 인증 상용화도 진행하고 있다. 목소리 인증에는 화자 식별 기능(Speaker Identification), 인증(Speaker Verification), 분리(Speaker Diarization) 기능이 필요하다. 솔루게이트는 이러한 데이터 수집 등을 통해 한국 시장에 맞는 서비스 엔진을 개발 및 공급하고 있다.

 

 

 

5. 인공지능 데이터 활용 및 사업화

 

솔루게이트가 구축한 ‘한국인 대화·음성 인공지능 데이터 구축’과 기존에 AI 허브에 공개된 데이터셋을 활용하여 다양한 서비스 분야에 필요한 인공지능 모델을 개발할 수 있다.

 

 

그림 6. AI 허브 음성/자연어 데이터

 

 

 

음성인식 모델은 텍스트와 오디오가 같이 있는 데이터를 활용하며, 자연어 모델은 텍스트가 있는 데이터를 활용하여 인공지능 모델을 개발에 도움이 될 것으로 기대한다.

솔루게이트는 이러한 데이터를 기반으로 모니터링 관제 시스템에 음성 명령어를 학습하여, 시뮬레이션을 할 수 있는 서비스 모델이 가능하다. 또한, CRM 시스템과 연동하여 고객이 이야기한 내용이 불만인지, 인종차별 발언이 있는지 등에 대해 인지하여 알려주면 매니저들이 빠르고 쉽게 업무처리가 가능하다. 마지막으로 한국어는 빠르게 신조어 등이 생성되고 있으며, 이모티콘으로 대화가 가능한 국가 중 하나이다. 이러한 데이터 학습을 통해 감정 분석을 넘어 감성 분석을 할 수 있는 서비스 모델 개발도 가능할 것으로 생각한다.

 

 

박준호 실장(솔루게이트)

이전글
솔루게이트(Shopigate) 글로벌 이커머스 풀필먼트 센터 오픈 2021-08-18
다음글
솔루게이트, KES 2021서 이커머스 플랫폼 ‘쇼피게이트(shopiGATE)’ 선보여 2021-11-08