Microsoft, 3초 샘플로 목소리 재현하는 기술 <VALL-E> 공개
마이크로소프트사의 연구팀은 음성 샘플을 3초만 듣고도 음성을 시뮬레이션할 수 있는 텍스트 음성 변환 인공지능 도구를 공개했다. 기존의 음성 모델은 학습에 오랜 시간이 걸렸지만 이번에 공개한 음성 시뮬레이션 기술인 VALL-E는 짧은 오디오 샘플을 통해 다른 어떤 AI 모델도 자연스럽게 들릴 수 있게 구현하며 화자의 감정과 어조까지 구현할 수 있다.
이 기술은 ‘신경 코텍 언어 모델’이라고 부르며 메타의 엔코덱 기술을 사용한다. 사람의 목소리를 엔코덱을 통해 개별 토큰으로 분석한 뒤 AI가 다른 단어의 소리를 낼 때 목소리가 어떻게 들릴지 예측한다. 기존의 파형 조작 방식 대신 텍스트 및 음향 프롬프트에서 오디오 코텍 코드를 생성하는 것이다. 현재 마이크로소프트사는 아직 대중에게 기술을 공개하지는 않았다. 하지만 습득에 정말로 3초밖에 걸리지 않고, 그 결과물이 발표와 비슷하다면 활용할 수 있는 분야는 실로 다양하다. 이런 AI 기술이 개선되면서 긍정적인 의견만 있는 것은 아니다. 오디오 딥페이크에 대한 우려 역시 공존한다. 단 몇 초 만에 누군가의 목소리를 완벽하게 흉내 낼 수 있는 툴이 있다면, 잘못된 사람들의 손에서 악용되기도 쉽다. 마이크로소프트 역시 이 기술의 잠재적인 오용 가능성을 잘 알고 있다.
데모 페이지에서 발리로 실제 생성한 음성을 들을 수 있다. 'Speaker Prompt'는 발리가 학습하는 샘플용 음성으로 왼쪽에 기록된 텍스트와는 전혀 다른 내용을 아주 짧은 시간 말한다. 'Ground Truth' 음성은 샘플 음성과 동일인이 왼쪽에 적힌 텍스트를 읽은 정답 음성이다. 또 'Baseline'이 기존 인공지능 모델로 작성한 합성 음성이며, 'VALL-E'가 발리로 생성한 합성 음성이다.
실제로 비교해 보면 'Baseline'과 'VALL-E'의 차이는 명확하다. 'Baseline'은 소음이 들어간 느낌의 음성인 반면, 'VALL-E'는 'Ground Truth'와 비교해도 어색함이 없고 음성에 따라서는 호흡 타이밍까지 'Ground Truth'와 일치한다. 특히 발리는 화자 목소리의 특징과 감정 표현, 나아가 샘플의 음향 환경까지 모방할 수 있다. 가령 샘플이 전화 음성이라면 합성 음성도 전화의 음향 특성이나 주파수 특성을 재현하는 식이다. 한편, MS는 범죄 악용 위험성을 고려해 발리를 아직 대중에 공개하지 않았다. 이러한 우려에 대해 MS는 "발리는 화자의 동일성을 유지한 채 음성을 합성할 수 있어 잠재적 위험을 내포할 가능성이 있다. 이러한 위험을 줄이기 위해 음성 클립이 발리로 합성된 것인지를 판별하는 검출 모델을 구축할 수 있다. 또 모델의 개발 과정에서 MS가 정한 '책임 있는 AI의 기본 원칙'을 실천해 갈 예정"이라고 밝혔다.
카라멜츠
사람들의 마음속 달콤하게 녹아드는 광고를 만드는 카라멜츠_Caramelts 입니다.
caramelts.co.kr