SMW MAGAZINE
서울메타위크 매거진
[SMW Vol.10] Ep.4 사운드스톰: 구글, 실시간 음성 복제가 가능한 AI 도구 공개
2023-06-01

구글은 효율적이고 자동 회귀적이지 않은 오디오 생성을 위한 최첨단 모델인 사운드스톰을 통해 인공지능 기술의 최신 혁신을 선보였다. 다양한 목소리로 대화를 합성하는 기능을 갖춘 SoundStorm은 서면 텍스트로 오디오 콘텐츠를 생성하고 사실적인 팟캐스트를 제작하는 등 다양한 애플리케이션에 새로운 가능성을 열어준다.

이전 버전인 AudioLM과 달리 SoundStorm은 30초 단위로 오디오를 생성하는 새로운 아키텍처를 채택하여 효율성을 높였다. 이 모델은 양방향 주의 및 신뢰 기반 병렬 디코딩을 활용하여 고품질 오디오를 생성하는 동시에 생성 시간을 크게 단축한다. Google의 TPU-v4 하드웨어에서 SoundStorm은 30초 분량의 오디오를 단 0.5초 만에 생성할 수 있어 속도가 크게 향상되었다.

사운드스톰의 학습은 10만 시간의 대화로 구성된 방대한 데이터 세트를 사용하여 수행되어 음성 언어 패턴에 대한 강력한 이해를 보장한다. 이 모델은 AudioLM이 달성한 오디오 품질을 유지하면서 음성 및 음향 조건에서 인상적인 일관성을 달성한다. 이러한 혁신으로 SoundStorm은 이전 버전보다 두 배 이상 빨라졌으며, 확장 가능한 오디오 생성의 잠재력을 입증했다.

SoundStorm의 핵심 기능 중 하나는 SPEAR-TTS의 텍스트-시맨틱 모델링 단계를 활용하여 자연스러운 대화를 합성하는 기능이다. 화자 전환과 짧은 음성 안내가 포함된 스크립트를 제공함으로써 사용자는 음성 콘텐츠와 화자의 음성을 제어할 수 있다. 테스트 과정에서 SoundStorm은 단일 TPU-v4에서 30초 분량의 대화 세그먼트를 단 2초 만에 합성하는 기능을 시연하여 효율성과 다용도성을 보여주었다.

표준 기준과 비교했을 때 SoundStorm에서 생성된 오디오는 AudioLM과 동등한 품질이며 뛰어난 일관성과 음향 무결성을 보여준다. 특히 음성 샘플을 제공하라는 메시지가 표시되면 모델은 화자의 목소리를 놀라운 정확도로 보존하여 실제와 같은 대화를 생성할 수 있는 능력을 크게 향상시킨다.

SoundStorm의 기능은 뛰어나지만 윤리적 문제를 인식하고 해결하는 것이 중요하다. 알고리즘의 학습 데이터에는 억양 및 음성 특징과 관련된 편견이 있을 수 있다. 목소리를 모방하는 기능은 사칭이나 생체 인식 우회에 악용될 수 있다. Google은 이러한 악용을 방지하기 위해 보호 장치를 마련하고 전용 분류기를 통해 생성된 오디오의 탐지 가능성을 보장하는 것이 중요하다는 점을 강조한다.

Google의 윤리적 AI 원칙은 잠재적인 위험과 제약을 해결하기 위한 지속적인 노력의 원동력이다. Google은 학습 데이터와 모델 결과물에 대한 영향에 대한 철저한 연구가 필요하다는 점을 인식하고 있다. 또한 이 기술을 윤리적으로 사용하기 위해 합성 음성을 탐지하기 위한 오디오 워터마킹과 같은 추가적인 접근 방식을 조사할 계획이다.

SoundStorm은 고품질의 효율적인 신경 오디오 코덱 기반 오디오 표현을 제공하는 AI 기반 오디오 제작의 큰 진전이다. Google은 SoundStorm의 메모리 및 처리 요구량이 적어 더 많은 커뮤니티에서 오디오 생성 연구에 더 쉽게 접근할 수 있을 것으로 기대한다. Google은 책임감 있는 AI 관행을 유지하고 SoundStorm의 안전하고 책임감 있는 사용과 기술 발전에 따른 해당 분야의 혁신을 보장하기 위해 최선을 다하고 있다.

Microsoft의 최신 텍스트 음성 변환(TTS) 모델인 VALL-E는 이러한 시스템이 음성을 생성하는 방식을 개선하는 데 있어 큰 진전이다. VALL-E는 3초 분량의 음성 샘플만 듣고도 어떤 음성이든 음성으로 생성할 수 있는 트랜스포머 기반의 TTS 모델이다. 이는 새로운 음성을 개발하는 데 훨씬 더 긴 훈련 기간이 필요했던 이전 모델에 비해 크게 발전한 것이다.

RELATED EPISODES
Stay Tuned
뉴스레터를 구독하고 서울메타위크 소식지를 받아보세요