Product
Google, Gemini 3.1 Flash TTS 공개 — 200+ 오디오 태그·70개 언어로 표현형 음성 통제
음성 스타일·페이스를 자연어 오디오 태그로 직접 통제. 70+ 언어 지원, SynthID 워터마크 내장, Artificial Analysis TTS 리더보드 1위(Elo 1,211).
2026년 4월 15일#Google #Gemini #TTS #Voice AI

한 줄 요약
Google이 Gemini 3.1 Flash TTS를 공개했다. 단순히 글을 읽는 수준을 넘어, "속삭이듯이", "초조한 톤으로" 같은 자연어 지시를 200+ 오디오 태그로 직접 통제할 수 있다. TTS 리더보드(Artificial Analysis) Elo 1,211로 1위.
무엇이 풀렸나
- 자연어 통제: "speak slowly with a calm tone" 같은 자연어 지시 그대로 반영
- 200+ 오디오 태그: 강조·감정·페이스·억양 미세 조정
- 70+ 언어 지원
- SynthID 워터마크 내장 — AI 생성 음성 자동 식별 가능
- 배포 채널: Gemini API · Google AI Studio · Vertex AI · Google Vids (Workspace)
왜 중요한가
지금까지 한국어 TTS는 두 가지 한계가 있었다:
- 음성이 어색해 광고·교육에 못 씀
- 감정 통제가 안 돼 단조로움
Gemini 3.1 Flash TTS는 두 한계 모두 큰 폭으로 개선됐다. 한국어가 70+ 언어 풀에 포함되어 있다.
실무자가 얻어갈 것
- 콘텐츠 제작자: 유튜브·강의 영상·팟캐스트 보이스오버 단가 폭락 가능성
- CS·교육 자동화: 안내 음성·교재 음성을 사람 녹음 없이 양산
- 마케팅: A/B 테스트용 광고 보이스 다양화 비용 절감
- SynthID로 신뢰성 확보 — "AI 생성"임을 워터마크로 검증 가능 (법적·윤리적 리스크 완화)
우리 회사 관점
- POC 우선순위: 고객사 IVR(자동응답) 음성 교체 · 영상 보이스오버 자동화
- 단가 측정: 음성 1분당 비용 vs 사람 성우 비용 비교 → ROI 계산
- 법무 검토: 한국은 AI 음성 표시 의무 규정이 정비 중. SynthID는 도움이 되지만 별도 명시 필요
출처
이 글이 도움이 됐다면 공유해주세요