MisoTTS、感情音声AI

MisoTTS、感情音声AI

MisoLabsは、感情表現豊かな音声合成モデル「MisoTTS」をオープンソースで公開しました。応答遅延110msはElevenLabsの約7分の1という超低遅延を実現し、10秒の音声サンプルだけで声を複製する「ワンショット音声クローニング」も搭載しています。オンプレミスでのローカルデプロイが可能で、データを社外に出せない企業にも対応できます。現時点での対応言語は英語のみです。

【出典元】MisoTTS | GitHub

競合の7倍速い110ms応答

音声AIを会話システムに組み込む場合、応答の遅れは「不自然な間」として体験に直結します。MisoTTSは110msという応答遅延を実現しており、主要な競合製品と比較すると以下の通りです。

サービス応答遅延
MisoTTS110ms
他社平均約300ms
ElevenLabs約700ms

人間の自然な会話では、相手の発話後100〜200ms程度で返答が始まります。110msという数値はその範囲内に収まっており、AIとの対話を人間同士の会話に近い速さにできることを意味しています。

10秒で声を複製する機能

MisoTTSは「ワンショット音声クローニング」に対応しています。特定の人物の声を10秒間録音するだけで、その声を再現した音声を生成できます。通話の開始から終了まで、複製した声の一貫性が維持される設計になっています。

また会話履歴をもとに文脈を理解した上で音声を生成するため、文章の感情やニュアンスに応じた自然な読み上げが可能です。生成した音声にはデフォルトでSilentCipherという技術による透かし(ウォーターマーク)が自動的に埋め込まれ、不正利用への対策も施されています。

自社サーバーで動かせる

MisoTTSはGitHubで全コードが公開されており、自社のサーバーでそのまま動かせます。ElevenLabsなどクラウド型のTTSサービスは音声データを外部サーバーに送信する必要がありますが、MisoTTSはオンプレミス(自社インフラ)での運用が可能です。

医療・金融・法務など機密データを扱う業種にとって、音声データを社外に出さずに高品質な音声AIを利用できるのは大きなメリットです。エンタープライズ向けのオンプレミスホスティングとサポート契約もMisoLabsが提供しています。

英語のみ・動作条件に注意

現時点でのMisoTTSの対応言語は英語のみです。日本語を含む他言語への対応は発表されていません。日本語の音声AIとして活用したい場合は、現時点では使えないことに注意が必要です。

また動作には相応の計算リソースが必要です。

要件内容
GPU VRAM推奨24GB(bfloat16精度での実行時)
ディスク容量初回ダウンロード時に30〜40GB必要
モデルサイズ8Bパラメータ(バックボーン)+300M(音声デコーダ)

家庭用PCでの動作は難しく、高性能なGPU環境が前提となります。

まとめ

MisoTTSは「超低遅延・音声クローニング・オープンソース」という3つを同時に満たした音声AIモデルです。ElevenLabsとの比較で7倍速い110msの応答速度と、データを社外に出さずに運用できるオンプレミス対応は、音声エージェント開発において差別化されたポイントといえます。

ただし現時点では英語のみの対応で、GPU VRAM 24GBという高い動作要件があります。日本語への対応や、より軽量なモデルの提供がどのタイミングで行われるかが、日本市場での普及を左右しそうです。

関連記事