AI Daily Briefing
2026 · 06 · 05 · Fri
Issue № 06·05 Miso Labs · MisoTTS 8B Emotional Voice AI

「声」に、
が宿る。

2026年6月、Miso Labs が公開した Miso One(MisoTTS 8B)。世界で最も「感情的」を標榜する、オープンウェイトの音声生成モデル。息遣い・ためらい・笑い——言語化できない機微を、声そのものに宿す。

8B
パラメータ規模 · Llama 3.2 系
110ms
応答遅延 · 人間の反応(160ms)を凌駕
10105
RVQ 感情表現空間 · 204832
Openweight
Hugging Face 公開 · Modified MIT
Miso One(MisoTTS 8B)— 世界一感情的なAIが描くUXの未来
OVERVIEW Miso One が描く、感情的音声AIの未来。情報の正確性を超え、「どう話すか」という身体性の層へ——声に体温を宿すオープンウェイトモデルの全体像。 · 0605.png
01 · The Shift

「何を言うか」から、
「どう話すか」へ。

LLMの知能は完璧に近づいた。しかし、声にはまだ体温が宿っていなかった。 Miso One の本質は、文章を読み上げる従来のTTSではなく、会話の文脈とトーンを直接モデリングする「音声言語モデル」である。AIの主戦場は、論理の層から身体性の層へ移る。

Text AI · これまで
情報の正確性

「正しく答える」道具

知能は完璧。しかし声は機械的で、正しい回答をしていてもユーザーは離脱する。会話の「間」も「体温」もない、不自然な相手だった。

Voice AI · Miso One
身体性の共有

「共に話す」パートナー

抑揚・息遣い・微細な感情の機微を再現。相手の叫びに優しく返し、囁きに合わせて応じる。声の情報量そのものが価値になる。

02 · Ultra-low Latency

110msは性能ではなく、
「人間らしさ」の前提条件。

人間同士の会話のターン交代は平均 200〜300ms。Miso One の 110ms は、人間の反応速度(160ms)すら上回る。これは単なる処理の速さではない——会話における「迷い」や「拒否」と誤解される「気まずい沈黙」を消し去り、信頼を築くための前提条件だ。

Miso OneMisoTTS 8B
110ms
Sesame 等既存の高速モデル
300ms
ElevenLabs 等主要商用モデル
700ms+
会話相手として自然に感じられる臨界点は、人間の反応速度。Miso One はそれを下回ることで、AIを初めて「リズムを共に刻む相手」へと押し上げた。
03 · Residual Vector Quantization

天文学的な、感情の表現空間

従来のTTSは固定された語彙に縛られていた。Miso One は RVQ(残差ベクトル量子化) で音声を階層的に量子化し、32個のコードブック × 各2048語彙を組み合わせる。理論上の表現空間は、宇宙の原子数をも超える。

10105 = 204832 の音声トークン空間。
ピッチ・リズム・ためらい・笑い・息を、直接モデル化する。
CB 01粗い音響
CB 02音色
CB 03抑揚・強調
CB 32息・震え
— 32層の残差が、声の質感を一段ずつ彫り込む —
ピッチリズム強調ためらい笑い息成分ささやき叫び
04 · Architecture

文脈と感情の、
バケツリレー

MisoTTS 8B は、Llama 3.2 系をベースにした二段構成のTransformer。骨格を描くバックボーンと、質感を彫るデコーダが連携し、声の細部までを自己回帰的に生成する。

Input

Text + Audio Context

テキストに加え、前の発話のトーンを条件付け。文脈に沿った声を生む。

Stage 1 · 骨格

Temporal Backbone

≈ 7.7B params

テキストと過去の音声履歴を処理し、次フレームの「粗い音響」を予測する。

Stage 2 · 質感

Depth Decoder

≈ 300M params

骨格を基に、声の震え・息・音色といった詳細を自己回帰生成する。

音声コンテキストの同時処理。 単なるテキストの音声化ではなく、相手の叫び声に優しく返す・ささやきに合わせて応じるなど、「前の発話のトーン」を条件にインタラクティブな対話が成立する。
05 · Where Voice Becomes Value

声の情報量が、価値になる領域

声の体温そのものが意味を持つあらゆる場所で、Miso One はパラダイムシフトを起こす。

カスタマーサポート

AI Agent · CS

課題:正しい回答でも、声が機械的でユーザーが離脱する。

解決:謝罪の申し訳なさ、営業の熱意——状況に応じた「声の温度感」で顧客満足度を高める。

AIコンパニオン

Entertainment

課題:文章は自然でも、声に感情が伴わない。

解決:恋愛モノローグ・興奮した実況・セラピー調の囁き——用途ごとにレジスターを演じ分け、没入感を提供する。

ボイスクローン

Content Creation

課題:感情の異なるテイクを録る再収録コスト。

解決:10秒のサンプルからワンショット・クローン。一貫した声質のまま、多様な感情を低コストで量産する。

医療・アクセシビリティ

Dignity

課題:ALS患者などが声を失う時、自分らしさを伝えられない。

解決:自分の声のクローンで感情豊かに話す——尊厳の回復としての音声AI。

06 · Open Weights & Sovereignty

音声データの「主権」を、
取り戻す。

Miso Labs は最先端モデルをオープンウェイトで公開し、クローズドAPIへの依存に挑む。音声を外部APIへ送らずに済むことは、機密領域におけるデータ主権そのものだ。

ローカル導入という選択肢。 金融・医療・法務など機密性の高い領域でも、音声データを手元に留めたまま自社運用(セルフホスト)できる。商用クローズドAPIに対する、強力な代替選択肢となる。

悪用への備え。 生成音声にはデフォルトで電子透かし SilentCipher(Sony) が埋め込まれ、追跡可能性を担保。なりすまし・詐欺・有害コンテンツへの利用は厳格に禁止される。

動かすために。 ローカル実行には 32GB VRAM クラスのGPUが推奨される。8B規模ゆえ、日本語ファインチューニングの土台としても現実的だ。

ライセンスと安全策Modified MIT
  • 自由な改変・配布・販売が基本。オープンウェイトでセルフホスト可能。
  • 商用で MAU 5,000万超 または 月商 $10M 超の場合、UIに「Miso Labs」クレジット表示の義務。
  • SilentCipher 電子透かし(Sony)をデフォルト埋め込み。悪用を追跡。
  • なりすまし・詐欺・欺瞞・有害利用は厳格に禁止
07 · Honest Constraints

そして、まだ語られない制約

強力な生成力には、正直な限界も伴う。現時点での制約を理解した上での導入が、賢明な一歩になる。

Language

英語のみ対応

日本語特有の韻律や敬語表現への適応は今後の課題。8Bオープンモデルゆえ、日本語FTの余地は大きい。

Interaction

Half-Duplex 限定

現状は「交互会話」のみ。割り込みや同時発話(full-duplex)にはまだ対応していない。

Reliability

短文ハルシネーション

短いテキストで、内容と合致しない音声を生成するリスクが報告されている。

「情報の正確性」から、
「身体性の共有」へ。
Miso One · MisoTTS 8B — 2026·06·05
From the Briefing

技術ブリーフィング、抜粋

本スライドの元となった技術解説資料より。レイテンシ、生成パイプライン、ポジショニングの要点。

Sources / References

出典と関連リファレンス

本スライドは Miso One(MisoTTS 8B)の発表に基づく技術解説。確定情報はモデルカード・公式リポジトリでの裏取りを推奨する。