Issue № 06·05 Miso Labs · MisoTTS 8B Emotional Voice AI

「声」に、
命が宿る。

2026年6月、Miso Labs が公開した Miso One（MisoTTS 8B）。世界で最も「感情的」を標榜する、オープンウェイトの音声生成モデル。息遣い・ためらい・笑い——言語化できない機微を、声そのものに宿す。

110msの衝撃 → 感情空間 RVQ →

パラメータ規模 · Llama 3.2 系

110ms

応答遅延 · 人間の反応(160ms)を凌駕

10¹⁰⁵

RVQ 感情表現空間 · 2048³²

Openweight

Hugging Face 公開 · Modified MIT

Miso One（MisoTTS 8B）— 世界一感情的なAIが描くUXの未来 — **OVERVIEW** Miso One が描く、感情的音声AIの未来。情報の正確性を超え、「どう話すか」という身体性の層へ——声に体温を宿すオープンウェイトモデルの全体像。 · 0605.png

01 · The Shift

「何を言うか」から、
「どう話すか」へ。

LLMの知能は完璧に近づいた。しかし、声にはまだ体温が宿っていなかった。 Miso One の本質は、文章を読み上げる従来のTTSではなく、会話の文脈とトーンを直接モデリングする「音声言語モデル」である。AIの主戦場は、論理の層から身体性の層へ移る。

Text AI · これまで

情報の正確性

「正しく答える」道具

知能は完璧。しかし声は機械的で、正しい回答をしていてもユーザーは離脱する。会話の「間」も「体温」もない、不自然な相手だった。

Voice AI · Miso One

身体性の共有

「共に話す」パートナー

抑揚・息遣い・微細な感情の機微を再現。相手の叫びに優しく返し、囁きに合わせて応じる。声の情報量そのものが価値になる。

02 · Ultra-low Latency

110msは性能ではなく、
「人間らしさ」の前提条件。

人間同士の会話のターン交代は平均 200〜300ms。Miso One の 110ms は、人間の反応速度（160ms）すら上回る。これは単なる処理の速さではない——会話における「迷い」や「拒否」と誤解される「気まずい沈黙」を消し去り、信頼を築くための前提条件だ。

Miso OneMisoTTS 8B

110ms

Sesame 等既存の高速モデル

300ms

ElevenLabs 等主要商用モデル

700ms+

会話相手として自然に感じられる臨界点は、人間の反応速度。Miso One はそれを下回ることで、AIを初めて「リズムを共に刻む相手」へと押し上げた。

03 · Residual Vector Quantization

天文学的な、感情の表現空間。

従来のTTSは固定された語彙に縛られていた。Miso One は RVQ（残差ベクトル量子化） で音声を階層的に量子化し、32個のコードブック × 各2048語彙を組み合わせる。理論上の表現空間は、宇宙の原子数をも超える。

10¹⁰⁵ ＝ 2048³² の音声トークン空間。
ピッチ・リズム・ためらい・笑い・息を、直接モデル化する。

CB 01粗い音響

CB 02音色

CB 03抑揚・強調

CB 32息・震え

— 32層の残差が、声の質感を一段ずつ彫り込む —

ピッチリズム強調ためらい笑い息成分ささやき叫び

04 · Architecture

文脈と感情の、
バケツリレー。

MisoTTS 8B は、Llama 3.2 系をベースにした二段構成のTransformer。骨格を描くバックボーンと、質感を彫るデコーダが連携し、声の細部までを自己回帰的に生成する。

Input

Text ＋ Audio Context

テキストに加え、前の発話のトーンを条件付け。文脈に沿った声を生む。

→

Stage 1 · 骨格

Temporal Backbone

≈ 7.7B params

テキストと過去の音声履歴を処理し、次フレームの「粗い音響」を予測する。

→

Stage 2 · 質感

Depth Decoder

≈ 300M params

骨格を基に、声の震え・息・音色といった詳細を自己回帰生成する。

音声コンテキストの同時処理。 単なるテキストの音声化ではなく、相手の叫び声に優しく返す・ささやきに合わせて応じるなど、「前の発話のトーン」を条件にインタラクティブな対話が成立する。

05 · Where Voice Becomes Value

声の情報量が、価値になる領域。

声の体温そのものが意味を持つあらゆる場所で、Miso One はパラダイムシフトを起こす。

カスタマーサポート

AI Agent · CS

課題：正しい回答でも、声が機械的でユーザーが離脱する。

解決：謝罪の申し訳なさ、営業の熱意——状況に応じた「声の温度感」で顧客満足度を高める。

AIコンパニオン

Entertainment

課題：文章は自然でも、声に感情が伴わない。

解決：恋愛モノローグ・興奮した実況・セラピー調の囁き——用途ごとにレジスターを演じ分け、没入感を提供する。

ボイスクローン

Content Creation

課題：感情の異なるテイクを録る再収録コスト。

解決：10秒のサンプルからワンショット・クローン。一貫した声質のまま、多様な感情を低コストで量産する。

医療・アクセシビリティ

Dignity

課題：ALS患者などが声を失う時、自分らしさを伝えられない。

解決：自分の声のクローンで感情豊かに話す——尊厳の回復としての音声AI。

06 · Open Weights & Sovereignty

音声データの「主権」を、
取り戻す。

Miso Labs は最先端モデルをオープンウェイトで公開し、クローズドAPIへの依存に挑む。音声を外部APIへ送らずに済むことは、機密領域におけるデータ主権そのものだ。

ローカル導入という選択肢。 金融・医療・法務など機密性の高い領域でも、音声データを手元に留めたまま自社運用（セルフホスト）できる。商用クローズドAPIに対する、強力な代替選択肢となる。

悪用への備え。 生成音声にはデフォルトで電子透かし SilentCipher（Sony） が埋め込まれ、追跡可能性を担保。なりすまし・詐欺・有害コンテンツへの利用は厳格に禁止される。

動かすために。 ローカル実行には 32GB VRAM クラスのGPUが推奨される。8B規模ゆえ、日本語ファインチューニングの土台としても現実的だ。

ライセンスと安全策Modified MIT

◆自由な改変・配布・販売が基本。オープンウェイトでセルフホスト可能。
◆商用で MAU 5,000万超 または 月商 $10M 超の場合、UIに「Miso Labs」クレジット表示の義務。
◆SilentCipher 電子透かし（Sony）をデフォルト埋め込み。悪用を追跡。
◆なりすまし・詐欺・欺瞞・有害利用は厳格に禁止。

07 · Honest Constraints

そして、まだ語られない制約。

強力な生成力には、正直な限界も伴う。現時点での制約を理解した上での導入が、賢明な一歩になる。

Language

英語のみ対応

日本語特有の韻律や敬語表現への適応は今後の課題。8Bオープンモデルゆえ、日本語FTの余地は大きい。

Interaction

Half-Duplex 限定

現状は「交互会話」のみ。割り込みや同時発話（full-duplex）にはまだ対応していない。

Reliability

短文ハルシネーション

短いテキストで、内容と合致しない音声を生成するリスクが報告されている。

「情報の正確性」から、
「身体性の共有」へ。 Miso One · MisoTTS 8B — 2026·06·05

From the Briefing

技術ブリーフィング、抜粋。

本スライドの元となった技術解説資料より。レイテンシ、生成パイプライン、ポジショニングの要点。

110msの衝撃：低遅延の意味 — **110ms** 低遅延は「人間らしさ」の前提条件

声が生成される仕組み：文脈と感情のバケツリレー — **Pipeline** Backbone 7.7B → Decoder 300M

ポジショニング：Miso One はどこに位置するのか — **Position** 商用APIに対するオープンの代替

Sources / References

出典と関連リファレンス。

本スライドは Miso One（MisoTTS 8B）の発表に基づく技術解説。確定情報はモデルカード・公式リポジトリでの裏取りを推奨する。

01 Hugging Face — Miso One モデルウェイトオープンウェイト本体とモデルカード。ライセンス・推奨VRAM・利用制限の一次情報。 → 02 Miso Labs — 公式発表MisoTTS 8B の設計思想、RVQ・二段Transformer・110ms 低遅延の技術解説。 → 03 Residual Vector Quantization（SoundStream 等）RVQ による階層的音声量子化の基礎。32コードブックの表現空間の背景。 → 04 SilentCipher（Sony）— 音声電子透かし生成音声に埋め込まれる追跡用ウォーターマーク技術。 → 05 Llama 3.2 — バックボーン基盤テンポラル・バックボーンのベースとなったモデルファミリー。 →

「声」に、命が宿る。

「何を言うか」から、「どう話すか」へ。