【xAI新機能】Grok STT・TTS APIが正式リリース！市場最安値＋複数話者対応で音声AI開発が一気に民主化

2026年4月18日、xAI公式アカウント（@xai）の投稿がエンジニア・開発者界隈でそう話題になっています。GrokのSpeech to Text（音声→テキスト）APIとText to Speech（テキスト→音声）APIが本日より正式利用可能になりました。単なる「音声認識ツール」ではありません。TeslaやStarlinkのカスタマーサポートで実績を積んだ本番稼働済みのインフラを、開発者が直接API経由で使えるようになったのです。しかも競合比3〜4倍の価格優位性を掲げて。

動画編集者・AIクリエイターにとって、これは「文字起こし・ナレーション生成・多言語対応コンテンツ」の制作コストが根本から変わる可能性があります。

Grok’s Speech to Text API is now available. Instant, multi-speaker transcription across 25 languages – at the best price in the market.

— xAI (@xai) April 18, 2026

CONTENTS

1 Grok音声APIとは
2 STT（音声→テキスト）の機能詳細
3 TTS（テキスト→音声）の機能詳細
- 3.1 5つのボイスオプション
- 3.2 音声タグによる感情・表現制御
4 価格比較——競合比「最大80%安」の衝撃
5 精度（単語誤り率）比較
6 ネットの反応
7 エンタープライズ対応
8 まとめ

Grok音声APIとは

今回リリースされた音声APIは2種類です。

API名	機能	エンドポイント
Grok STT（Speech to Text）	音声→テキスト変換（文字起こし）	POST/WSS https://api.x.ai/v1/stt
Grok TTS（Text to Speech）	テキスト→音声合成	POST https://api.x.ai/v1/tts

重要なのはその出自です。このAPIはTesla車内インフォテインメント・Starlinkカスタマーサポート・Grok Voiceアプリという3つの本番環境で実績を積んだ音声スタックと同一の基盤で動いています。「研究段階のデモ」ではなく、何百万もの実際の音声対話を処理してきた本番インフラが開発者向けAPIとして開放された形です。

（参照：xAI公式ニュース / Qiita 実装ガイド）

STT（音声→テキスト）の機能詳細

① 2つのモード：バッチとリアルタイムストリーミング

🗂️ バッチ（REST API）：既存の音声ファイルをミリ秒単位で文字起こし。MP3・WAV・MP4・WebMなど12形式対応。
🎙️ リアルタイムストリーミング（WebSocket API）：音声が流れながら同時にテキスト変換。ライブ字幕・通話リアルタイム文字起こしに対応。

② 話者分離（Speaker Diarization）

複数話者が混在する音声を、Speaker 1 / Speaker 2…として自動的に区別してテキスト化できます。これまで別APIや後処理が必要だった機能が、同一のAPIコール内で完結します。会議議事録・インタビュー・コールセンター録音での活用が特に効果的です。

③ Inverse Text Normalization（ITN）

ほとんどの音声認識APIは「フォーハンドレッドフォーティーン」と書き起こすところを、Grok STTは自動的に「414」「$6.99」「2026年3月10日」などの構造化された表記に変換します。医療・法律・金融分野での後処理コストを大幅に削減できます。

④ 単語レベルタイムスタンプ

各単語の開始・終了時刻を取得でき、字幕生成・チャプター作成・ハイライト切り抜きなどの動画編集ワークフローと直結します。

⑤ 25言語以上・シームレスな言語切り替え

日本語を含む25言語以上に対応。二言語が混在する音声でも言語を宣言せず自動検出・切り替えが可能です。

TTS（テキスト→音声）の機能詳細

5つのボイスオプション

ボイス名	特徴	推奨用途
Eve	エネルギッシュ・活気あり	プロモーション動画、ナレーション
Ara	温かみ・親しみやすい	カスタマーサポート、教育コンテンツ
Rex	プロフェッショナル・落ち着き	ビジネスプレゼン、企業向けアプリ
Sal	スムーズ・流暢	ポッドキャスト、音声ニュース
Leo	権威ある・力強い	ニュース読み上げ、公式アナウンス

音声タグによる感情・表現制御

テキスト内に簡単なタグを埋め込むだけで、AIの声に笑い・ため息・囁き・強調などの表現を付与できます。

[laugh]——笑い声を挿入
[breath]——呼吸音を挿入
[sigh]——ため息を挿入
<whisper>テキスト</whisper>——囁き声で読み上げ
<emphasis>テキスト</emphasis>——強調して読み上げ

（参照：xAI公式：音声タグ一覧）

価格比較——競合比「最大80%安」の衝撃

サービス	STT（バッチ）	STT（ストリーミング）	TTS
Grok（xAI）	$0.10/時	$0.20/時	$4.20/100万文字
OpenAI Whisper	$0.36/時（$0.006/分）	非対応	$15.00/100万文字
ElevenLabs	$0.40/時（PAYG）	$0.40/時	$60〜$120/100万文字
Deepgram	〜$0.35/時	〜$0.35/時	—
AssemblyAI	〜$0.37/時	〜$0.40/時	—

STTはOpenAI Whisperと比べて約3.6倍安く、ElevenLabsと比べると4倍安い計算になります。TTSに至ってはElevenLabsの最大28倍安いという破格の設定です。

DeFiアナリストのTat Thang氏が言った「Robinhoodの初年度を48時間で超えたCashtags」と同じ文脈で、今度はxAIが音声AI市場で同様の価格破壊を仕掛けています。

精度（単語誤り率）比較

xAIが公開したベンチマーク（Word Error Rate：数値が低いほど高精度）：

ドメイン	Grok STT	ElevenLabs	Deepgram	AssemblyAI
📞 電話通話（固有名詞認識）	5.0%	12.0%	13.5%	21.3%
🎬 動画・ポッドキャスト	2.4%	2.4%	3.0%	3.2%
🏢 会議	10.9%	12.2%	16.3%	15.7%
☎️ 電話音質	9.3%	9.4%	11.0%	11.2%
📊 総合	6.9%	9.0%	11.0%	12.9%

動画・ポッドキャスト領域ではElevenLabsと同率首位（2.4%）、その他のカテゴリでは全項目でトップ精度を記録。特に「電話通話の固有名詞認識」ではAssemblyAIの21.3%に対してGrokは5.0%と4倍以上の精度差があります。

ネットの反応

💬「Grokから音声APIが出た。価格がえぐい。TTSが$4.20/100万文字、Googleの約1/7って何」
💬「これで本格的に音声機能が作れる」
💬「ElevenLabsとDeepgramには緊急会議が必要なレベル」
💬「半額から80%安。xAIが仕掛ける価格破壊が本物すぎる」
💬「Tesla・Starlinkの本番稼働環境と同じスタックってのが説得力ありすぎ」
💬「日本語対応してたら即乗り換えたい」（日本語ユーザーの関心も高い）

エンタープライズ対応

個人開発者だけでなく企業・医療・法律分野にも対応するコンプライアンス体制を整備しています。

🔒 SOC 2 Type II認証：セキュリティ・可用性・処理整合性の第三者監査済み
🏥 HIPAA準拠：医療系アプリへの組み込みが可能
🇪🇺 GDPR準拠：EU圏でのデータ処理に対応

まとめ

Grok STT・TTS APIのリリースは、単なる新機能発表ではありません。「より安く、より正確に」という通常ではあり得ないトレードオフを同時に達成したことで、ElevenLabs・Deepgram・AssemblyAIといった音声AI専業企業に正面衝突を仕掛けた歴史的な一手です。

xAIのコロッサス・スーパーコンピューターの余剰キャパシティを活用した低価格戦略は、CashtagsがX上の金融データを変えたように、音声AI開発の民主化を一気に加速させる可能性があります。

動画編集・AIコンテンツ制作に携わるクリエイターにとって、文字起こし・ナレーション・多言語対応の3つがAPI一本・格安コストで解決できる時代がついに来ました。まずはxAI APIコンソールでAPIキーを取得してみることをおすすめします。