Gemini 3.5 Live Translateとは——「ターン制」を捨てた同時通訳型の音声AI

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - Gemini 3.5 Live Translateとは——「ターン制」を捨てた同時通訳型の音声AI - 章扉

Googleは6月9日、公式ブログ「Fluid, natural voice translation with Gemini 3.5 Live Translate」で、リアルタイム音声翻訳に特化した新しいオーディオモデル「Gemini 3.5 Live Translate」を発表した。5月19日のGoogle I/O 2026で発表されたGemini 3.5 Flashに続く3.5世代の派生モデルで、Google DeepMindのモデルカードによればベースはGemini 3 Proである。なお、Google AI Studioを率いるLogan Kilpatrick氏が発表直後にX上で「Gemini 3.5 Flash Live Translate」と投稿して訂正する一幕があったが、公式名称に「Flash」は付かない。

このモデルの本質は、従来の音声翻訳が前提としてきた「ターン制」の放棄にある。これまでの翻訳アプリは、話し手が一文を話し終えるのを待ってから訳文を読み上げる「逐次通訳」方式だった。一言話すたびに会話が止まり、テンポは半分以下になる。これに対しGemini 3.5 Live Translateは、人間の同時通訳者のように、相手が話している最中から数秒遅れで翻訳音声を途切れなく生成し続ける。Googleは公式ブログで「文脈を待って品質を高めることと、即座に訳して話者に追随することのトレードオフのバランスを取りながら、音声を継続的に生成する」と説明しており、遅延は「セッションを通じて話者の数秒後ろに付く」水準だとしている。

もうひとつの特徴が「声の保持」だ。翻訳後の音声は機械的な合成音ではなく、元の話者のイントネーション、話す速さ、声の高さを反映する。たとえばスペインの市場で店主と価格交渉をする場面なら、店主のしわがれた早口はしわがれた早口の日本語として、こちらの落ち着いた口調は落ち着いたスペイン語として再現されるため、複数人の会話でも「いま誰が話しているか」が翻訳音声だけで分かる。生成されるすべての音声には、AI生成物であることを後から検出できる不可聴の電子透かし「SynthID」が埋め込まれ、なりすましや誤情報への悪用対策とされている。

実利用の先行例として、Googleは東南アジアの配車大手Grabを挙げている。Grabではドライバーと外国人旅行者の合流時のやり取りに月間1,000万件超の音声通話が発生しており、この通話の多言語化に同モデルをテスト中だという。バンコクで配車を呼んだ日本人旅行者とタイ人ドライバーが、それぞれ母語で話すだけで待ち合わせ場所を確認できる、という世界が想定されている。発表に合わせ、韓国エンタメ大手CJ ENMや音声インフラのLiveKitも品質と低遅延を評価するコメントを寄せた。

Googleにとって音声翻訳は20年来のテーマだ。Google翻訳はこの4月にサービス開始20周年を迎え、現在は約250言語に対応し、毎月10億人以上が利用、月間1兆語以上を翻訳している。同社のJeff Dean氏はXで「音声翻訳はGoogleで最も長く続いてきた機械学習の取り組みのひとつ。ここまで来た」と感慨を述べており、本モデルはその到達点と位置づけられる。

70以上の言語に対応——「英語経由」をやめた2,000以上の言語ペア

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - 70以上の言語に対応——「英語経由」をやめた2,000以上の言語ペア - 章扉

Gemini 3.5 Live Translateは70以上の言語を自動検出する。利用者が言語を手動で設定する必要はなく、会話の途中で話者が言語を切り替えても追随する。騒音耐性も強化されており、駅の構内や夜市の屋台、オープンオフィスのような騒がしい環境での利用を想定した設計だ。

この「70以上」という数字の意味が最もよく分かるのがGoogle Meetである。Meetの音声翻訳機能は2026年1月に一般提供が始まったばかりだが、その時点では英語⇔スペイン語・フランス語・ドイツ語・ポルトガル語・イタリア語の5言語に限られ、しかも必ず英語を介する必要があった。今回のモデルでは70以上の言語が相互に直接翻訳されるため、1つの会議で2,000以上の言語の組み合わせが成立する。東京の営業担当、ソウルのデザイナー、ミュンヘンのエンジニアが参加する定例会議で、3人がそれぞれ日本語・韓国語・ドイツ語で話し、それぞれの母語で聞く——従来なら全員が英語に切り替えるか高額な通訳を手配するしかなかった場面が、追加の手間なしに成立する。

ただし留意点もある。DeepMindが公開したモデルカードは、「長いポーズの後に声が変わる」「声の性別が入れ替わる」「複数話者が高速に交代する場面で1つの声に固着する」「非ネイティブの訛り、類似言語、急な言語切り替えで言語検出が失敗しうる」といった限界を率直に開示している。また、70超の言語すべてで翻訳品質が均一である保証はなく、低リソース言語での精度を測った第三者検証は発表時点で存在しない。対応言語の全リストは開発者向けドキュメント(ai.google.dev)で公開されている。

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - 70以上の言語に対応——「英語経由」をやめた2,000以上の言語ペア - 図表1

利用方法——Google翻訳アプリ、Google Meet、開発者向けLive API

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - 利用方法——Google翻訳アプリ、Google Meet、開発者向けLive API - 章扉

一般ユーザーにとって最も身近な入口はGoogle翻訳アプリだ。新モデルはAndroid版・iOS版の同アプリに6月9日からグローバルに展開されており、追加料金や申し込みは不要。ヘッドホンやイヤホンを接続し、アプリ左下の「ライブ翻訳」ボタンをタップすれば、相手の発話が自分の耳元で母語になる。実はこの機能自体は2025年12月から米国・メキシコ・インドのAndroid向けにベータ提供され、2026年3月にiOSへ拡大されてきた経緯があり、今回新モデルへの置き換えと正式グローバル化が完了した形だ。

Android版にはさらに、今回の目玉である「リスニングモード」が加わった。イヤホンを持っていなくても、スマートフォンを普通の電話のように耳に当てるだけで、受話口から翻訳音声だけが聞こえる。海外のタクシーでイヤホンを取り出す余裕がない場面や、イヤホンを相手に渡しづらい商談でも使える。なおWinBuzzerが指摘する通り、リスニングモードは現時点でiOS非対応である。

企業向けにはGoogle Meetへの導入が始まる。6月中に一部のビジネス向けGoogle Workspace顧客を対象としたプライベートプレビューが始まり、年内に広範な展開が予定されているが、対象プランや料金体系はまだ発表されていない。従来の5言語版はBusiness Standard以上の各プランやGoogle AI Pro/Ultraで提供されてきたため、新版の提供条件が注目される。

開発者はGemini Live APIとGoogle AI Studioでパブリックプレビューとして即日利用できる。モデルID は「gemini-3.5-live-translate-preview」。音声入力専用(16kHz PCM入力・24kHz出力)で、翻訳モードではテキスト入力やツール呼び出し、システム指示が使えない、低遅延に振り切った設計だ。BCP-47形式で出力言語を指定するだけで動作し、Agora、LiveKit、Pipecat、Fishjam、Vision Agentsといったリアルタイム音声基盤がすでに対応を表明している。コールセンター、多言語ライブ配信、オンライン語学レッスンなどへの組み込みが想定される。

料金は公式ドキュメントによると、無料枠のほか有料利用で音声入力が100万トークンあたり3.50ドル(約560円)、音声出力が同21.00ドル(約3,360円)。音声は毎秒25トークンに換算され、Googleは実効価格を約0.0368ドル/分(約5.9円/分)と明記している。一部メディアは「0.023ドル/分」と報じたが、公式料金ページの実効価格とは一致しない点に注意が必要だ。

技術的な仕組みと、まだ検証されていないこと

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - 技術的な仕組みと、まだ検証されていないこと - 章扉

技術的に見ると、本モデルは音声認識・機械翻訳・音声合成を直列につなぐ従来型の「カスケード方式」ではなく、音声から音声への変換を単一モデルで行うネイティブオーディオ方式とみられる(Gadget Hacksは「中間テキストを介さず音声を直接処理する」と解説している)。AI解説者のRohan Paul氏は「部分的な意味を解釈し、安全に翻訳できる範囲を予測し、新しい音声が届くたびに更新し続ける」仕組みだと説明しており、これは人間の同時通訳者が頭の中で行っている処理に近い。文脈は最大128Kトークンまで保持され、長い会議でも一貫した訳語選択が期待できる。

一方で、現時点の評価情報はほぼすべてGoogle自身の発信に依拠している。モデルカードには翻訳品質を自動評価指標AutoMQMで測定したと記載があるものの、具体的なスコアやBLEU等の数値ベンチマークは公表されていない。Gadget Hacksは「自然さや声保持の主張はすべてGoogle自身の資料によるもので、独立したベンチマークや第三者テストは存在しない」と指摘し、gagadgetも70超の言語全体での品質を測る独立検証の不在を挙げる。WinBuzzerは「遅延ゼロではなく、会話には数秒のギャップが残る」「用意されたデモではなく、実際の通話・会議・アプリを横断して安定動作するかが問われる」と、実環境での信頼性を今後の論点とした。発表から数日の時点で、人間のプロ同時通訳者と品質・遅延を直接比較した独立調査も確認されていない。

米メディアの報道——「初の消費者向け同時通訳」と懐疑論、そして市場の静けさ

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - 米メディアの報道——「初の消費者向け同時通訳」と懐疑論、そして市場の静けさ - 章扉

米テック系メディアの初動は総じて好意的だ。SiliconANGLEは「特別なハードウェアなしに、どのスマートフォンでも動く」点を強調し、Constellation ResearchのアナリストHolger Mueller氏の「Googleが翻訳品質と対応言語数でリードを手放していないことを示した。消費者向けアプリとして初めて同時通訳の領域に踏み込んだ。場合によっては人間の翻訳者より高品質かもしれないし、確実にはるかに安価だ」というコメントを伝えた。Android Policeは「ライブ翻訳をイヤホンから解放した」と表現し、Pixel Buds専用機能として始まった系譜が全ヘッドホン対応(2025年12月)を経てハードウェア不要になった流れを評価。Android Authorityは公開デモの動画翻訳とプレゼン翻訳を「かなり印象的」と報じ、9to5GoogleはMeet統合とリスニングモードを中心に詳報した。

興味深いのは経済メディアと市場の反応の薄さだ。Bloomberg、WSJ、Financial Timesに専従記事は見当たらず(6月11日時点)、Reutersは短報にとどまった。Alphabet株は6月10日に358.21ドル(約5万7,000円)前後と1.7%弱の小幅安で推移したが、これは未成年SNS規制を巡る司法判断やGeminiの一時障害など別の材料によるものとされ、本発表を株価材料として扱った分析は確認されていない。むしろ同時期にBMO CapitalがAlphabetを「トップAIピック」に挙げるなど、アナリストの強気は継続している。Hacker Newsでのスレッドが6ポイント・コメント1件と異例の静けさだったことも含め、「フロンティアAIラボが同時通訳を実現する」こと自体がもはや驚きではなくなった——この淡白さこそが2026年のAI業界の現在地を物語る。

なおGoogle社内の発信は対照的に高揚しており、DeepMindのPhilipp Schmid氏は「これは言語の壁の終わりの始まりだと本気で思う」、Paige Bailey氏はSF小説に登場する万能翻訳生物になぞらえ「バベルフィッシュは社内で達成された」と投稿している。

日欧メディアの論調——「同時通訳に近い」という評価

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - 日欧メディアの論調——「同時通訳に近い」という評価 - 章扉

日本のメディアは翌6月10日に一斉に報じた。ITmedia NEWSは「同時通訳に近い音声モデル」、Impress PC Watchは「AI同時通訳対応」と、いずれも「同時通訳」という言葉を見出しに採用した。ケータイWatchはリスニングモードとGrabでの先行利用を詳しく伝え、GrabのPhilipp Kandal最高プロダクト責任者(CPO)が「複数言語の自動検出と、低遅延で正確な音声翻訳能力」を評価していることを紹介。窓の杜はGoogle翻訳20周年(約250言語・月間1兆語超)という文脈の中に今回の発表を位置づけ、GIGAZINEはSynthID透かしを含む技術詳細を網羅した。日本経済新聞の専従記事は6月11日時点では確認できていない。

欧州ではドイツのHeise onlineとThe Decoderが報じたが、いずれも事実関係を正確に伝える落ち着いた論調で、「Googleによれば」という留保を明示するにとどまる。インバウンド観光が拡大し通訳ガイド不足が続く日本と、24の公用語を抱えるEUは、いずれも本機能の恩恵が最も大きい市場であり、各国語メディアの反応の速さはその裏返しといえる。

ビッグテック音声翻訳戦争——5週間前に動いたOpenAI、追うMicrosoft・Zoom・Apple・Meta

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - ビッグテック音声翻訳戦争——5週間前に動いたOpenAI、追うMicrosoft・Zoom・Apple・Meta - 章扉

今回の発表は単発のニュースではなく、2026年前半に各社が集中投下した「リアルタイム音声翻訳」競争の最新手である。

最大のライバルはOpenAIだ。同社は5週間前の5月7日、APIで音声モデル群を刷新し、ストリーミング音声翻訳専用の「GPT-Realtime-Translate」を投入した。入力は70以上の言語に対応するが、出力は13言語に限られ、料金は0.034ドル/分(約5.4円/分)。プロ通訳者の音声数百時間で学習し、「通訳者として振る舞い、十分な文脈が得られるまで発話を待つ」設計だとされ、Deutsche Telekomが多言語カスタマーサポートに導入済みだ。1月には無料のウェブ版翻訳ツール「ChatGPT Translate」も静かに公開している。言語業界専門メディアSlatorは6月4日(Googleの発表の5日前)に「OpenAIの新リアルタイム通訳は大きな転換か」と題した分析を掲載しており、Googleはそこに「出力も70以上の言語、ほぼ同水準の価格、しかも消費者アプリは無料」という形でぶつけてきた。文脈を待つOpenAIと、待たずに流すGoogle——同時通訳の設計思想そのものが対立軸になっている。

Microsoftは2024年末からTeamsに「通訳エージェント」を組み込み、現在9言語の同時音声通訳をMicrosoft 365 Copilotライセンス保有者に提供する。2026年1月には1対1通話へ拡大し、6月には10言語から任意のペアを選べる逐次通訳モードの一般提供を予定する。ZoomはAIコンパニオンの翻訳字幕が46言語に達し、4月には5言語対応の音声翻訳ベータを開始したが、話者がポーズを置くまで訳出が遅れる制約が報告されている。

Appleは2025年9月のiOS 26で電話・FaceTime・メッセージのLive Translationを開始し、AirPodsを使った対面翻訳を当初5言語、2025年末までに日本語・韓国語・中国語を含む10言語へ拡大した。ただし今週のWWDC 2026(6月8〜12日)では翻訳関連の新発表が確認されておらず、皮肉なことに刷新されたSiriの基盤にはGoogleのGeminiが採用されたとTechCrunchは報じている。MetaはRay-Ban Metaスマートグラスのライブ翻訳を6言語で一般提供し、早期アクセスで日本語を含む8言語を追加中。Zuckerberg CEOはこの言語機能を「ゲームチェンジング」と呼ぶ。SamsungはGalaxy S26シリーズでカメラ越しのリアルタイム翻訳を加え、通話・対面のLive Translateは約20言語に対応する。

並べて見えるのは、入出力とも70以上の言語をカバーし、英語経由を不要にし、声質を保持し、無料の消費者アプリ・企業向け会議ツール・開発者APIの3チャネルへ同時展開した事業者はGoogleだけだという事実だ。言語数と配布チャネルの広さが、現時点での同社の明確な差別化点である。

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - ビッグテック音声翻訳戦争——5週間前に動いたOpenAI、追うMicrosoft・Zoom・Apple・Meta - 図表1

スタートアップ勢力図——DeepL、ElevenLabs、通訳プラットフォームの資金調達状況

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - スタートアップ勢力図——DeepL、ElevenLabs、通訳プラットフォームの資金調達状況 - 章扉

この分野のスタートアップにとって、6月9日は無風ではいられない日になった。

最も直接の競合がドイツのDeepLだ。同社は4月16日にリアルタイム音声翻訳スイート「DeepL Voice-to-Voice」を発表したばかり。TeamsやZoom上での会議翻訳、QRコードで参加できる多言語グループ会話などを揃え、EU公用語24言語にベトナム語・タイ語・アラビア語などを加えた40超の言語に対応する。ただし話者の声質を保持する機能は「2026年末までに提供予定」であり、Googleが初日から提供する声保持で一歩先行された格好だ。DeepLの企業価値は2024年5月のIndex Ventures主導ラウンド(3億ドル=約480億円調達)で20億ドル(約3,200億円)と評価され、投資家にはICONIQ、IVP、Bessemer、Benchmarkらが名を連ねる。Bloombergは2025年10月、最大50億ドル(約8,000億円)規模での米国IPO検討を報じたが、6月時点で上場申請は確認されていない。同社CEOは「Voice AIはグローバルビジネスにとって言語の次のフロンティア」と述べ、音声への「倍賭け」を公言している。

音声AI全体では資金が引き続き流れ込んでいる。音声合成のElevenLabsは2026年2月、Sequoia Capital主導のシリーズDで5億ドル(約800億円)を調達し、評価額は110億ドル(約1兆7,600億円)に達した。a16zが持分を4倍に積み増し、ARR(年間経常収益)は2025年末時点で3.3億ドル(約530億円)超とされる。音声認識基盤のDeepgramは1月にAVP主導で1.3億ドル(約210億円)を調達して評価額13億ドル(約2,080億円)となり、TwilioとSAPが戦略出資。リアルタイム音声モデルのCartesiaは2025年10月にKleiner Perkins、Index、Lightspeed、NVIDIAから1億ドル(約160億円)を調達し、42言語・遅延190ミリ秒をうたう「Sonic-3」を投入した。コールセンター向けにアクセント変換を提供してきたSanasは、シリーズB 6,500万ドル(約104億円、累計1億ドル超=約160億円)を調達済みで、今年3月にはリアルタイム言語翻訳へ事業を拡張——Teleperformanceという世界最大級のコールセンター事業者を戦略株主に持つ点が強みだ。AI英会話のSpeakはAccel主導ラウンドで評価額10億ドル(約1,600億円)に達している。

人間の通訳者を抱える通訳プラットフォームはより複雑な立場にある。イベント向けAI翻訳のWordlyは利用者400万人超を公表し、多言語会議のKUDO(Felicis主導で2,100万ドル=約34億円を調達)は「2025年9月時点で全会議の65%がAI支援(前年は10%)」と自らAIシフトを進める。Boostlingoは2025年10月に人間とAIのハイブリッド通訳を投入し、同社調査では組織の16.8%がすでにAI通訳を利用、15.9%が評価中だという。ハードウェアでは、深センのTimekettleがCES 2026で43言語対応の通訳イヤホン「W4」(349ドル=約5万6,000円)を発表してイノベーションアワードを獲得し、ソースネクスト傘下のポケトークは4月に法人需要(教育・医療・公共安全)の急増を発表した。なお、6月11日時点でこれら通訳ベンダーからGoogleの発表への公式反応は出ていない。

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - スタートアップ勢力図——DeepL、ElevenLabs、通訳プラットフォームの資金調達状況 - 図表1

シリコンバレーVCの視点——「沈黙」が語るコモディティ化と、残る投資テーゼ

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - シリコンバレーVCの視点——「沈黙」が語るコモディティ化と、残る投資テーゼ - 章扉

注目すべきは、発表から数日経ってもa16z、Sequoia、Indexといった著名VCのパートナーから本件への公開コメントが確認されていないことだ(6月11日時点。StratecheryやThe Information、All-Inなど主要ポッドキャストでの言及も未確認)。2年前なら「Googleがまたスタートアップを殺した」とX上で論争が起きていたはずのニュースに対する、この静けさには3つの読み方ができる。

第一に、音声翻訳の「モデル層」はすでにコモディティ化が織り込み済みだということ。OpenAIが5月、DeepLが4月、Sanasが3月、Zoomが4月——2026年に入ってからだけでも各社が同種の機能を投入しており、フロンティアラボが同時通訳を標準機能にすること自体はもはやサプライズではない。VCの投資テーゼはとうにその先へ移っている。音声AIスタートアップへのVC投資は2022年の約3.15億ドル(約500億円)から2024年には約21億ドル(約3,360億円)へと7倍近くに拡大したが(AssemblyAI集計)、a16zが音声エージェント投資テーゼ(Olivia Moore、Anish Acharya両氏)で説くように、その資金は汎用翻訳ではなく「音声を楔(wedge)とした業種特化の業務アプリケーション」——コールセンター、医療記録、法務、現場作業——に向かっている。LightspeedがElevenLabsへの出資理由を「世界が技術と話す方法を作り直す声」と表現したのも、翻訳機能単体ではなく音声インフラとエコシステムへの賭けだ。

第二に、価値の置き場所が「ソフトウェア市場」から「サービス予算」へ移るという構造変化だ。音声翻訳ソフトウェアの市場規模は2025年で6.2億ドル(約990億円)程度(Mordor Intelligence推計)に過ぎない。しかし人間が担う通訳サービスの市場はNimdzi推計で2024年に117億ドル(約1.9兆円)あり、年率約8%で2029年に171億ドル(約2.7兆円)へ成長する、言語サービス産業全体(2025年で726億ドル=約11.6兆円、Nimdzi推計)の中で最も成長率の高いセグメントだ。実効5.9円/分というLive TranslateのAPI価格は、この通訳予算に対する強烈な価格破壊であり、Mueller氏の「確実にはるかに安価」という一言に尽きる。つまりGoogleが奪いに行くのは小さなソフトウェア市場ではなく、桁が2つ大きい人的サービスの予算であり、同じ予算を狙うKUDOやWordly、Boostlingoとの正面衝突が始まる。

第三に、それでも残る防衛線の確認だ。医療・法廷など資格と賠償責任が絡む規制領域の通訳、データ主権・オンプレ対応を求める欧州企業(DeepLの牙城)、人間とAIのハイブリッド運用(Boostlingo)、特定業務への深い組み込み(Sanas×Teleperformance)は、汎用APIの数秒の遅延や「声が時々入れ替わる」品質では代替しきれない。逆に言えば、汎用翻訳アプリの「薄いラッパー」型スタートアップの淘汰は加速する。先例としては2025年8月、Googleの語学学習機能発表でDuolingo株が3%下落した一件があるが、同社株が2026年に入って約45%下落しているのはガイダンス要因とされ、今回の発表への株価反応は確認されていない——それでも「Googleが隣接領域に来る」リスクプレミアムが語学・翻訳関連銘柄に常駐したことは確かだ。DeepLにとっては、最大50億ドルとされるIPO構想の評価額算定に、Googleの無料配布という変数が重くのしかかる。

Alphabet側から見れば、翻訳は直接の収益源というよりGeminiエコシステムへのロックイン装置である。同社のQ1 2026決算は売上高1,099億ドル(約17.6兆円、前年比+22%)、Google Cloud売上は63%増で初の200億ドル(約3.2兆円)超え、2026年の設備投資ガイダンスは1,800億〜1,900億ドル(約28.8兆〜30.4兆円)に達する。Geminiアプリの月間アクティブユーザーは7.5億人(2026年2月公表)。月10億人が使う翻訳を全面的にGemini化することは、この巨大な投資を正当化する「日常への浸透」戦略の一部であり、検索・Workspace・そして後述するスマートグラスへの布石と読むのが自然だ。

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - シリコンバレーVCの視点——「沈黙」が語るコモディティ化と、残る投資テーゼ - 図表1

今後の展望——2026年後半に計測すべきマイルストーン

Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - 今後の展望——2026年後半に計測すべきマイルストーン - 章扉

直近の注目は6月のGemini 3.5 Pro投入だ。GoogleはI/O 2026で「すでに社内利用中で、来月(6月)展開予定」と予告しており(6月11日時点で一般提供は未確認)、3.5世代のフラッグシップが出揃えば、音声系派生モデルの品質向上にも波及が期待される。同じ6月にはMicrosoftのTeams逐次通訳モードが一般提供予定で、企業会議の翻訳を巡る競争は今月さらに密度を増す。

年内では、Google Meetへの広範展開の条件が最大の焦点となる。対象Workspaceプラン、管理者設定、追加料金の有無は未発表で、Google Workspace Updatesブログでの告知が観測ポイントになる。DeepLが年末までに予告する声保持機能の実装、そしてBloombergが報じたDeepLのIPO最終判断も2026年内の重要イベントだ。8月には恒例のMade by Googleイベントが見込まれ(公式日程は未発表、メディアは8月中旬〜下旬と予想)、Pixel 11世代でのオンデバイス統合やPixel Budsとの連携が注目される。

そして本命は秋のAndroid XRオーディオグラスである。GoogleはI/O 2026で、Gentle MonsterとWarby Parkerがデザインし、Samsung・Qualcommと開発するAIグラスを「今秋」に投入すると公式発表しており、機能説明には「話者の声のトーンとピッチに合わせた音声でのリアルタイム翻訳」が明記されている。Gemini 3.5 Live Translateは、このグラスの中核体験になることがほぼ確実だ。MetaのRay-Ban、AppleのAirPodsと合わせ、「耳と目」を奪い合う2026年末のウェアラブル戦線で、翻訳はキラーアプリの最有力候補となる。

検証されるべき問いも残っている。独立機関による遅延・品質ベンチマーク(現時点でゼロ)、低リソース言語での実力、業界紙Slatorや通訳プラットフォーム各社の本格的な分析と対応表明、7月下旬に見込まれるAlphabetのQ2決算でのGemini利用統計、そしてEU AI法対応だ。「言語の壁の終わりの始まり」というDeepMind研究者の宣言が誇張かどうかはまだ分からない。確かなのは、翻訳が「開いて使うアプリ」から「会話に常駐する環境」へと変わる転換点を、2026年6月9日が刻んだことである。数秒の遅延と声の揺らぎという率直に開示された限界が埋まる速度こそが、人間の通訳者との共存期間の長さを決めることになる。


Google、同時通訳級Gemini 3.5 Live Translate発表。70以上の言語に対応 - 今後の展望——2026年後半に計測すべきマイルストーン - 図表1