Ximera Media Next Trends #71|Ikuo Morisugi| 2025.03.25
各国のユーザに届けられるネイティブレベルのコンテンツが劇的に増える可能性があります。これは日本にとってもまったくリーチがなかった市場への拡大が容易になることにつながり、かねてからの課題であった海外人材獲得/コミュニケーション促進や外貨獲得に向けた重要な柱となります。
はじめに
メディア業界をはじめ、あらゆる業界でコンテンツの多言語化やグローバル展開が近年ますます重要になっています。世界の翻訳サービス市場規模は約400億ドル(約6兆円)に達し、特にライブストリーミングメディアやビジネスコミュニケーション分野でリアルタイム翻訳の需要が高まっています。AIを活用した自動翻訳市場も拡大傾向にあり、2031年にはその規模が約58億ドル(約8600億円)に達すると予測されています。従来の機械翻訳ツールでは文脈や話者の感情を十分に捉えられず、翻訳精度も納得できるレベルを超えられず、不自然な直訳調の結果になることが少なくありません。特にライブ音声や対話の翻訳は難易度が高く、既存の主要翻訳アプリでは電話や音声メッセージに対応できない課題もありました。こうした言語の壁はまだまだ残っており、長年越えがたい障壁でした。
近年、大規模言語モデル(LLM)をはじめとするAI技術の飛躍的な進歩によって、これらの課題に対する解決策が生まれつつあります。高度なAI翻訳は文脈やニュアンスを考慮し、人間に近い自然な表現でリアルタイムに別言語へ変換することを可能にしています。つまり、従来は困難だった「リアルタイムで実用レベル精度の翻訳」が現実のものとなりつつあるのです。本記事では、この分野で注目されるスタートアップの事例をとりあげ、実用レベルのリアルタイム翻訳がビジネスに与える影響について解説していきます。
ライブ配信におけるリアルタイム音声翻訳: Lingopal
Lingopal(リンゴパル)はリアルタイム音声翻訳に特化したニューヨーク発のAIスタートアップです 。スポーツ実況をはじめとするライブ映像の音声をAIで他言語に同時翻訳し、視聴者が母国語で楽しめる世界を目指しています。その主力プロダクトは音声から音声へのリアルタイム翻訳プラットフォームで、対応言語は60以上にも及びます。独自開発のAIモデル群が話者の声の感情や映像の文脈まで解析することで、人間さながらの自然な翻訳を実現しています。
例えば、スポーツ実況中継において同じアナウンサーの声質やトーンをクローンして、数秒の遅延はあるもののほぼリアルタイムに多言語配信され、視聴者にとって違和感のない“同時通訳”以上の体験を提供できる点が大きな特徴です。メディア企業や放送局にとって、Lingopalのプラットフォームは多言語展開の強力なソリューションとなります。
商用事例も出てきており、米国のスポーツ専門チャンネルであるテニス・チャンネルでは、スペインの都市グアダラハラで行われた試合の英語実況をLingopalのシステムでスペイン語にリアルタイム翻訳し、スペインの視聴者に配信する実証実験が行われました。また、ドイツのアイスホッケーリーグ(ベルリン・アイスベアの試合)のドイツ語実況を英語に変換し、北米地域に放送する実績も作っています。また、北米のトップ4スポーツリーグの少なくとも1つとの放送契約ですでに7桁ドル(数百万ドル = 数億円)の収益を上げているとCEOのコメントもあり、既に収益をあげはじめています。
LingopalのビジネスモデルはB2B(企業向け)を中心としており、放送局やコンテンツ配信プラットフォームに多言語翻訳サービスを提供しています。導入に際して特別な機材は不要で、APIを介して既存のライブ放送にそのまま多言語音声を重ねることができます。
現在、LingopalのR&Dでは、ノーコードかつ、さらに少ない計算量で、遅延を2秒未満、120以上の言語対応を目指しています。新たなモデルでは、各言語ごとに別々の解説者を雇用して実況する場合と比べ、Lingopalを使った自動翻訳はコストを80%以上も削減できるとされ、翻訳精度も人間の実況を上回るとされています。このように経済的メリットが大きいため、国や言語の壁を越えたコンテンツ配信が以前より格段に実現しやすくなっています。
こうした技術力と成果が評価され、Lingopalは2025年2月にシリーズAラウンドで1,400万ドル(約20億円)の資金調達を実施しました 。リード投資家はトップティアVCの1つであるDCM Venturesで、他にScrum Ventures(ex-mixiの宮田 拓弥氏が立ち上げたシリコンバレー拠点のVC)なども参加しています。調達した資金はさらなる研究開発と国際展開に充てられ、アジアやヨーロッパへの進出拠点設立も計画されています。言語の壁をなくす未来に向け、Lingopalはメディアの在り方そのものを変えようとしています。
日常会話をリアルタイム多言語対応へ: EzDubs
EzDubs(イージーダブズ)は、日常会話やオンライン通信の同時通訳を実現することを目指すスタートアップです。2023年に米国で創業し、リアルタイム音声翻訳でグローバルなつながりを築くというビジョンを掲げています。従来、個人が異なる言語で電話やビデオ通話を行う際は人間の通訳者に頼るか、テキスト翻訳に切り替えるしかありませんでした。しかし、Google翻訳やAppleの翻訳アプリでは通話や音声メッセージに対応しておらず、この領域は手付かずの課題として残っていました。EzDubsはこのギャップを埋めるべく開発されたサービスで、AIによって人と人との会話をリアルタイムに翻訳し、言葉の壁を意識せずに対話できるコミュニケーション体験を提供します。
EzDubsが提供するのはスマートフォン向けのリアルタイム翻訳アプリです。ユーザーはこのアプリを使って異なる言語を話す相手と電話をかけ合い、即座に双方向の通訳を受けることができます 。話者の声はAIによってクローン生成されるため、翻訳後も本人の声色や抑揚が保たれ、あたかも自分が別の言語を話しているかのように聞こえます。対応言語は現時点で30以上あり、相手側はEzDubsをインストールしていなくても通常の電話のように通話に参加できます。さらに音声通話だけでなく、テキストチャットやボイスメッセージ、動画メッセージの翻訳にも対応しており、一つのプラットフォーム上で多様なコミュニケーションを多言語化できます。
このアプリによって、これまで言語の違いで諦めていたコミュニケーションが現実に可能になっています。実際にEzDubsのユーザーには、異なる母語を持つ恋人同士が毎日長時間の会話を楽しんでいるケースや、海外赴任先で現地の人々と円滑にやり取りするために活用している人もいます。1日に何百件もの国際電話がEzDubs経由でかけられており、平均通話時間は17分と実際の利用ユースケースが広がっています。さらに、言語の異なるグループチャットで各参加者が自分の母語で発言し合える機能は、多言語チームの共同作業を飛躍的に効率化する可能性を秘めています。
EzDubsの裏側では、大きく二つのAIモデルが活躍しています。一つは話者の声を解析して同じ声色・感情を持つ音声を他言語で合成するボイスクローンのモデル、もう一つは発話内容を翻訳するモデルです。翻訳モデルは話者が文を話し終えるのを待たずに逐次的に翻訳を進めるため、会話のテンポが中断されません。これにより、若干の遅延は生じるものの、人間の同時通訳に近いタイミングでリアルタイム対話が可能になっています。従来、このような逐次・同時的な翻訳は文脈把握や先読みが難しく、技術的なハードルが高いものでした。しかしLLMを含む高度なAIのおかげで、発話の途中からでも適切に意味を汲み取って訳文を生成できるようになり、この問題は克服されつつあります。音声合成の面でもディープラーニング技術により話者固有の声質や感情表現を再現できるようになりました。EzDubsはこれら最先端技術の統合によって、リアルタイムでありながら人間味のある双方向翻訳を実現しています。
EzDubsの事業モデルは現時点では一般消費者向けの無料アプリ提供が中心ですが、将来的にはプラットフォームとしてさらなる拡大も視野に入れています。例えば、アプリをインストールしていない人でもQRコードをスキャンするだけで通訳付き通話に参加できる仕組みや、ZoomやMicrosoft Teams、Slackなどビジネス向けツールとの連携による会議通訳機能の開発も計画されています。
こうした将来性が評価され、EzDubsは2024年にシードラウンドで420万ドル(約6億円)の資金調達を実施しました 。リード投資家のVenture Highwayは元WhatsApp幹部によって設立されたVCであり、他にもY CombinatorのパートナーやReplitの創業者など著名な投資家が名を連ねています。将来的にはEzDubsを介した通話が当たり前となり、世界中の誰とでも言語を意識せず対話できる環境を目指しています。
おわりに
LingopalとEzDubsの両社に共通するテーマは、AIの力で言語の壁を取り払い、人々がリアルタイムに繋がれる世界を創り出そうとしている点です。前者は主にライブ放送の分野で、後者はパーソナルなコミュニケーションの領域でアプローチこそ異なりますが、根底にあるビジョンは「言語の違いを意識させない没入型の体験を提供すること」にあります。いずれのプロダクトもLLMを含む先端AI技術を駆使し、従来は困難だった文脈理解や自然な音声表現を実現しました。その結果、多言語対応にかかる時間とコストを劇的に削減しつつ、ユーザー体験の質を飛躍的に高めています。
本記事で取り上げられたような技術で重要なのは、単にコンテンツやサービスを多言語化するハードルが大きく下がっただけではなく、文脈や感情表現までローカライズされることで、各国のネイティブレベルのユーザに届けられるコンテンツが劇的に増える可能性があることです。これは日本にとっても全くリーチがなかった市場への拡大が容易になり、かねてからの課題であった海外人材獲得/コミュニケーション促進や外貨獲得に向けた重要な柱となります。例えば、これまで国内向けに限定していた配信を各国語で同時提供すれば、世界中から視聴者を獲得できるかもしれません。社内コミュニケーションにおいても、多国籍チーム間で母国語のまま意思疎通が図れるようになれば、生産性の向上につながる可能性があります。また、コンテンツのローカライズに必要だった大量の時間と費用が削減できれば、そのリソースをより創造的な業務に振り向けることも可能です。
一方で、インターネット環境さえ整っていれば各国同じ技術にアクセスができる状況であるため、今まではローカライズに時間がかかりなかなか進出してこなかった海外企業がDay 1から日本市場へ向けてコンテンツを出してくることも可能になっています。新しい分野やデジタルコンテンツであればあるほど、従来国内企業同士だけで争っていた状況から、すぐに全世界の企業との競争環境へ移っていきます。すでに、Tech GiantやスタートアップからAIサービスが毎日のように生まれ、日本でも新しいサービスがすぐ使えることを考えると、実はその変化は既に起こっています。良いサービス/コンテンツを出すことができれば、たとえば無名で実績がなくとも、一気にグローバルでユーザ拡大を得られるチャンスが生まれています。
LingopalのCEOは、「2030年までには全ての言語の消費率が英語と同等レベルに達し、コミュニケーションの障壁は存在しなくなる」と予測しています。将来のグローバルメディアは英語中心ではなく、多言語が当たり前で瞬時にAIが支える世界になるという見通しです 。この潮流を捉え、いち早く新技術を取り入れ、グローバルで戦える環境を整えることがより重要になります。
Ximera Media Next Trendsの更新情報は、キメラのニュースレターもしくはX(Twitter)でお知らせしています。