【Interview】音声操作に対応開始。積極的なデバイス対応・サポートの根源に「お客さまを見捨てない」という確固たる指針

2019年9月4日の「Google アシスタント」に続き、U-NEXTは11月5日にAmazon Alexaを通じた「Fire TV」の音声操作に対応、「声で観るU-NEXT」がスタートしました。ハンズフリーで家電を操作する世界、さらには機械と人間がナチュラルに会話するSF的な世界が、すぐそこまで来ています。容易にその利便性は想像できますが、実際のところ、「音声操作×動画サービス」はどのようになっていくのでしょうか。

CTO（最高技術責任者）・Li Rutongとマーケティング部・前田弘之に、音声検索の未来と、U-NEXTの積極的なデバイス対応について聞きました。

動画サービスの音声操作とは？国内初、Google Nest Hubのレコメンドにも対応

− 9月に「Google アシスタント」、11月に「Fire TV」の音声操作に対応しました。具体的になにができるようになったのでしょう。

前田：簡単に言うと、声で作品検索と再生コントロールができるようになりました。

Rutong：GoogleはGoogle検索が中心になったユーザーエクスペリエンス、Fire TVはアプリ内検索とFire TVホームでの検索です。いずれもコンテンツの検索と再生制御なので、ユーザー体験としては同一です。

− 対応にあたって、技術的なハードルはあったのでしょうか。

Rutong：1つは、メタデータの結合です。Google、Amazonが持っているマスタリストに我々が配信しているメタデータを紐づけていくのですが、一部マスタリストにない作品も存在します。我々が独占しているタイトル、またはアメリカであまり馴染まない日本のバラエティなどは、すべて構造化してメタデータとして結合させる必要がありました。各社、この手の作業が初めてに近いので、お互いにバグを見つけながら試行錯誤しました。

− 完全な共同作業ですね。

Rutong：もう1つのハードルは結合テストです。それぞれのシステムには仕様があるものの、アプリ、サービス、スピーカーといった、個別に動いているコンポーネントをすべて結合するのは大変でした。それらは完成されたエコシステムではないので、仕様に対する理解のずれは必ず生じます。各社と密に連携して実装にこぎつけました。

− 今回、U-NEXTとしてユニークな内容はあったのでしょうか？

Rutong：Google Nest Hubで配信サービスとしては国内初、再生終了後に「続きを再生」というレコメンデーションを表示しています。

前田：従来から各デバイスプラットフォームと連携して、コンテンツのレコメンドに力を入れてきました。デバイスの選択肢の幅も重要ですが、コンテンツとの出会いも大切です。お客さまの視聴傾向に沿った作品を提案するなど、これまでも他社に先駆けて実現してきました。

Rutong：ユーザーにコンテンツを勧めるチャンスがあれば積極的に提供したいです。

− 11月19日現在、Google アシスタントはHulu、Netflix、ビデオパス、そしてU-NEXTの4サービス、Fire TVも複数のサービスに対応しています。各社が相次いで音声対応する理由はなんでしょう。

前田：音声操作の普及にともなって対応機器の活用が広がっていけば、おのずとユーザー接点は大きくなっていきます。その接点を得るか逸するかと考えた時、早めに網張りをしない手はありません。また、テレビリモコンを使って作品名を入力・検索するよりも、声で操作する方が格段に早く作品にたどり着くことができます。ユーザーの利便性の向上が満足度の向上につながり、ひいてはロイヤルカスタマーを生み出していくという点で、各社も長期的に見て新たなチャンスと捉えているのではないでしょうか。　

<small>前田弘之　／　マーケティング部部長。2004年にUSEN入社。U-NEXTの前身である「GyaO NEXT」から関わり、2012年より現職に。新規デバイス対応はもちろん、デジタルマーケティング戦略の立案からデータ分析、コンテンツマーケティングやアライアンス戦略など、U-NEXTの成長を支えるマーケティング全般を担当。</small>

機械のコミュニケーションが人間を超える日も近い？音声操作は今が出発点

− 最近はTVCM等で「音で家電を操作するライフスタイル」が浸透しつつあります。Googleによると、すでにアメリカではモバイル検索の5件に1件は音声検索によって行われているようですが、日本でも普及が進むのでしょうか。

前田：今でもモバイルにおける音声検索環境は整っていて、対応デバイスは1億台を上回ると言われています。にもかかわらず、日本人の普及率は圧倒的に低い。人前で命令するのが苦手なのか、国民性とも言われています。

Rutong：今はどちらかというと、人が機械に合わせないと使えないものが多いですが、10年、20年後は、機械が人に合わせるようになり、GUI （Graphical User Interface／グラフィカル・ユーザー・インタフェース）を見なくても全部操作できるようになると思います。

− GUIが不要になるということですね？

Rutong：今はUIを見ないとわからないことも多く、人間が「機械の限界」を知る必要があります。つまり、機械がわかる言葉で話さないとなけないのですが、おそらく10年後は、機械が普通の人間よりもわかってくれる。今のユーザーエクスペリエンスとはまったくちがうSF映画のような世界になっているでしょうね。今回の音声操作は、そのSF的な世界の出発点になると思います。

− 先ほど、日本人は音声検索に億劫な国民性、という話がありましたが、私も「機械と話すこと」に抵抗があってまだ使っていません。一度使えば心理的なハードルは下がるのでしょうか。

前田：僕は自宅内で使ってますよ。天気予報と目覚まし用です（笑）。

Rutong：できることが違うので、僕は自宅でGoogleとAlexaの両方を使っていて、それとは別に以前から自作のものも置いています。

− そんなに、なにをコントロールしてるんですか？

Rutong：エアコン、電気、カーテンの開け閉め、ドアロック、ほぼすべてです（笑）。子どもはYouTubeを見るのがくせになっているのですが、嫁がリモコンを隠しても子どもが音声でテレビをつけてしまうので困っています（笑）。

− お子さんでも使えるんですから、やはり便利なんですね。

Rutong：今は人が命令してやらせて終わる、ですが、キャッチボールできるようになると世界は変わるでしょうね。実際アメリカでは、人間がロボットとわからずナチュラルに電話するというデモが行われています。機械が人間らしい反応をしてくれるようになると心理的なハードルも下がるでしょうし、機械と人間との音声によるコミュニケーションは飛躍的に普及すると思います。

<small>Li Rutong（リー・ルートン）／　CTO 兼 R&D部部長。中国上海の同済大学卒業後、2005年にソニー入社し、HDMI機器の制御など映像関連の開発分野を担当。2010年、パケットビデオ・ジャパンに入社し、黎明期のデジタルコンテンツ配信事業に携わった後、2015年にU-NEXTへ。スクラムマスター、デベロッパーとしてU-NEXTの開発を支えている。2016年にCTOに就任。</small>

デバイス対応、OSサポートの徹底は「お客さまを見捨てない」精神から

− 今回のGoogle アシスタント、Fire TVシリーズをはじめ、U-NEXTは視聴可能デバイスが非常に多く、もっとも対応デバイスが多い動画サービスと言われることもあります。デバイス対応に積極的な理由はなんでしょうか。

Rutong：方針として、大事なお客さんを見捨てたくないということです。新しいガジェットを好きなお客さんもいれば、テレビを10年も20年も使っている方もいらっしゃいます。後者の方たちに、U-NEXTを使うためにテレビを買い替えさせることはしたくないので、生産終了後もできるかぎりサポートし続けています。Android、iOSのデバイスも同様で、5、6年前の機種でもサポートしています。一方で、まだ誰もビデオサービスを出していないような新しいプラットフォームにも積極的です。

前田：ガジェット好きの方が好まれるpopIn AladdinやAnkerのプロジェクター、スマートグラス（GPSなどのさまざまなセンサーやカメラ、マイクなどを搭載したメガネ型ウエアラブル端末）など、さまざまな視聴環境にも積極的に対応しています。また、中国や韓国のテレビメーカーが日本に新規参入する時も、いち早く対応します。

− U-NEXTの視聴デバイスの約6割がモバイルという状況下で、テレビデバイスへの対応が目立っています。大画面での視聴を推奨しているのでしょうか。

前田：一般的に、大画面化にともなって接触時間は伸びていきます。当然、大画面で観ることで没入感、臨場感は増していくでしょうね。

Rutong：ただサービスとして「テレビで観てほしい」とは考えておらず、それぞれのプラットフォームで最高の体験を提供しています。観る環境、観るコンテンツは人それぞれですからね。

− コンテンツの多様性の多さがU-NEXTの特徴のひとつですが、お客さまの異なる視聴デバイス、視聴環境にお応えしたいということですね。こうあるべき、ではなく、さまざまなユーザーニーズに対応したいという意気込みを感じました。ありがとうございました。