AIを活用したHoloLensアプリをMicrosoftストアに公開しました!

header-picture

こんにちは、ビジュアルデザインの後藤です。少し前ですが、AIを活用したHoloLensアプリを作成して、Microsoftストアで公開しましたので、今回はそちらのアプリをご紹介したいと思います。

そのアプリは、『Contextual Video(文脈的な動画)』という名前で、「AIがユーザーの視界を分析し、その場の状況に応じたお助け動画を自動的に再生してくれる」という内容のアプリになります。操作はAirTapジェスチャーに加えて、音声コマンドに対応しており、「Help」と声に出すだけで、視界の分析と動画の再生が始まるようになっています。実際の動作画面を見たほうが分かりやすいと思いますので、そちらをご紹介しながらアプリの内容をご説明します。

20180720_204819_HoloLens自分の机を前にしたところ、『How to Organize a Messy Desk On a Budget(予算内で散らかった机を整頓する方法)』というタイトルの動画が再生され始めました。机が散らかっているので片付けろと、AIは暗に言いたいのでしょう。

ユーザーの視界分析には、Microsoft Cognitive Servicesを利用しています。そして動画はYouTubeから探した動画を、ストリーミングで再生しています。キャプチャーを見ると気持ち悪いキャラクターが分析、再生しているのが分かると思います。アプリの内容的にはキャラクターは必須ではないのですが、ビジュアル的にキャッチにするために入れています。また、キャラクターのアニメーション動作を入れることで、分析が始まってから動画の再生が開始されるまでの待ち時間(もっとも数秒ほどですが)を、ユーザーになるべく意識させないようにするという狙いもあります。さらに、再生された動画がユーザーの期待したものでなくても、キャラクターが考えた結果だというように演出すれば、許してもらいやすいのではないかとも考えていて、このアプリ自体、AIの持つあいまいさや意外性も楽しんでもらおうというコンセプトを元にデザインしています。ちなみに、このキャラクターの脳は前後が反対になっているのですが、これは意図的ではなく、私の知識不足のためにこのようになっています。

20180720_205720_HoloLens大量の本の前では『How to make levitating (invisible) bookshelf (on the wall) – easy DIY project(壁掛け本棚を作る方法)』という動画が再生されました。壁際に置くなら、壁に浮かせてみてはどうかという、AIからの提案なのでしょう。

このアプリは現状、英語にのみ対応しています。理由としては、分析に使用している画像認識サービスが日本語に対応していないため、別のクラウド上の翻訳サービスを介さなければならず、日本語対応には非常に骨が折れるためです。また、翻訳を通すことで遅延が発生したり、精度が落ちたりといったことも考えられます。また、YouTubeの動画コンテンツは英語のものが一番多いため、適した動画が見つかりやすいという事情もあります。単純にユーザー数が多いということもあります。

「Help(助けて)」と声に出すだけで、ユーザーの目の前の状況が分析され、視界に動画が再生されるので、ユーザーにデバイスを操作しているという感覚を与えないようになっています。スマホ用アプリではカメラを向ける必要があるため、操作をしなくてよいというのはメガネ型のデバイスならではだと思います。手が空いているので、工作をするような内容であれば、動画の指示通りにそのまま体を動かすことができます。

20180720_205553_HoloLensハンガーラックを前にしたところ、『How to install wire shelves into a new closet(新しいクローゼットにワイヤーシェルフを設置する方法)』という動画が再生されました。なかなか気が利いていますね。

このほかにも、食材を前にして「Cook」と声に出すと、ユーザーの目の前の食材を使った料理動画を再生する機能もあります。ただ、こちらは試験的な機能なので、まだあまり精度が良くないです。

 20180720_205901_HoloLens『How To Install an In Ceiling or In Wall Speaker – Materials Needed & Detailed Instructions (天井または壁埋め込み型スピーカーの設置方法)』という動画です。大きなスピーカーを置くくらいなら壁に埋め込んでしまえばいいんじゃないかということでしょうか。

今回作成したものは一般向けのものですが、例えば企業向けであれば、事前に学習させたデータを用意しておくことで、自社の製品を目の前にするだけで、製品の型番や劣化具合を認識し、それらに応じて、最適なマニュアルや動画を再生するといったアプリを作ることも考えられます(そのためのデータを集めるのが大変ではあるのですが)。操作しながらでも手を自由に使うことができ、五感が集中している顔に装着するグラス型のデバイスは、仕事と相性が良いでしょう

最近は、時間軸を追加することで、さらに深い分析やサジェストを行うことができるようになるのではないかと考えています。ある物を目の前にしたとき、それを見る前に何を見ていたかによって、その目の前にある物の持つ意味は、(たとえそれが同一のものであっても)変わってくるかもしれません。人の視界に入る物と、その順番の記録を機械学習にかけることによって、(人間では思いつきもしないような)関連性やパターンを見つけ出し、ユーザーの視界に入ってくる情報を元に、未来に先回りしたサジェストを行うことができるようになるかもしれません(もちろんプライバシーの問題はクリアする必要がありますが)。

こちらのアプリは以前、Azure Antennaでのハンズオンに参加した後、その時に学んだことを活かしたアプリを作ろうと思って、制作したものになります。これまでアメリカ、ヨーロッパを中心に、世界30か国で170回以上ダウンロードいただいております。

アプリのストアページはこちらになります。

https://www.microsoft.com/en-us/p/contextual-video/9nsbn2mc527p?cid=msft_web_collection

HoloLensを使う機会のある方は、是非試してみてください!

Topics: VR・AR・CG, SVVR


Recent Posts

事例紹介:製薬業界におけるCX変革のためのトレーニング

read more

2024年4月から合理的配慮の提供が義務化!WEBサイトユーザビリティとの関係は?

read more

人的資本経営を推進する企業の「採用戦略」として重要なこと

read more