こんにちは、ビジュアルデザインの後藤です。
先日のSXSW2018にて、Daniel Padgett 氏によって行われたセッション「Crafting Conversation: Design in the Age of AI」の内容が非常に興味深かったので、今回はそちらのセッションの内容をレポートしたいと思います。
Padgett 氏は Google で Google Assistant のプロジェクトを担当している人物で、今回のセッションでは、彼が音声アシスタントのプロジェクトに関わる中で得た知見や、気づきが共有されました。
なぜ音声アシスタントなのか?
音声アシスタントはすでに様々なプラットフォームで存在感を高めており、そのことは既に統計にも表れています。
Padgett氏は音声アシスタントが広まりつつある理由として、下記の2つがあると考えています。
- スピードとシンプルさ:調べ物をする際、スマートフォンだと、取り出して、何回もタップするという動作が必要になるが、音声アシスタントであれば、調べたいことをただ声に出すだけでよい。
- 遍在性:どこでも使うことができる。デバイスも簡素で済む。スピーカーとマイクそして、インターネット接続さえあれば、すぐにスマートスピーカーができる。
日本では、音声アシスタントはあまり使われている印象がなく、抵抗のある人も少なくないと思います。しかし、当初は懐疑的な声も多かったスマートフォンが、今や多くの人にとって欠かせないものになったように、日本でも将来的に音声入力が多くの人の生活に欠かせないものになっているという可能性は、十分にあるでしょう。
音声アシスタントのデザインにおける重要な指針
Padgett氏は音声アシスタントのデザインに関わる人に対して、下記の指針を守ることが重要だとアドバイスしています。
- 協調的である: 回答を返す時に、いきなり詳細を話すのではなく、まず概要を話したうえで、詳細を聞きたいかをユーザーに確認するなどすれば、よりユーザーにとって親切でコミュニケーションしやすい存在になる(下のスライド参照)。
- ターンを意識する: 人間の会話を観察すると、会話の相手が、返事やリアクションをできるように間(ま)を設けていることがわかる。
- どんなユーザーが使うのかを意識する: 音声アシスタントを利用する人は家事をしていたり、車を運転していたりと手がふさがっていることが多い。どんな人の利用を想定するかによって、質問に対する答えも変わってくる。
- どんなブランドをアピールしたいかを意識する: ユーザーにどんな体験をしてもらいたいか、どんな印象を抱いてほしいかによって、質問に対する答えも変わってくる。
いきなり詳細を話さないことや、相手が反応するための間を設けることは、改めて考えてみると人間同士の会話でも、普段意識することはほとんどありませんが、確かに自然と行っていることだと言えるでしょう。音声アシスタントが身近な存在になっていくほど、より人間同士のコミュニケーションに近い、気遣いや間といったものが求められてくるようになるのかもしれません。
音声アシスタントの課題
現在、音声認識の精度向上は目覚ましく、エラー率はかなり低くなっているそうです(クリーンイングリッシュで4.9%とのこと)。一方で、言葉を認識できることと、それが何を意味するかを理解できることの間には、大きな隔たりがあります。
人間は言語を、言葉と意味の二重のレベルで使い分けています。音声入力が真に実用的なものとなるためには、AIが文脈や常識を理解できなければならないという課題があるそうです。
他の入力デバイスとの連携、エコシステム
例えばデバイスがスマートフォンなのか、スマートスピーカーなのかによって、使うユーザーがどんな状況で使うか、五感のどの感覚に対して結果を返すかは変わってきます。それぞれにメリットデメリットがあるので、それぞれのデバイスの特徴を活かし、時には補完していくようエコシステムを築くことが重要だとPadgett氏は主張しています。
まとめ
音声アシスタントの第一線で仕事をしているPadgett氏の話はとても興味深く、思わずうなずいてしまう部分も多いものでした。今後、音声アシスタントの実用性が高まり、入出力デバイスの一つとして一定の地位を占めるようになれば、ウェブやVRなど、あらゆるプラットフォームやデバイスで、音声入力を意識したデザインは必須になってくることでしょう。