ヒューマンマシンインタラクションの現在と未来

テクノロジーおよびコンピュータシステムは、日常生活や産業において、見えるところでも見えないところでも、重要な役割を担っています。それは、センサーやインターフェイスを使って動作しています。しかし、ユーザーとコンピュータは、どのようにして相互に通信や応答をしているのでしょうか。機器を制御するには、タッチ、音声、ジェスチャー、または仮想現実(VR)メガネが使われています。

人間とマシンの間のインタラクションは、以前からよくご存じのとおりです。スマートフォンのユーザーが、デジタルアシスタントに天気はどうなるか尋ねると、答えが返ってきます。家庭では、人間の声によってスマートサーモスタットを制御したり、アマゾンのインテリジェントスピーカーEchoに「想い出のサマー」を演奏するように指示したりしています。スマートフォンのタッチスクリーン上での動作によって、ケニアからの写真を見たり、一つ一つの写真を拡大したりできます。チャットボットが、メッセンジャーを使って顧客と自動的に対話しています。製造業の技術者は、VRメガネを使って、建設予定の工場建屋の中を歩き回ることができます。これらすべてを実現するためには、ヒューマンマシンインタラクション(HMI)が必要です。

概要

ヒューマンマシンインタラクションとはどのようなものでしょうか?

HMIとは、人間と自動化システムが相互に作用し、通信するための方法全般のことです。それは、従来の産業用機械だけに限られるものではなくなり、今では、コンピュータ、デジタルシステム、IoTのための機器などにも関連しています。ますます多くの機器が相互に接続されて、自動的に作業を実行するようになっています。このような機械、システム、機器は、すべて直観的に操作される必要があり、ユーザーに過度の要求をしてはなりません。

ヒューマンマシンインタラクションはどのように動作するのでしょうか?

人間とマシンの間の円滑なコミュニケーションには、インターフェイスが必要です。すなわち、ユーザーがマシンとかかわる場所または動作です。簡単な例としては、電灯のスイッチ、自動車のペダルやハンドルなどがあります。スイッチを動かす、ハンドルを回す、またはペダルを踏むことによって、動作が引き起こされます。しかし、キー入力したテキスト、マウス、タッチスクリーン、音声、ジェスチャーなどでも、システムを制御することができます。

機器を直接制御することもできます。ユーザーはスマートフォンの画面にタッチしたり、音声コマンドを発したりします。あるいは、システムが自動的に人間の要求を識別する場合もあります。たとえば、車両が路面の誘導ループの上を走行したときに、信号の色が変わります。その他のテクノロジーには、機器を制御するというよりも、人間の感覚器官を補完するものがあります。仮想現実メガネは、その一例です。また、デジタルアシスタントもそうです。たとえば、チャットボットは、顧客からの要求に自動的に応答して、学習し続けます。

文化が違えば、マナーも違ってきます。日本では、フォーマルな情報提供が期待されるのに対して、米国のユーザーにとっては、親しみやすさがとくに重要です。ドイツでは、チャットボットが無愛想に答えることがあるかもしれません。

チャットボットとデジタルアシスタント

ヒューマンマシンインタラクションにおける人工知能とチャットボット

最初のチャットボット、イライザは、1960年代に開発されましたが、すぐに限界に達してしまいました。追加の質問に答えることができなかったのです。今ではそんなことはありません。現在のチャットボットは、カスタマーサービスで「働いて」おり、たとえば、出発時刻やサービスに関する情報を文字で、または音声で提供しています。それを実現するためには、キーワードに反応して、ユーザーの入力内容を確認し、あらかじめプログラムされた規則や手順に基づいて応答します。現代のチャットボットは、人工知能で動作します。アマゾンのAlexaやGoogle Home、Googleアシスタントなどもチャットボットです。

個人の予定管理、イベントチケットの予約、オンラインショッピング。ユーザーは、さまざまなサービスでチャットボットに利点があると見ています。

チャットボットは、リクエストから学習するので、人間が直接介入しなくても、自分で能力の範囲を拡大します。過去の会話を記憶していて、関連性を発見して語彙を増やします。たとえば、グーグルの音声アシスタントは、人工知能の助けを借りて、文脈から質問内容を推定することができます。チャットボットがより多くのことを理解できて、より上手に応答できるようになると、二人の人間の会話のようなコミュニケーションに近づきます。ビッグデータも重要な役割を果たします。より多くのデータをチャットボットが利用できれば、より具体的に対応して、より適切な応答をすることができます。

チャットボットとデジタルアシスタントは、さらに発展して重要性が高まるでしょう。市場調査会社IHSは、アマゾンのスマートスピーカーEchoなどのデジタルアシスタントだけについて言えば、今後数年間の成長率は46%だと予測しています。

高度なボイスコントロールへの道程

ユーザーは、Alexa、Googleアシスタント、Google Home、マイクロソフトのCortanaなどのシステムを音声で制御します。ディスプレイにタッチする必要はありません。デジタルアシスタントを起動するための決まった言葉(たとえば「Alexa」)を言って、その次に、たとえば、「ボリュームを小さくして」とか「寝室の温度を下げて」と言うだけでよいのです。これで、ユーザーの負担は少なくなり、また、より直観的になります。2014年にマイクロソフトのCEOサティア・ナデラは、「人間の声は、新しいインターフェイスになる」と予言しました。

しかし、音声認識は、まだ完全ではありません。デジタルアシスタントは、周囲の雑音による外乱のために、すべての要求を理解できません。さらに、人間の声と、たとえばテレビの音声とを区別できないこともよくあります。米国の民生技術協会によれば、2013年の音声認識の誤り率は23%でした。2016年に、マイクロソフトの研究者が、初めて6%を下回る成果を得ましたが、まだ十分ではありません。

インフィニオンは、英国の半導体メーカーXMOSとともに、ボイスコントロールを大幅に改善していきます。XMOSは、IoT機器向けの音声処理モジュールを供給する会社です。2017年の初めにインフィニオンとXMOSが提供する新しいソリューションには、スマートマイクを使っています。これにより、デジタルアシスタントは、他に雑音がある状況でも人間の声だけを取り出せるようになります。インフィニオンのXENSIV™レーダーとシリコンマイクセンサーを組み合わせて、マイクから見た話者の位置と距離を認識します。ここでは、XMOSの遠方音声処理テクノロジーを使って音声を取得します。

インフィニオンのパワーマネジメント&マルチマーケット事業部プレジデントのアンドレアス・ウルシッツは、次のように述べています。「周囲の雑音をさらに抑制して音声認識を強化し、その結果として正解率を向上できます。」こうしてボイスコントロールは、「新たなレベルに到達」するのです。ウルシッツは、たとえば、スマートテレビを音声で制御することが、将来は重要になると考えています。2022年までに、ボイスコントロールを内蔵したテレビの市場は、6千万台になると見られています。すなわち、現在の5倍増です。

音声アシスタントの利用拡大によって、ユーザーは、日常生活全般を快適にするだけでなく、コールセンターにかけた電話の待ち時間短縮を望んでいます。

アンドレアス・ウルシッツは、スマート家電にも大きな変化が訪れていると見ています。たとえば、今は、ロボット掃除機をタッチスクリーンで操作します。しかし、掃除機を停止させるためには、ユーザーが掃除機のところまで行かなければならないので不便です。「将来、このような機器は、ボイスコントロールを使って動作するようになると思います。」この音声コマンドによる操作も中間段階にすぎないというのが、ウルシッツの意見です。長期的には、ジェスチャーで機器を制御するようになるでしょう。その場合には、手の合図だけでロボットを停止させることができます。ウルシッツは次のように述べています。「しかし、それは次の段階です。その前に、インフィニオンは、XMOSと協力してボイスコントロールをより効率的にします。」

ジェスチャーコントロールへの道程

ジェスチャーコントロールには、タッチスクリーンよりも多くのメリットがあります。たとえば、ユーザーは機器に触れる必要がありません。したがって、離れたところから指令を出すことができます。ジェスチャーコントロールは、とくに公共の場所において、ボイスコントロールにとってかわるでしょう。地下鉄の中でスマートフォンに話しかけるのは、不快に感じる人もいるでしょうし、よけいな注目を集めるかもしれません。また、ジェスチャーコントロールは、2次元ユーザーインターフェイスから、3次元への道を開きます。

グーグルとインフィニオンは、新しいタイプのジェスチャーコントロールを開発しました。その名は「Soli」です。これは、レーダーテクノロジーを使っています。インフィニオンのレーダーチップが、ユーザーの指で反射された電波を受信します。すなわち、誰かが手を動かすと、その動きがチップに記録されます。次に、グーグルのアルゴリズムがその信号を処理します。これは、暗闇の中や離れた場所でも、また、汚れた指でも動作可能です。同一の手の動きが、すべてのSoli機器に適用されます。Soliチップは、スピーカーやスマートウォッチなど、さまざまな機器に使用可能です。アンドレアス・ウルシッツは、次のように述べています。「動作パターンやタッチパターンを解析するための発達したアルゴリズムと、高度に集積化された小型のレーダーチップによって、広い範囲にわたるアプリケーションを実現できます。」将来は、このテクノロジーによって、ボタンやスイッチを使う必要がなくなるかもしれません。

拡張現実、仮想現実、複合現実

現代のヒューマンマシンインタラクションは、すでに何年も前から、レバーを動かすとか、ボタンを押すというだけではなくなっています。現実を拡張するテクノロジーが、人間とマシンの間のインターフェイスになっています。

仮想現実(VR)メガネは、その一例です。ユーザーは人工的に作り出された3Dの世界に没入して、まるでその動作のまっただ中にいるかのように、コンピュータゲームや360度動画を体験することができます。たとえば、幼稚園児に対する実験によれば、その体験はVRシミュレーションではなく、実際のものとして記憶されていることがわかりました。これは、専門家向けアプリケーションでも役に立ちます。たとえば、仮想現実を使えば、計画中の機械、システム、工場などの設計データを触って体験できるようになります。VRメガネには、ホルダーにスマートフォンを挿入して、ディスプレイとして使用できるものもあります。携帯電話やVRメガネのセンサーが、装着者の頭の動きを検出して、仮想世界で周囲を見回すことができるようになっています。

拡張現実(AR)メガネでは、実際の環境がユーザーの視野に見えていますが、それに加えて、仮想の要素も視野に投影されます。スマートフォンゲームのPokémon GOは、この二つの要素の結合が有効であることを証明しました。ユーザーがディスプレイを持ち歩くと、その場所に応じて異なるポケモンが登場します。

Microsoft HoloLensなどの複合現実(MR)メガネは、さらに一歩先に進んで、仮想現実と拡張現実を結合したものです。HoloLensは、3Dの物体を実際の空間内に精密に位置決めして表示できる独立したコンピュータです。このメガネは、ジェスチャーと音声コマンドで制御します。複合現実メガネは、その高分解能を活かして、まるで本物のようにシナリオを提示できます。

仮想現実、拡張現実、複合現実は、娯楽やゲームだけでなく、インダストリー4.0でも使われています。たとえば、Microsoft HoloLensのアプリによって、技能者の仮想研修が実現しています。 フラウンホーファー研究機構のファクトリーオペレーション・オートメーション研究所(IFF)は、複合現実実験室Elbedomeを企業に貸し出しています。これは、6台のレーザープロジェクターを使って、機械、工場、あるいは都市全体を360度画面に表示して、開発者や顧客は、計画中の工場内に立っているような感覚を得られるというものです。

3次元の高品質な環境描画は、インフィニオンの3DイメージセンサーチップREAL3™ が実行しています。このチップは、ASUSやLenovoのスマートフォンの一部など、モバイル機器に装備されています。ここでは、ToF(Time-of-Flight)方式を使っています。赤外光の信号がカメラから対象物まで往復する時間を、イメージセンサーチップによって計測します。これにより、機器が拡張現実と直接関与できるようになります。イメージセンサーチップが、モーショントラッキングによって位置の変化を検出します。また、物体までの距離は、深度認識によって計測します。空間学習によって、機器は、すでに記録した位置を確実に認識できます。

機会と課題

最新のヒューマンマシンインタラクションのおかげで、複雑なシステムでも使いやすくなっていくでしょう。その使いやすさは、機械がますます人間の習慣やニーズに適応することで実現しそうです。仮想現実、拡張現実、複合現実によって、離れた場所から機械を制御できるようになるでしょう。その結果として、人間は、経験の範囲と活動の場所を拡大することができます。

マシンについても、将来にわたって合図を解釈する性能が向上していくでしょうし、それは、必要なことでもあります。完全自動運転車は、交差点にいる警察官の手信号に対して正しく反応しなければなりません。 また、介護ロボットは、自分で表現できない人の要求を「推察」しなければなりません。

マシンの行う仕事が複雑になるのに伴って、マシンとユーザーの間の有効なコミュニケーションがますます重要になってきます。テクノロジーはコマンドの意味するところを理解しているでしょうか。もしそうでなければ、誤解によるリスクがありますし、システムが期待どおりに動作しません。その結果として、たとえば、機械が寸法の合わない部品を生産したり、コネクテッドカーが道路から外れて迷走したりします。

インターフェイスやセンサーの開発にあたっては、人間の能力と限界を常に考慮する必要があります。マシンの操作は、複雑すぎたり、過度の熟練を要するものであってはなりません。人間とマシンが円滑にコミュニケーションするためには、コマンドと動作の間の応答時間をできるだけ短くする必要があります。そうでなければ、ユーザーには、そのインタラクションが不自然に感じられるからです。

マシンが、その制御や自動応答においてセンサーに強く依存していることにより、潜在的なリスクが生じます。ハッカーがデータにアクセスできる事態になれば、ハッカーは、ユーザーの行動や関心を詳細に知ることができます。一部の評論家は、学習するマシンが自律的に行動して、人間を支配下に置くのではないかと心配しています。そのほかにも、今のところ解明されていない問題として、ヒューマンマシンインタラクションのミスで発生した事故は、誰に法的責任があるのか、誰が原因だと言えるのか、ということがあります。

外見

ヒューマンマシンインタラクションは今後どうなっていくのでしょうか?

ボイスコントロール、ジェスチャーコントロール、仮想現実、拡張現実、複合現実ができたと言っても、ヒューマンマシンインタラクションは、最終段階とはほど遠いところにあります。将来は、さまざまなセンサーから得られるますます多くのデータを結合して、複雑なプロセスを把握して制御できるようになるでしょう(センサーフュージョン)。

それと同時に、リモコン、コンピュータキーボード、オンオフスイッチなど、今は普通に使われている入力デバイスは、少なくなっていくでしょう。コンピュータシステム、デバイス、マシンが学習を続けて、さらに多くのデータを取得すれば、ますます人間に似てくるでしょう。そうなると、感覚器官の役割を引き受けることになります。カメラは視覚を、マイクは聴覚を、センサー内蔵の衣服は触覚を実現するでしょう。インフィニオンは、センサーの助けを借りて、人間の感覚をより良好に再現しようとしています。アンドレアス・ウルシッツは次のように述べています。「ガスセンサーは『においをかぐ』ことができ、3Dカメラは機器の『視力』を向上します。」

マシンは、センサーの助けを借りて、周囲で何が起こっているかを分析します。その結果として、まったく新しい形態のインタラクションが生まれます。ウルシッツは、次のような例を挙げています。ガスセンサー付きの携帯電話が、近くでバーガーの焼ける「におい」を感じます。デジタルアシスタントは、今、セール中のバーガーがあるのでメニューを見るように勧めます。それと同時に機器は、知覚指向のセンサーによって、ユーザーのボディランゲージを解釈して応答します。

マシンは、人工知能のおかげでますますスマートになるでしょう。マシンラーニングでは、コンピュータは、自分自身でデータから結論を導出します。それは現在すでに可能になっていて、アマゾンのAlexaなどのデジタルアシスタントで実証されています。しかし、テクノロジーがますます多くのデータをより短時間で処理できるようになれば、マシンが自分自身で「考える」能力は向上します。

どのような種類のヒューマンマシンインタラクションがあるでしょうか?

どのような種類のヒューマンマシンインタラクションがあるでしょうか?

  • スイッチ、レバー、ハンドルおよびボタンは、情報テクノロジーが登場するまでは、機械制御のために使われる主要な要素でした。
  • キーボードの出現によって、新しい操作手段が加わりました。コマンドラインにテキストを入力することで、システムに対して指令を与えます。
  • マウスによって、初めてグラフィックな制御手段ができました。画面上の特定の場所をクリックして、その機能を起動できるようになりました。
  • 今、私たちはタッチスクリーンの時代にいます。指を使って、機器を直接動作させます。
  • マルチタッチ入力は、ジェスチャーコントロールに向けての第一歩です。2本の指を広げると、画面上の何かを拡大することができます。
  • ウェアラブル機器では、ボディセンサーが、自動的にデータを収集し、分析し、ユーザーに情報を提供します。
  • それと同時に、ボイスコントロールが発展を続けています。アマゾンのAlexa、マイクロソフトのCortana、Google Homeなどのデジタルアシスタントは、ユーザーが出した指令を実行します。
  • ジェスチャーコントロールは、より直観的な操作手段を提供します。空中でジェスチャーをするだけで、テレビのスイッチを入れられます。

重要な質問と回答

ヒューマンマシンインタラクションとは、人間と自動化システムが相互に作用するための方法全般のことです。HMIは、今日では、産業および日常生活で重要な役割を果たしています。ますます多くのデバイスが、ネットに接続されて自動的に作業を実行しています。このような機械を円滑に運転できるようにするためには、できるだけ直観的なユーザーインターフェイスが必要になります。それは、さまざまな形態をとることがあります。

HMIのユーザーインターフェイスは、ユーザーが機械とかかわるポイントまたは行動です。システムの操作は、ボタン、マウス、タッチスクリーン、音声またはジェスチャーによって行われます。簡単な例としては、照明のスイッチがあります。「照明」という機械と人間をつなぐインターフェイスです。タッチスクリーンをタップするような直接制御と自動制御という区別のしかたもあります。後者の場合、人間の要求をシステムそのものが識別します。車両が路面の誘導ループの上を走行すると、ただちに色が変わるような交通信号を思い浮かべてください。

長い間、機械は主にスイッチ、レバー、ハンドル、ボタンによって制御されていました。最近は、これにキーボードやマウスが加わりました。今日は、タッチスクリーンの時代になっています。自動的にデータを収集するウェアラブル機器のボディセンサーも、現代のインターフェイスです。また、ボイスコントロールが、急速に進歩しています。ユーザーは、アマゾンアレクサやGoogle アシスタントのようなデジタルアシスタントを音声で制御できるようになっています。そのためには、あまり努力を必要としません。チャットボットも、このようなシステムで使われています。人間とコミュニケーションする能力は、人工知能のおかげでますます向上しています。

ジェスチャーコントロールは、少なくともボイスコントロールと同じくらいに直観的です。たとえばロボット掃除機を、将来は、簡単な手の合図で停止させることができるでしょう。グーグルとインフィニオンは、「Soli」という新しいタイプのジェスチャーコントロールをすでに開発しています。レーダー技術の助けを借りて、暗闇で、あるいは離れたところから、機器を操作できます。現実を拡張する技術も、インターフェイスとして使われています。仮想現実メガネは、人工的に作られた3D世界にユーザーを没入させます。拡張現実メガネは、現実の環境に仮想の要素が重ねて合成されます。複合現実メガネは、両方の技術を組み合わせたもので、高解像度によって、シナリオを現実のように提示することができます。

現代のHMIのおかげで、人々は複雑なシステムであっても容易に使えるようになりました。機械も、合図をますます高度に解釈できるようになっています。これは、特に自律運転では重要です。人間のニーズをより正確に識別できるようになります。これにより、たとえば介護でロボットを利用できます。潜在的なリスクとしては、機械のセンサーを通じて、ハッカーがユーザーの情報を入手するということがあります。最後に重要なこととして、ヒューマンマシンインタラクションにはセキュリティが不可欠です。一部の評論家は、自己学習する機械の自律的な行動がリスクになるかもしれないと心配しています。HMIによって事故が発生した場合、誰に責任があるのか、という問題も解決しなければなりません。

ボイスコントロール、ジェスチャーコントロール、あるいは仮想現実、拡張現実、複合現実ができたと言っても、HMIは、まだ最終段階とはほど遠いところにあります。将来は、さまざまなセンサーから得られるデータを結合して、複雑なプロセスを把握して最適に制御できるようになるでしょう。たとえば、ガスセンサー、3Dカメラ、圧力センサーの助けを借りて、人間の感覚をますます良好に再現できるようになり、機器の能力が拡大されるでしょう。その一方で、リモコンのように、今は普通に使われている入力デバイスは、少なくなっていくでしょう。

更新:2018年1月