第30回目の今回からは、頭部に装着できるウェアラブルカメラで撮影する、一人称視点映像に関する技術について紹介します。一人称視点は、英語ではFirst-person vision、またはEgocentric visionと呼ばれています。

一人称視点映像

一人称視点映像を撮影するためのカメラは、「GoPro Hero」が最も有名でしょう。国内のメーカーでは例えばソニーの「アクションカム(Action Cam)」や、スタートアップ企業では、視線トラッカー機能付きの一人称視点カメラを開発しているPupil Labs、画像認識用の小型コンピューターを備えたウェアラブルビジュアルシステムを開発しているOrCamなどがあります。また、SnapchatのSnapがサングラス型の「Spectacles」を販売しています。

これらのカメラで撮影すると動画1のような映像が得られます。頭部の動きに合わせてカメラが動くため、カメラ装着者が見た景色を連続的に撮影することができます。


動画1 一人称視点映像の例

一人称視点映像でできること

壁などに固定されたカメラと異なり、ウェアラブルカメラを用いることで日常生活や旅行中など広範囲にわたる映像を常時撮影することができます。しかし、ウェアラブルカメラで常時撮影した動画は膨大なデータ量となってしまいます。そして動画が長くなればなるほど、動画を見たり編集したりするために長い時間を要します。
そこで、カメラ装着者自身の動作(Ego-Action)を自動で認識して、長時間撮影した映像の各瞬間がどのようなシーンかを自動的にインデクシングする技術があります(動画2)。


動画2 Ego-Action認識によるvideo indexing

また、グループで行動している場合は、人とのインタラクションを検出、識別することができます。動画3の例では、グループでディズニーランドに行った際の一人称視点映像から、1対1で会話しているシーン、1人が複数人に話しているシーン、複数人で議論しているシーンなどを自動で検出、識別しています。


動画3 人と人のインタラクションの解析

さらに一人称視点カメラは、カメラ装着者の頭部が向いている方向の映像を撮影できるため、どこを注視していたか(Attention)を解析することができます。動画4では、一人称視点映像中のどの領域が人々の注目を集めているかを推定しています。


動画4 Attentionの解析

このように一人称視点(First-person vision、Egocentric vision)では、カメラ装着者の動きに合わせて、屋外などの広範囲にわたる映像を常時撮影することができ、いつ、どこで、何をやったかを分析・記録することができます。
プライバシーやバッテリーの課題があり常時撮影するまでには至っていませんが、警察や警備員、工場や工事現場など用途を限定すれば、旅行時の撮影以外にも様々な応用先があるのではないでしょうか。

次回は、頭部に装着したGoProを用いてアメリカのディズニーランドで長時間撮影した映像から、会話しているシーンを抽出し、会話の種別(1対1か1対多かなど)を推定する手法を紹介します!