写真をRekognitionで物体検知してみた

Amazon Rekognitionとは

Amazon Web Services(AWS)のAWS Amplifyを少し学びたいと思い、今回、AWS 怠惰なプログラマ向けお手軽アプリ開発手法 2019のハンズオンを行ってみました。Amplifyは私なりに簡単に言うと複雑なモバイルアプリケーションやウェブアプリケーションを簡単に構築するための仕組みです。本ハンズオンを行うとAI系の機能、チャット機能、アプリ利用分析機能をもったアプリケーションが作成できます。全手順を行う時間は1時間もあればできると思います。※2020年6月現在手順通りやってもうまくいかない部分がありました。私は4時間くらいかかってしまったと思います。

その作成したアプリの中でやはり普通の人にとって興味がわく部分はAI系の機能ではないでしょうか。ということで今回はAmazon Rekognitionが利用されている物体検知機能のご紹介をします。Amazon RekognitionはAWSの1つのサービスです。AWSの公式によって下記のように紹介されています。

機械学習を使用して画像と動画の分析を自動化します。

引用元:Amazon Rekognition(高精度の画像・動画分析サービス)| AWS

うーん、なんかわかるようなわからないような。。。Amazon Rekognitionには画像や動画にラベルをつけたり、テキストを検出したり、表情を分析したりというようなことができます。刑事ドラマにてメカニックな人が様々な画像や動画から犯人を捜したりするシーンありますよね。「カチャカチャカチャ。犯人は現在○○通りに△△方面に向かっています。」というような人を探すような場面を思い出しました。他にもスポーツの分析、生体認証、物流での製品識別など様々なところで活用が始まっています。自分が作成した沢山の画像や動画をタグ付けしたりするのは大変ですが、Amazon Rekognitionを使えば自動で素早くタグ付けするようなアプリケーションを簡単に作成することができます。今回はRekognitionで画像になにが映っているかを取得(物体検知)してみたいと思います。

ハンズオンで作成されたアプリで物体検知するまでの流れ

作成されたアプリでどんな感じで分析されるかわかる動画です。サンプルアプリの為、URL公開はしていませんが、使ってみたいなどの要望があればお気軽にご連絡ください。

Rekognitionで物体検知した結果

写真はすずふぉとさんよりご提供いただいたものになります。

①猫

館山の須藤牧場さんにいた猫だそうです。なんとも言えん表情をしてる。

結果

Catは猫ですね。で、私はAbyssinian、Manxってなに?となりました。ちょっと調べたところネコの品種のひとつですね。この時点で私より高性能な物体検知です。

②やかん

おしゃれなインテリア向きなヤカンとの紹介されていました。確かにおしゃれだけど口細くない?と思ったのは私だけでしょうか。

結果

Kettle(やかん)よりもPot(ポット)がわずかに数値が上回っていますね。ポットって日本人だと一定量のお湯を保温する電気ポットをイメージしませんか?英語だとどうやら、深鍋という意味でもあるみたいです。確かにGoogleで画像検索すると鍋がでてきます。Sink Faucet(蛇口)はちょっと残念すぎる笑。

③新幹線の座席

撮影された時期が2020年03月11日の新幹線座席と紹介されていました。新型コロナウィルスの影響で外出自粛になる前の写真ですね。

結果

クッション100というスコア。ノーコメントでお願いします。そしてHeadrest(ヘッドレスト)、Vehicle(乗り物)、Transportation(交通手段)という単語が。。。凄い分析力です。個人的にはこれが乗り物の中であることを認識していることが素晴らしいと感じました。

④高速道路

関越道か上信越であるとの紹介でしたが、一般道にもこのような道あってもよいと思いながらRekognitionさんに分析して頂きました。

結果

Road(道)、Highway(高速道路)、Freeway(高速道路)、Asphalt(アスファルト)、Tarmac(ターマック)と完璧な回答ではないでしょうか。と思ったのですが、一般道の写真を入れても高速道路とでました。

⑤唐揚げ定食

定食としては定番な感じと紹介されてました。唐揚げは実は大好物です。

結果

Food、Mealという結果は素晴らしい。問題はその後、Pasta、Noodleという結果でした。先日、英語で会話している時「唐揚げが好物です。」と伝えるとき困りました。Google翻訳によるとFried chickenになるのですが、私が伝えたいのはケンタッキー・フライド・チキンとは違う唐揚げです。Japanese fried chickenとか呼ばれているみたいですが、Amazon Rekognitionは知らないようですね。「Karaage」と表示されるようになることを期待します。

感想

人それぞれ感想に違いがありそうな結果ですが、以前にも私はRekognitionを利用したことがあったので今回は大きな感動はありませんでした。しかし、使い方によってはそのままの状態でも十分実用性があると考えます。沢山の写真や動画を管理しているような会社である共同通信社や毎日新聞社などで既に使われています。また、はいチーズ!という写真閲覧、購入サービスでも利用されています。現代ではデジカメやスマホの性能向上により手軽によい画像や動画を作成できます。「AI」というものを組み合わせることにより更なる価値がを生み出せる可能性があると思うので是非活用していきたいですね。AWS Rekognitionは1000画像処理してで約120円程度で利用できます。(条件によっては更に安く利用できます。)岸野Rekognition(私が画像を見て人力で分析するサービス)が1画像100円程度のことを考えると破格の値段です。尚、AWS Rekognition利用相談や作成したアプリを少し触ってみたいなどのご相談があればお気軽にお申し付けください。

感謝

今回利用させて頂きました画像はすずふぉと!BC級フリー写真素材館よりご提供頂いたものになります。ありがとうございます。今回利用した写真以外にも沢山の写真がありますので是非ご覧ください。
「すずふぉと!BC級フリー写真素材館」:https://suzuphoto.tokyo/