コンピュータはそれ自体常識を教えることができますか?
それほど遠くない過去では、コンピュータが「常識」を実証できることを示唆することは、矛盾論と見なされます。しかし、IBMのWatsonなどのスーパーコンピュータは、コンピュータの新しい役割の前兆となる可能性があります。現在、カーネギーメロン大学の研究者たちは、データを収集し、それ自体に常識を大規模に教えるために、コンピュータープログラムを24時間年中無休で実行しています。
このソフトウェアはWebで画像を検索し、それ自体を理解するために最善を尽くし、拡大するビジュアルデータベースを構築して大規模に常識を収集するため、このプログラムはNever Ending Image Learner(NEIL)と呼ばれます。
NEILは最近のコンピュータビジョンの進歩を活用して、コンピュータプログラムが画像内のオブジェクトを識別してラベル付けし、シーンを特徴付け、色、照明、素材などの属性をすべて人間の監督下で認識できるようにします。
次に、それが生成するデータは、コンピューターが視覚世界を理解する能力をさらに強化します。
NEILは、物事を関連付けて常識的な情報を取得できるため、以前のロボットデバイスよりも大幅に進歩しています。人々がほとんど直感的に知っている情報—車は道路上に見られることが多く、建物は垂直になりがちであり、アヒルはガチョウのように見えます。
テキスト参照に基づいて、羊に関連付けられている色は黒であるように見えるかもしれませんが、人々は-そして今ではNEIL-にもかかわらず、羊は通常は白であることを知っています。
カーネギーメロンのロボット工学研究所の助教授であるAbhinav Gupta博士は、「画像は視覚特性を学習するための最良の方法です」と述べています。
「画像には、世界に関する多くの常識的な情報も含まれています。人々は自分でこれを学び、NEILを使用して、コンピューターも同様に学習できることを願っています。」
コンピュータクラスタは、7月下旬からNEILプログラムを実行しており、すでに300万枚の画像を分析しており、50万枚の画像で1,500種類のオブジェクト、数十万枚の画像で1,200種類のシーンを識別しています。
数千のインスタンスから2,500の関連付けを学習するためにドットを接続しました。
NEILプロジェクトの動機の1つは、オブジェクト、シーン、アクション、属性、コンテキスト関係がラベル付けされてカタログ化される、世界最大の視覚構造化知識ベースを作成することです。
「過去5〜10年間のコンピュータービジョンの研究で学んだことは、データが多いほどコンピュータービジョンが良くなることです」とGupta氏は述べています。
ImageNetやVisipediaなどの一部のプロジェクトでは、この構造化データを人間の助けを借りてコンパイルしようとしました。
しかし、インターネットの規模は非常に大きく、Facebookだけで2,000億を超える画像を保持しています。そのすべてを分析する唯一の望みは、コンピュータに大部分を自分で行うように教えることです。
人々はまた、検索、分析するオブジェクト、シーンなどのカテゴリをNEILに伝えます。しかし、時々、NEILが見つけたものは研究者さえ驚かすことができます。
たとえば、「apple」を検索すると、果物やラップトップコンピュータの画像が返される可能性があります。しかし、グプタと彼のチーム、ランドラバー全員は、F-18の捜索が戦闘機の画像だけでなくF18クラスのカタマランも特定することを知りませんでした。
検索が進むにつれて、NEILはオブジェクトのサブカテゴリを開発します。三輪車は子供用、大人用、モーター付き、または自動車にはさまざまなブランドやモデルがあります。
そして、連想に気づき始めます。たとえば、シマウマはサバンナなどで見られる傾向があり、株取引フロアは通常混雑しています。
NEILが一般名になる前に、プログラムは200の処理コアを含む2つのコンピューターのクラスターで実行されるため、NEILは計算集約型であるため、規模を縮小する必要があります。
出典:カーネギーメロン大学