読者です 読者をやめる 読者になる 読者になる

宇宙スープ

Once upon a time, the Universe expanded from an extremely dense and hot soup

人工知能の限界の考察(1)

オーバービュー

人工知能研究は勃興以来難解な問題がいくつも立ちはだかり、長い間実用的な成果を出せなかったが、1980年代Judea Perl氏が確率統計的な発想を取り込んだことで状況が変わった。
1997年当時世界ダントツ1位のチェスプレイヤー、カスパロフにコンピュータが勝利した。21世紀に入るとディープラーニングが登場、コンピュータ高性能化も与し、2010年以降は目覚ましい成果をあげるようになった。コンピュータがプロ棋士に将棋で勝利、クイズで人間に勝利、画像解析によってネコの概念を獲得、自動運転の実現、Siriなどの会話型コンシェルジュの実現などである。

確率統計的人工知能

興味深いのは、現在の人工知能の大成功は確率統計手法がベースになっているという事実。これが意味するのは、一見知能のように見えるコンピュータの振る舞いも、単に確率が高いものを選んでいるだけということ。 言語翻訳プログラムの例がわかりやすい。 たとえば、以下の文章を確率統計的にどう翻訳するか。

"I love you." "私はあなたを愛しています。"

コンピュータに学習をさせるためには学習ネタとなるデータを与える必要があるが、日英翻訳システムの場合は、大量の英文とそれと対となる和文を与えることになる。
大量のデータが集まると、"I"の後に"love"がきて、"love"の後に"you"が出てくる事例がそろってくる。その対となる和文には、"私は"の後に"あなたを"がきて、"あなたを"の後に"愛しています"がくる確率が高くなる。 その結果コンピュータは確率的に高得点だった"私はあなたを愛しています。"という文章を生成することができる。 極論すれば、コンピュータは"I"="私"、"love"="愛している"、"you"="あなた"という意味を知らなくても、日本語は基本主語が最初で述語が最後にくるという文法を知らなくても上の答えを導き出せる。

果たしてこれを知性とよべるのか?ということは人工知能界隈では熾烈な論戦が展開されているらしい。
これは中国語の部屋などの思考実験に代表される「哲学的ゾンビ」問題に通じる。

要は、"I"="私"であることすら理解していないものが、あらゆる会話に対してそれっぽい答えを用意できたとすると、そいつを知能がある/意識がある/生きている、と言えるのか、という問題だと思う。
Noam Chomskyは統計的人工知能に拒否反応を示しているらしい。とは言え、実用的な成果を出せているのは圧倒的に統計的人工知能であることにゆるぎないので、この状況は「神はサイコロを振らない」と言ったアインシュタインに似ている気もする。

自分の考えでは、哲学的ゾンビ問題はあまり重要ではない。
なぜなら、人間がどんな会話を投げかけても楽しませてくれたり、尊敬できるような受け答えができる人工知能ができれば、そいつはもう知能がある/意識がある/生きている、と思うから。裏側でどんなアルゴリズムが使われているかが問題になるわけがない。
問題なのは、今の統計的人工知能ではそのレベルまで到達せず、どうしても人間がドン引きするミスが露呈されて場合である。

この学習ミスを象徴するものとして、特にWeb開発界隈の人なら頷いてもらえる例を紹介する。
今は既に修正されてるが、ついこないだまで、Google翻訳で"Arial"を翻訳させると"MS P ゴシック"に変換されるという件がやや話題になっていた。

http://livedoor.blogimg.jp/netagazou_okiba/imgs/8/7/8745f3c5.png

"Arial"も"MS P ゴシック"もフォントの名前で固有名詞である。Webサイトのテキストを表示する際にフォントを指定することができるんだけど、日本では"Arial"と"MS P ゴシック"を併記するのがお決まりの指定方法として有名なのである。
"Arial"は英語、"MS P ゴシック"は日本語と解釈され、"Arial"が登場する文書に"MS Pゴシック"が登場する確率が非常に高いのでこのようなことが起こると思われる。

ディープラーニングの弱点

ディープラーニングは従来よりはるかに抽象的で汎用的な学習を可能にした革命的テクノロジーであることは間違いない。
けれども大量の学習データを与える必要があることと、それらが統計的手法を基に学習されることは弱点として認識され始めている。

Deep Learningの実力と限界、人工知能のロードマップ

"Arial"と"MS P ゴシック"を厳密に区別できない空気の読めなさはディープラーニングをもってしても乗り越えられない壁のような気がしている。
次のボトルネックになるのがコンピュータの性能でもデータ量の問題でもなく、アルゴリズムに革命が必要であるとしたら、天才の降臨待ちになり、また何十年冬の時代に突入するかもしれない。
自分の予想では、コンピュータの処理性能はそこまで問題でないと思う。実際に人間の知性の象徴とも言える大脳新皮質はより原始的な脳である小脳よりもニューロンの数は少ないし。