Last Modified: April 20. 2009
本研究の目的を実現するための基礎的研究として私は,これまで「多段階分割法を用いたべた書き日本語文のかな漢字変換手法」及び「多段階分割復元法を用いた誤りの多い文字列からの原文復元手法」を提案した.多段階分割法は,他の語と重なりあうことなく確実に分離できる部分(キーワード)から順次,段階的に単語のあてはめを行なう手法である.次に,多段階分割法を音声認識結果に適用できるように改良を行ない,多段階分割復元法を提案した.音声認識結果には,一般に比較的多くの誤りが含まれる.したがって,多段階分割復元法では,このような入力にも適用できるようにキーワードを確実性によってさらに詳細に階層化するなどの改良を行った.これらの手法では出現単語の頻度,正復元度数などを学習し,自動的にシステムが対象分野に適応する機能を実現している.
次に,私は「人間の言語及び知識獲得能力の工学的実現」を行なうための本格的な研究を開始した.ここでは,対象データを段階的に高度化しながらその対象に耐え得る手法を提案するという手順で研究を進めている.具体的には,漢字かな混じり文という一種類の記号列,べた書き文とその漢字かな混じり文という記述体系が同じだが表層表現が異なる二種類の記号列,原文とその訳文といった意味的には非常に近いが記述体系が全く異なる二種類の記号列という三つの段階を対象とし,それぞれの段階に対して「帰納的学習による形態素解析手法」,「帰納的学習によるかな漢字変換手法」,「遺伝的アルゴリズムを用いた帰納的学習による機械翻訳手法」を提案し,さらに実験によりその有効性を確認した.
「帰納的学習による形態素解析手法」では,辞書が全く空の状態から単語そのものを帰納的学習により獲得する.すなわち,帰納的学習ではテキスト中の漢字かな混じり文より共通部分と差異部分を多段階に抽出することにより語を獲得することができる.また,「帰納的学習によるかな漢字変換手法」では,べた書き文とその漢字かな混じり文から帰納的学習によりかな漢字変換に必要な語の表記と読みを獲得し,次に獲得状況及び変換精度に基づく確実性の高い順に多段階に変換を行なう.現在,本手法は携帯電話,携帯端末用の日本語入力法としての応用を進めている.これは,電話の数字ボタン(12キー)のみで母音を縮退(文字情報縮退方式)させて入力を行う方式である.本手法の学習機能によって実現された適応能力を用いることにより汎用性を失わず対象を極めて限定することができるので,このような曖昧性のある入力でも正確な変換が可能となる.
また,「遺伝的アルゴリズムを用いた帰納的学習による機械翻訳手法」は,翻訳実例から翻訳ルールを帰納的に学習し,翻訳を行なうものである.学習型の機械翻訳手法では,一般に非常に大量の実例を必要とするという問題点を持つ.しかし,本手法では遺伝的アルゴリズムを応用することにより少数の実例より多くの翻訳例を自動的に生成し,多くの翻訳ルールを得ることによりこの問題を解決している.また,システム全体としても遺伝的アルゴリズムを実現しているので,使用につれてその翻訳情報をフィードバックし,誤った翻訳ルールが淘汰され最適なシステムに進化することができる.本手法を用いた実験システムを用いた性能評価実験では辞書が空の状態から中学1年レベルの英語の教科書の翻訳例のみから学習することにより最終的に60%程度の精度で翻訳を行うようになることが確認されている.
これらの手法の性能評価実験の結果,自然言語処理に対して学習機能を付加することが非常に有効であることが実証され,本研究のアプローチの正当性が確認された.しかし,本研究の目的である「人間の言語及び知識獲得能力の工学的実現」という点では,依然として多くの問題が残されている.そこで,現在はさらに高度な対象データとして,因果関係は存在するが意味的に異なる記号列である質問応答例に本手法を適用することを考え,対話処理についての研究を進めている.対話処理では機械翻訳に適用した「遺伝的アルゴリズムを用いた帰納的学習による対話処理手法」である.本手法を用いた実験システムでは音声対話システムに本手法を応用し,システムと対話するうちに学習機能により言語を獲得し次第に会話ができるようになる.本システムは辞書が空の状態から話しかける言語に応じてその言語を覚えるという特徴がある.
また,これまで我々の行なってきた研究は,自然言語を対象としているが,その本質は「人間の言語及び知識の獲得能力の工学的実現」という点である.このような観点から考えると本研究は言語メディア,音声言語メディア,画像メディアといった種々のメディアに適用可能なものである.
本研究での実現されるべき人間らしさとはどのようなことであろうか?コンピュータが言葉を理解することはもとより,感情や常識を持ち,究極的には自我を持つことである.自我とは自分が自分であることがわかることである.真の人工知能とは自我を持つシステムを実現することであろう.これまでの研究の流れは言語を理解するシステムを作成するために言語獲得の研究を行って来た.しかし,発話をするためには感情が必要であるので,感情獲得を研究する必要がある.感情を持つためには自我が必要であり,最終的には自我獲得の研究を行う必要がある.
進化の方向としては自我が生まれ,感情を獲得し,言葉を獲得したのであるが,自我獲得は究極的かつ根源的なテーマであるので,進化の方向とは逆の方向で研究を進めている.現在は,感情獲得の一貫として感情認識・生成を行っているところである.感情認識では文頭・文末で感情を表現するモダリティーの研究やWEBからの常識の獲得の研究を行っている.これは常識があるので驚きやおかしさがわかるということに起因している.また,ユーモアの認識・生成も感情処理の一貫である.つまり,笑うコンピュータの実現である.
自我の獲得はまだ未着手である.ペンギンは鏡に写った自分を見て他のペンギンだと思うので,群れの中に居ると思い込ませて安心させるためにペンギンの部屋は壁を鏡にしている,チンパンジーは鏡を見て毛繕いをするので,鏡に写った自分は自分であることを知っている.すなわち,自分というものの存在を認識している.
ペンギンからチンパンジーへの進化はどのような仕組みで起こったのか?進化論で科学的に解明して工学的にコンピュータ上のシステムに実現することが今後の研究課題である.