Free your mind
Free your mind
実験からの知識をまとめて
自由課題に挑戦せよ.
実験で利用した「mecab」や「ConceptNet」などを利用してもいいし,ネットで拾った「言語資源」(ニュース,つぶやき,ブログなど)も利用できる.一般的に公開されるものもありますし,言語メディア学研究室が作成したリソースもあります.例えば
感情表現のデータ EMOTIONS.zip
ワードネット wnjpn-ok.tab
反対語リスト hantaigo.txt
チャットログ irclogs.utf
動詞項構造 シソーラス verb_thesaurus.csv(説明)
分類語彙表 (テキスト処理は「浅い」形態素解析だけではなく,意味処理の技術も利用します.その一つは類義語を使います.分類語彙表とは, 語を意味によって分類・整理したシソーラス(類義語集)です.「分類語彙表」の使用によって,ある単語の上位語,同意語,下位語,関連語などが引けます.この課題は「分類語彙表」のファイルのダウンロード及びそれの動作確認ができるPythonインターフェースもあります(koumoku.utf,sakuin.utf)
猫
カテゴリー番号: 1.5501-05
自然 :: 動物 :: 哺乳類
注意:著作権の関係でこの実験以外の使用は禁止されています。ご了承ください。
ちなみにHPをコマンドラインから取りたければパイソンからとっても,コマンドラインから例えばw3mをつかっても難しくないです:
w3m www.hoomupeeji.jp > file.html (ソースダウンロード)
w3m -dump www.hoomupeeji.jp > file.txt (テキストとしてダウンロード)
しかし,短時間で複数のダウンロードを行うプログラムを避けましょう.
当研究室のサーバにあるアメバブローグのデータもアクセスができます:
import os
input = "電話をする"
url = 'http://ark4.media.eng.hokudai.ac.jp/blog?query='+input+'&num=100&start=0&size=8&exact=1'
command = 'w3m -dump '+url+' > results.txt'
os.system(command)
Macabをパイソンから使うにはsubrocessはおすすめです.
#!/usr/bin/env python
# coding: utf-8
import subprocess as sp
def mecab(text):
proc = sp.Popen(['mecab'], stdin=sp.PIPE, stdout=sp.PIPE)
output = proc.communicate(text)[0]
morphs = list()
for line in output.split('\n'):
if '\t' not in line:
continue
s, f = line.split('\t', 1)
morphs.append((s, f))
return morphs
text = "今日はとてもよい天気ですね"
for s, f in mecab(text):
print '{0}\t-> {1}'.format(s, f)
==============================================================================
創成課題はアイデア勝負で,新たなものを考え出す力を皆さんから引っ張り出す練習です.何を作ろうか悩ませるのはメイン目的です.頑張ってください.何も浮かばなかったらBlock1からの課題を拡張してもいいですが,今までそういう発表はほとんどいなかったです.自分の中のCreatorを起こしてみてください.
過去の例:名作感情分析,俳句生成,マックの自動店員,いつも怒っている対話システム,天気予報を教えるシステム,場所と動作主の入力に対してあり得る行動を利用したミニストリーの生成,ブログサンプルによる人気度メター,あいうえお作文生成,嘘発見機,ケータイ小説生成,サッカー選手のデータによる完璧のチーム自動生成,統計データを分析しているQAシステム,日本語⇄ギャル語ための機械翻訳システムなどなど.
以上の例の中の一つのテーマは(不真面目に見えても),人工知能の世界でTOP1の国際会議で発表されることになったものもあります.課題を自分の興味や趣味に繋げるのは発表の熱気にもつながりますので,ゆっくりプランを立ててからコーディングに移ってください.
==============================================================================
システム説明と例を含むレポート及びコードのファイルをジェプカ宛(rzepkaあっとist.hokudai.ac.jp)に送り,レポートのみ紙媒体で7−09のレポートボックスに入れること.締め切りは11月28日(23:00)とします.コード説明(簡単レポート)と発表スライド(pdfやppt形式など)をメールで提出すること.紙のレポートはジェプカやTAに渡すか,7−09のレポートボックスに入れること.発表の構造に必ず背景,システム説明,結果と考察を入れること.発表時間は10分(7分のプレゼンテーション+3分の質疑応答)となります.
自分が面白いと思うプログラム
役に立つもの?
エンタメのためのもの?
テキストデータを使うもの?
文や発話を生成するもの?