Last Modified: October 4, 2019
科学研究費基盤研究C(課題番号:17K00294,課題名:ユーモアの面白さの評価手法及び標準データセットの開発)において作成した駄洒落データベースを公開します.
概要
・67,000件の駄洒落文を収録
・種表現,変形表現,種別のタグを付与
種表現( ), 変形表現[ ],読み<>
駄洒落の型
1.併置型(Perfect) (霧)1 の 中 で [桐]1 を [切り倒し]2 て も [キリ]3 が ない 111
2.併置型(Imperfect) (きちんと) 整理 さ れ た [キッチン] 2
3.重畳型<ちょうじょうがた> [すい ま 千羽鶴] 3 <文脈上あるいは既知の語>
4.不明 「 あ 、 あれ 山 だ ! 」 4
・形態素解析ツールMeCab(https://taku910.github.io/mecab/)を用いて単語ごとにスペースで分割
・3名が5段階で評価した面白さのスコアを付与
5:とても面白い,4:面白い,3:普通,2:面白くない,1:非常に面白くない(駄洒落ではないと思うものも含む)
・ フォーマット
通し番号,原形,タグ付,種別,スコア1,スコア2,スコア3,平均スコア
・例
1,坊っちゃんがぼっちゃんと水に飛び込む,(坊っちゃん) が [ぼっ ちゃんと] 水 に 飛び込む,1,4,2,2,2.67
2,高菜、あったかな?,(高菜) 、 [あっ た か な] ? ,1,3,3,3,3.00
3,炭のすみか,(炭) の [すみか],1,2,2,2,2.00
4,この寺の檀家はダンカン,この 寺 の (檀家) は [ダンカン],1,2,4,3,3.00
5,ナウシカを誘う鹿,(ナウ シカ) を [誘う 鹿],2,2,4,1,2.33
6,りんご園では、燐<りん>5円,(りんご 園) で は 、 [燐 <りん> 5 円],1,3,3,2,2.67
使用条件
以下の項目に同意されることを使用する条件とします.利用を希望される方は,荒木までメイル(araki(アットマーク)ist.hokudai.ac.jp)でご連絡ください.また,学生の方が申請される場合には,指導教員の方から申請するようにお願いします.
1. データは学術研究にのみ使用し,商用利用はしません.
2. データの一部または全部を第三者がアクセス可能な場所に公開しません.
3. データの一部または全部を再配布しません.
4. データの著作権者または配布者から、データの一部または全部の削除が要請された場合、これに応じ、すべての計算機およびメディアから該当するデータを速やかに消去し、消去した旨を連絡します.
5. データを用いて行った学術研究の成果を公表する場合,科学研究費基盤研究C(課題番号:17K00294)において開発されたデータを用いたことを明示します.参考文献「荒木健治,佐山公一,内田ゆず,谷津元樹:駄洒落データベースの拡張及び分析人工知能学会第2種研究会
ことば工学研究会資料, SIG-LSE-B803-1, pp.1-15, 2018. 」
6.学会発表などで成果を公表した場合には,メイルで araki(アットマーク)ist.hokudai.ac.jp
に連絡します.
7. データを利用したことにより生じた不利益について、配布者は一切の責任を負いません。
8. 本規約に定めのない事項が生じた場合は、互いに誠意を持って協議し、問題を解決します。