テキストから顔文字っぽい部分を抽出するヤツです。
- MeCab 0.98 (0.99以降では動きません!!)
- mecab-ruby 0.98
- yamcha-ruby 汎用ChunkerのYamchaをGEMにしたヤツです
- Rubyは1.8.7と1.9.3でテストしてます
$ cat << EOF | ruby allinone.rb
課題やってない\(^o^)/オワタ
EOF
text: 課題やってない\(^o^)/オワタ
result: \(^o^)/オワタ
$ cat << EOF | python mkfeature.py -r | yamcha -m data/smiley13.model | python resultview.py
課題やってない\(^o^)/オワタ
EOF
text: 課題やってない\(^o^)/オワタ
result: \(^o^)/オワタ
顔文字にIOBタグをつけて、YamChaで学習させました。YamChaに入れる素性にはMeCabが生成したラティスと付与したコストを使っていろいろやってます(mkfeature.py参照)。 SVMのパラメータをいじって複数モデルを作りましたが、詳細は忘れた。
田中裕紀、高村大也、奥村学「文字ベースのコミュニケーションにおける顔文字に関する研究」言語処理学会 第10回年次大会