Skip to content

kento1218/kaomoji-extraction

Repository files navigation

kaomoji-extraction

テキストから顔文字っぽい部分を抽出するヤツです。

必要なもの (Rubyの場合)

  • MeCab 0.98 (0.99以降では動きません!!)
  • mecab-ruby 0.98
  • yamcha-ruby 汎用ChunkerのYamchaをGEMにしたヤツです
  • Rubyは1.8.7と1.9.3でテストしてます

使い方 (Rubyの場合)

$ cat << EOF | ruby allinone.rb
課題やってない\(^o^)/オワタ
EOF
text: 課題やってない\(^o^)/オワタ
result: \(^o^)/オワタ

必要なもの (Pythonの場合)

  • MeCab 0.98 (0.99以降では動きません!!)
  • mecab-python 0.98
  • YamCha

使い方 (Pythonの場合)

$ cat << EOF | python mkfeature.py -r | yamcha -m data/smiley13.model | python resultview.py
課題やってない\(^o^)/オワタ
EOF
text: 課題やってない\(^o^)/オワタ
result: \(^o^)/オワタ

原理

顔文字にIOBタグをつけて、YamChaで学習させました。YamChaに入れる素性にはMeCabが生成したラティスと付与したコストを使っていろいろやってます(mkfeature.py参照)。 SVMのパラメータをいじって複数モデルを作りましたが、詳細は忘れた。

参考文献

田中裕紀、高村大也、奥村学「文字ベースのコミュニケーションにおける顔文字に関する研究」言語処理学会 第10回年次大会

About

テキストから顔文字を抽出するヤツ

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published