Yahoo形態素解析・係り受け解析を試してみる

実は長年の(ww)懸案だった(実は以前2008頃にCygwin+茶筌の導入を試みたが断念した)形態素解析だが、Yahooのものを今回やってみた。「API」って何なのかいというボクにはとっかかりが??だったが何とか流れるようになり、実装できそうな気がしてきた。ただ、10年前から人工無脳界隈では言われていたが、形態素解析やってもそれからどうするの?というのがやはり問題になる。
まず、何ができるかというと、

  • 形態素解析:入力された文を文節に区切り、さらに単語に分け、品詞・活用を明確化。(漢字の読みなどもわかる)
  • 係り受け解析:各文節がどの文節に係っているかの解析。

これからすぐ思い浮かぶのは、中学英語で習った五文形に当てはめて、文の内容を定型的なものに置き換えて分類してみるということ。
受けるのみでどこにも掛かっていない文節は述部と言って良いと思う。が、そうなると次は主部ということになるが、主部は明示的に示されていないようだ。品詞分析で格助詞と表示されるものが主格を意味するかと思うとそうでもなく、格助詞には対象を示す「を」なども有り、品詞名だけで簡単には分類できない。(Yahooさん、本当はできるでしょ?)web上でいろいろ見ていると、なんちゃって文章要約というのが有り、これは述部に直接掛る文節(この中に主部が有るはず)を抜き出して要約するものである。確かに述部と述部に直接掛る文節は重要と思われるのでこれに注目することになると思うが、他の文節に「印象的」な単語(名詞、動詞、形容詞…など)が有ればそれらも拾っていくかもしれない。
いずれにしても楽しみだが、プログラム初版を書くのにまた1年以上かかるかもしれない。


<分析例>

  • ティーブには友人がいますか?
    • ①スティーブに(助詞副詞化?)は(係助詞)/②友人が(格助詞)/③いますか?
      • ①②とも③に掛かっている。
      • ③は受けるのみ
  • ティーブがペンを持っていますか?
    • ①スティーブが(格助詞)/②ペンを(格助詞)/③持っていますか?
      • ①②とも③に掛かっている。
      • ③は受けるのみ
  • twitterってどうやるんだっけ?
    • ①twitterって(格助詞連語?) /②どうやるんだ(助動詞)っけ(終助詞)?
      • ①が②に掛かっている
  • 夏休みってすぐ終わっちゃうんじゃないかな
    • ①夏休みって(格助詞連語?) /②すぐ/③終わっちゃうん(助動詞)じゃ(助動詞)/④ないかな(助詞特殊)
      • ①→③、②→③、③→④と掛かっている。
      • ④は受けるのみ
  • 美味しいラーメンが食べられるところを知っていますか?
    • ①美味しい/②ラーメンが(格助詞)/③食べられる/④ところを(格助詞)/⑤知っていますか?
      • ①→②、②→③、③→④、④→⑤と掛かっている。
      • ⑤は受けるのみ
  • BLUEって何?
    • ①BLUEって(格助詞連語?) /②何(名詞)?
      • ①が②に掛かっている

少し検索もしてみたが、cabochaでもどうやら同様のよう。

keyword: 人工知能