実は長年の(ww)懸案だった(実は以前2008頃にCygwin+茶筌の導入を試みたが断念した)形態素解析だが、Yahooのものを今回やってみた。「API」って何なのかいというボクにはとっかかりが??だったが何とか流れるようになり、実装できそうな気がしてきた。ただ、10年前から人工無脳界隈では言われていたが、形態素解析やってもそれからどうするの?というのがやはり問題になる。
まず、何ができるかというと、
これからすぐ思い浮かぶのは、中学英語で習った五文形に当てはめて、文の内容を定型的なものに置き換えて分類してみるということ。
受けるのみでどこにも掛かっていない文節は述部と言って良いと思う。が、そうなると次は主部ということになるが、主部は明示的に示されていないようだ。品詞分析で格助詞と表示されるものが主格を意味するかと思うとそうでもなく、格助詞には対象を示す「を」なども有り、品詞名だけで簡単には分類できない。(Yahooさん、本当はできるでしょ?)web上でいろいろ見ていると、なんちゃって文章要約というのが有り、これは述部に直接掛る文節(この中に主部が有るはず)を抜き出して要約するものである。確かに述部と述部に直接掛る文節は重要と思われるのでこれに注目することになると思うが、他の文節に「印象的」な単語(名詞、動詞、形容詞…など)が有ればそれらも拾っていくかもしれない。
いずれにしても楽しみだが、プログラム初版を書くのにまた1年以上かかるかもしれない。
<分析例>
- twitterってどうやるんだっけ?
- ①twitterって(格助詞連語?) /②どうやるんだ(助動詞)っけ(終助詞)?
- ①が②に掛かっている
- ①twitterって(格助詞連語?) /②どうやるんだ(助動詞)っけ(終助詞)?
- 夏休みってすぐ終わっちゃうんじゃないかな
- ①夏休みって(格助詞連語?) /②すぐ/③終わっちゃうん(助動詞)じゃ(助動詞)/④ないかな(助詞特殊)
- ①→③、②→③、③→④と掛かっている。
- ④は受けるのみ
- ①夏休みって(格助詞連語?) /②すぐ/③終わっちゃうん(助動詞)じゃ(助動詞)/④ないかな(助詞特殊)
- 美味しいラーメンが食べられるところを知っていますか?
- ①美味しい/②ラーメンが(格助詞)/③食べられる/④ところを(格助詞)/⑤知っていますか?
- ①→②、②→③、③→④、④→⑤と掛かっている。
- ⑤は受けるのみ
- ①美味しい/②ラーメンが(格助詞)/③食べられる/④ところを(格助詞)/⑤知っていますか?
- BLUEって何?
- ①BLUEって(格助詞連語?) /②何(名詞)?
- ①が②に掛かっている
- ①BLUEって(格助詞連語?) /②何(名詞)?
少し検索もしてみたが、cabochaでもどうやら同様のよう。
keyword: 人工知能