MeCab試験養殖中 その4 「ルビ振りについて考える」
MeCab を使ってひとまずテキストのルビ振りをすることはできるようになった。ただ、期待するものとは違うルビになってしまったり、おかしなところで区切ってしまったりということがあるようなので、辞書を鍛えないといけないのだなと。
ということでまずはどのように分かち書きしているのかを知るために、そのままで出力させるようにしてみていると、たとえば「一人」といったものを「一」と「人」とにわけてしまったり、「三時」も「三」と「時」に分けてしまったりする。
こうしたことを積み重ねて辞書を鍛えないといけない感じ。あるいは NBest からというのもあるのかもしれないけれど、それを機械的に処理するのはなかなか厳しいような気がするので、できるだけ最適解が期待できるようにしておいて、どうしてもというところは最後に人力というのも止むを得ないのかなあ。
ところで漢字という漢字にルビを振っていくと、なかなかににぎやかなことになってしまう。ReVIEW 方式の @<ruby>{} を使うとややうるさい。青空文庫式の 《》 だとあまりそうでもない。もっともすべての漢字という漢字にルビを振るということを想定して、あるいは期待しているわけでは通常はないだろうから、それを言ってもはじまらないわけではあるけれど。
ただ、合成音声による読み上げをきちんとさせようとすると、現状ではきちんとしたルビを振っておくということに尽きるような気がして。これもまた合成音声のための辞書が学習していけば解決するのかもしれないけれど。
| 固定リンク
コメント