« TSNETスクリプト通信第16号でました | トップページ | ケアの時代 »

惜しいあーる

 涼さんが OCR テキストでの誤認識のいろいろを紹介されていて、その前には数字の 1 とアルファベット大文字の I と小文字の l との判別についても書かれていて、確かにこのあたりというのは悩ましい問題なのだなと。

 で、前者の誤認識については一目瞭然というタイプであればわかりやすいのでやや扱いが楽かもしれない。 後者の例はそもそもの印刷された状態での判別が難しいというべきかもしれないので、これはなかなか面倒な問題。

 もうひとつこの頃体験したものとしては一見しただけではまったく気づけないというパターン。

 青空文庫の「学問のすすめ」にルビを振っていたのだった。 確認をしていたらなぜかカタカナにルビを振っている箇所がある。 よくよく調べるとカタカナではなく確かに漢字であったと。 「卜(ぼく)」という。

 カタカナのなかの「ト」の部分に、漢字である「卜」が混じっていたために MeCab は漢字だからと正しくルビを振ってくれたわけなのだった。 これは一見してもわからない。 音声合成で読み上げさせれば同様に気づくとは思うけれど、それでも聞いているだけであればなにかおかしいとは思うかもしれないが、なぜそうなのかは気づきにくいかもしれない。

 OCR したときにカタカナではなく漢字と認識してしまったのだと思うけれど(まるっきり手入力しているのであればありえない間違いなので)、これはなかなか見つけるのは難しそうだ。 青空文庫としても読み上げなど想定していないだろうから今のところ修正されていないということであろうし。

 どうやら今は間違いと思われるものはメールで知らせるようにということなので、後日ほかのものとあわせて一応連絡しておこうかとは思っているのだけれど(あるいはすでに承知はしているがまだ修正できていないのかもしれないけれど)。


追記:
 「卜」については 2012/6/10 版で修正されていた。 ほかについてだけ一応連絡はしてみた。 底本ままとも思うけれど。

|

« TSNETスクリプト通信第16号でました | トップページ | ケアの時代 »

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック


この記事へのトラックバック一覧です: 惜しいあーる:

« TSNETスクリプト通信第16号でました | トップページ | ケアの時代 »