« ルビ。振るべきか、振らざるべきか。 | トップページ | コイは水色 »

メモ:PDF>PPM>JPG

 OCR したテキストはいわばエディタ的な一行ではなくてワープロ的な一行となって改行が細かくはいってブツブツと行が切れてしまう。この部分をつなげて戻していくわけだけれど、膨大な量になれば手作業でというのも大変なので Ruby のお世話になる。とりあえず、改行の前が句点「。」やかぎ括弧「」」でないなら次に続いているものとしてつなげてみると、まあまあの感じになった。

 もちろんその後にきちんと確認しておかしなところは修正するのだけれど、テキストが数千行とか数万行とかだったらその作業の軽減は少なくないのではないかなと。

 どのみち OCR したテキストはどうしても正しく認識できない部分が出てしまうので、そのあたりは原稿と照らし合わせて修正したり、という作業は必要なわけで。そうはいっても認識の精度というのはずいぶんと向上したなあとこの頃は思う。

 あとはちょっとメモ。

 pdftoppm pdf ppm

 convert ppm jpg

 ghostscript が必要だったのだなあ。

|

« ルビ。振るべきか、振らざるべきか。 | トップページ | コイは水色 »

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック


この記事へのトラックバック一覧です: メモ:PDF>PPM>JPG:

« ルビ。振るべきか、振らざるべきか。 | トップページ | コイは水色 »