メモ:PDF>PPM>JPG
OCR したテキストはいわばエディタ的な一行ではなくてワープロ的な一行となって改行が細かくはいってブツブツと行が切れてしまう。この部分をつなげて戻していくわけだけれど、膨大な量になれば手作業でというのも大変なので Ruby のお世話になる。とりあえず、改行の前が句点「。」やかぎ括弧「」」でないなら次に続いているものとしてつなげてみると、まあまあの感じになった。
もちろんその後にきちんと確認しておかしなところは修正するのだけれど、テキストが数千行とか数万行とかだったらその作業の軽減は少なくないのではないかなと。
どのみち OCR したテキストはどうしても正しく認識できない部分が出てしまうので、そのあたりは原稿と照らし合わせて修正したり、という作業は必要なわけで。そうはいっても認識の精度というのはずいぶんと向上したなあとこの頃は思う。
あとはちょっとメモ。
pdftoppm pdf ppm
convert ppm jpg
ghostscript が必要だったのだなあ。
| 固定リンク
コメント