本をスキャンしてPDF化するときに最適なスキャナ設定

本を自分でスキャンしてPDF化するときに使っている設定を紹介します。

私は本をスキャンして文字認識を行い、文字列検索を行う目的でPDF化しています。紙の本のままだと、ある単語が出現する全てのページを調べたいときに、いちいち全てのページを目視で見ていくしかありません。

索引が無い本もありますし、そもそも索引があったとしても適当なものしかない場合がほとんどです。ですので、一番良い方法は本をいったんスキャナでPDF化し、それを画像認識によってテキストを含ませるという方法です。これならPDF化されたのをAdobe Readerなどで開いて、全文検索を行うことができます。

その画像認識を行ってテキスト認識をするときに重要なのがスキャナの設定です。画像認識は白黒かつ解像度が高いほど、高い精度で認識を成功させることができます。画像認識は間違いも起こります。例えば私の経験ですと「瑕疵」は100%認識されません。これは常用外漢字だからでしょう。

また画像の品質が悪いと、本来1つの漢字が2つに分割されてしまうことも起きます。村が木寸と読み取られるなどです。

そういったエラーをなるべく減らすための設定を紹介します。

私はBrother工業のスキャナつきプリンタを使っています。BrotherのスキャナではControlCenter3というソフトウェアを使ってスキャンを行います。

ControlCenter3を起動したら、右上の「設定」をクリックし、「スキャン」→「ファイル」を選びます。

「ControlCenterの設定」タブを選択し、

「ファイル名」はCCFなどの適当な名前でOKです。

「スキャン每に名前をつける」のチェックボックスははずしておきます。

「ファイル形式」はPDF(*.pdf)です。

「保存先フォルダ」は管理しやすい適当なフォルダを選びます。私はSSD上にしています。

「保存先フォルダを開く」はチェックをしません。

「プレビューを行う」もチェックをしません。

「解像度」は600dpiで、「色数」は白黒です。

「原稿サイズは」本によって変えます。普通の専門書なら見開きでA4になります。

少し大きめの本はたいていB5なので、片ページずつスキャンするならJIS B5。見開きでスキャンするならB4です。

悩ましいのは新書サイズでして、これはJIS B5サイズでスキャンすると縦は収まりますが、横がスキャナの方が大きいのですこし余った画像になってしまいます。

この設定を使うことでBrother製のスキャナプリンタでスキャンすることができます。