hsimyu's diary

ゲームなどをします。

1/31 本を自炊する

引っ越し先も決まったので書籍の電子化に勤しんでおります。昨日と今日で合計100冊くらい。(全体で300冊くらい?)

漫画は(本として残しておいてもいいかなという分を除いて)だいたい電子化できたけど、大量にある文庫には全然手をつけられていない。

 

バーザムに「自炊ブログ書いてほしい」って言われたので、とりあえずどんな感じで本が電子データになるのかを紹介します。

これは本です。とりあえず表紙を外します。

 

本体が分厚い場合は半分に分割します。

カッターで刃を入れるだけで割りとすぐ切れます。

切り口が汚いのですが、どうせ裁断機で糊ごと落とすので気にする必要はありません。

 

表紙カバーも処理していきます。

折り目をつけて、

表紙と背を分割します。

更に袖を落とします。この時は、前の手順で2つに切ったやつを重ねて一緒に切っています。

4つになります。背の部分が背表紙側にくっついていますが、これは背だけを更に別で切ってしまうと、細すぎてScanSnapが正しく読み取ってくれないためです。

 

本体を裁断します。

これはDURODEXのDX200です。

一応切り口がLEDライトで確認できます(あまり見やすくはないです)

切れました。

 

原稿の処理が終わったので読み取ります。これはScanSnapのiX500というやつです。

下向き、裏返しで原稿を入れます。

文書用の読み取り設定はこんな感じです。このスクリーンショットを取った後にPDF読み取りで文字列傾き補正ONのがベターなことが分かったので、こいつはノットベターです。

読み取られていく様子です。

youtu.be

 

PDF読み取りの場合はこれでほぼ終わりです。

OCR(文字認識)についてですが、Adobe AcrobatScanSnapOCRを比べてみた感じだと、下記の点でScanSnapOCRの方が優秀そうにみえます。

  • 処理速度が早い
  • 表示テキストを置き換えようとしない
  • 認識精度が良い(段落が前後してしまったりはする)
  • 埋め込み位置がガタガタにならない

これで「梅原大吾 / 1日ひとつだけ、強くなる」をいつでもどこでも読めるようになりました。やったー!

1日ひとつだけ、強くなる。
 

 

漫画の場合

漫画の場合はカラー部はカラーで、それ以外はグレー(≠白黒)で読み取りたいので、JPEG読み取りのがベターです。

JPEG読み取りの場合はこんな感じに全原稿が別ファイルとして保存されます。

 

JPEG読み取りだと「文字列傾き補正」は使えないので、別の方法(eTilTran、えちるとらん)で傾きを修正します。

no722.cocolog-nifty.com

こんな感じ。これは漫画ではなくてウメハラです。

あとは出力された補正後ファイルをAcrobatで結合して終わります。

 

ちなみに文書をこちらの手順でやると、ScanSnapOCRが使えないためAdobe AcrobatOCRをかけることになります。ウメハラAcrobatOCRをかけると1冊20分程かかりました。(ScanSnapだと30秒程度)

 

ファイルサイズについてですが、

  • 漫画の場合: JPEG読み取り → 傾き補正して結合のがファイルサイズが小さい
  • 文庫等の場合: PDF読み取りした方がファイルサイズが小さい(白黒読み取りされるため?)

という感じです。文庫を画像で読み取った場合は処理手順を増やせば大幅に削減できそうではあります。

 

自炊wikiがあるみたいですが、あまり更新されてなさそうです。(最新の10件に2012年のログがある……)

自炊技術 Wiki*

 

以上です。

DURODEX 自炊裁断機 ブラック 200DX

DURODEX 自炊裁断機 ブラック 200DX

 
富士通 ScanSnap iX500 (A4/両面)

富士通 ScanSnap iX500 (A4/両面)