hsimyu's diary

ゲームなどをします。

3/6 書籍を1000冊自炊裁断して得た知見

はあはあ引っ越し前日になった。

1月末から自炊をひたすらやり続けて一昨日くらいに一区切り終わりました。1000冊弱。 正確には966冊で、あと34冊やらないと1000冊超えないのですが、残ったライトノベルは引っ越しのためにしまってしまったので一旦ここで終わりです。

内訳は

  • 料理本: 7冊
  • 新書: 30冊
  • ライトノベル: 234冊
  • 技術書・専門書: 128冊
  • 小説: 232冊
  • 漫画: 269冊
  • 看護系書籍(妻の持ってきた本): 27冊
  • ガイドブック: 5冊
  • 雑誌: 34冊

です。備忘録として書籍の種類毎にどんな違いを感じたのか、何を注意してたのか書いておきます。


やっておくべき準備

ロータリーカッターがあると良い

こういうやつ

オルファ(OLFA) セーフティロータリカッター L型 156B

オルファ(OLFA) セーフティロータリカッター L型 156B

  • 表紙を切るのに便利
  • 通常のカッターだとズレてしまいやすい

ScanSnapに書籍種ごとの読み取り設定を作っておく

このくらい用意して使い分けていました。

f:id:hsimyu:20180306151222p:plain

どれをどう使ってたかは後述。

Adobe Acrobatを契約する

  • 余分なページの削除
  • ページの回転
    • 折り込みのイラストページがあるラノベで必要
  • ページの結合
    • 別設定で読み取ったPDFを1つにする
    • ラノベのイラストページ等、傾き補正が暴走したページを再読み取りして修正したりもする

あたりができればなんでもいいですが、Acrobatが無難だと思います。

各書籍の処理方法

共通の前処理(表紙取り外し、厚い場合は半分にする、裁断する、表紙をカッターで分割する)は

hsimyu.hatenablog.jp

のとおりなので割愛します。 個人的な面倒さは、面倒な順に

  1. 黄ばんだライトノベル
  2. 4コマ以外の漫画(≒コマ割りがダイナミックな漫画)
  3. 黄ばんでないライトノベル
  4. 4コマ漫画
  5. それ以外

です。

技術書・教科書・カラーの多い新書

表紙、裏表紙: カラー自動判別、文字列傾き補正なし、PDF

文書部: カラー自動判別、文字列傾き補正あり、PDF

で読み取ってAcrobatで結合します。

ハードカバーの場合も多いので、そこは普通のカッターで切り落とします。 ハードカバー自体に表紙が印刷されているタイプはScanSnapで表紙読み取りができないので、普通に複合機とかで読み取ってあとで結合する必要があります。(ほとんどありませんが)

厚みについては、英語ペーパーバックの教科書とかだとたまに1000ページ超えのやつとかがあって4分割~8分割とかにしないと切れないんですが、だいたいは2分割で十分だと思います。

文書部の傾き補正はなくてもいいですが、補正した方が読みやすいことが多いです。

古い教科書等で黄ばみが強い場合は文書部のカラーを白黒固定にします。 黄ばんでない場合は基本的に勝手に白黒で読み込んでくれて、イラストがあるページだけグレーになります。

文庫: 小説(挿絵なし)、新書

こちらもほぼ前項と同じですが、文書部の設定は白黒固定にしてしまった方が楽です。

表紙: カラー自動判別、文字列傾き補正なし、PDF

文書部: 白黒、文字列傾き補正あり、PDF

文庫の場合の文字列傾き補正はかなり頼もしくて、読んでる際に角度が気になることはほぼないです。 ただ、章終わりとかで1ページに存在する文字数が1行に満たなかったりすると、たま~~~に暴走して大きく傾いてしまうことがあります。 その辺は、全体結合後にAcrobatのページを整理機能でサムネイルをザーッと見ておけば発見可能なので、発見した場合は傾き補正なしで読み取って挿入します。

文庫: ライトノベルなど挿絵ありの小説(黄ばんでない場合)

挿絵があるとかなり面倒になります。なぜならScanSnapの文字列傾き補正が挿絵ページを回転させてしまうことがあるからです。基本的な設定は

表紙、裏表紙: カラー自動判別、文字列傾き補正なし、PDF

文書部: カラー自動判別、文字列傾き補正あり、PDF

で読み取りをして、結合して目grepして、余計な傾きがあるイラストページを見つけたら

再読み取りイラストページ: カラー自動判別、文字列傾き補正なし、PDF

で読み取って、挿入します。すげえ面倒です。 そのかわり挿絵なしの一般小説をスキャンするのがとても楽しくなります。

また、出版社ごとの紙質によってやりやすさが変わって、

  • 電撃文庫: 特に問題なし
  • スニーカー文庫: 紙が薄いので黄色読み取りされやすい、読み取った後の順序入れ替わりやすい
  • MF文庫: 同じく順序が入れ替わりやすい
  • ファミ通文庫: 特に問題なし

みたいな違いがありました。 特にスニーカー文庫だと比較的新しくても黄色(カラー)読み取りになってしまうことがあって、次の項の通り最悪になります。

文庫: ライトノベルなど挿絵ありの小説(黄ばんでいる場合)

このタイプが最悪です。

黄ばみありの場合、カラー読み取りページと白黒読み取りページが混在してしまうため 文書部を白黒固定で読み取る必要があります。 しかしイラストページはグレーで読み取りたいため、以下のような手順を踏むことになります。

  1. 全ページを下記設定で読み取る。

    表紙、裏表紙: カラー自動判別、文字列傾き補正なし、PDF

    文書部: 白黒、文字列傾き補正あり、PDF

  2. PDFを結合
  3. サムネイルを見ながらイラストページを探し、対応する原稿を抜き出す
  4. イラストページを下記設定で読み取る

    イラスト部: グレー、文字列傾き補正なし、PDF

  5. 読み取ったイラストページ(グレー)をPDF末尾に追加し、余分に読み取られた非イラストページを削除する
  6. イラストページ(白黒)の位置に対応するイラストページ(グレー)を挿入して、白黒版を削除する

悲しい。

漫画

漫画は文庫に比べて傾きが気になりやすいんですが、ScanSnapでは文字列傾き補正しかできないため、別途傾き補正をすることになります。僕が使っていたのはeTilTranというやつで、

no722.cocolog-nifty.com

こちらで配布されています。

読み取り手順としては

表紙からカラーイラストページ終わりまで: カラー自動判別、文字列傾き補正なし、JPG

漫画部: グレー、文字列傾き補正なし、JPG

で読み取り、eTilTranでScanSnapフォルダを入力用として選んでページ毎に傾き補正します。

4コマ漫画など、枠がしっかりしている漫画

eTilTranは漫画の水平線/垂直線などを基準に傾きを推定するため、枠がしっかりしている漫画はかなり正確に補正してくれます。 この場合は特にやることがなくて、補正後に出てきたJPGをAcrobatで結合して終わりです。

バトル漫画など、枠がないページが多い漫画

この場合ちょっと面倒で、eTilTranの傾き計測が正しくないことが多いです。 初期設定ではスキャン後に計測値がそのまま補正値として設定されるのですが、計測された傾きが4度とかのあり得ない値が出てくることも多いので傾き補正の上限値を1.0度くらいに設定しておくと良さそうです。

この場合、補正値が上限を超えたページは補正値枠がハイライトされるので、計測値が大きい順にソートして、実際のページの補正前/補正後を見比べながら正しいそうな値を1ページ1ページ設定していきます。

この作業もかなり悲しいです。

eTilTranはあまり読み取り原稿全体の一覧性が良くなくて、どのページが極端に傾いている/補正によって逆に傾いてしまっているというのが分かりにくいです。この辺を改善した自炊人間用のアプリを開発して一発当てるぞ!(当たらない)

その他の知見

ScanSnapの読み取り部のお手入れが一番面倒

切り屑や、古本の値札の糊などが読み取り部に付着してしまって読み取り原稿に黒い/白い線がピーッと入ってしまっていることがあります。これは特に漫画の時に気になります。

無駄な再読み取りが発生するのを防ぐため、読み取り開始前後/連続でやっている時は5冊に1回くらいの間隔で、読み取り部を拭くようにしています。

カラーイラストに入る細かい線は諦める

ライトノベルや漫画の表紙後すぐにあるカラーイラストページは、白い線がほぼ不可避というくらい出てきます。 これはカラーページの質感の問題で、チリや切り屑がくっつきやすいことが原因と考えています。 切り屑を完全に掃除するのは無理なので、諦めた方が楽になります。また、細かい線などは数ページに渡って連続していなければ割りと気になりません。

切ったあとの原稿はゴミにしか見えなくなる

取っておきたくなるかな~と思ってたんですが、データとして読み取れちゃうと完全にゴミに感じます。 全部捨てました。 ページ結合後に一応全ページのサムネイルを眺めるようにしておくと、再スキャンしたいけどもう捨てちゃった!という事態がなくなりますので心置きなく捨てられます。

読み取り後の原稿の順番が入れ替わってしまっても気にしない

最初のうちは「再スキャンになったら大変だろうな」と思って原稿の順序が入れ替わったら直すようにしてたんですが、これは気にしない方が吉です。順序が入れ替わった原稿の再スキャンは一度も発生しませんでした。 そのため、再スキャンがもし発生した場合だけ原稿順番を整えてから行うようにした方が効率が良いと思われます。

ちなみに、読み取り後の順番が入れ替わってるのは結構すぐに分かります(排出原稿がどんどん下に潜り込んでいく時がある)。 スニーカー文庫は割りと最悪です。


こんなとこでしょうか。他に思いついたら追記するかもしれません。

引っ越すぞ~