本の自炊手順メモ

自分用に本の自炊手順をメモしておきます。 今まで200冊ほど自炊しましたが間が空くと忘れていくのでそろそろやり方を確立させたい。

環境・設備

f:id:hush_in:20190108103004p:plain

ScanSnap の設定

読み取り設定を幾つか作っておきます。

  • 漫画モノクロ
    • 指定したフォルダに保存
    • 画質:スーパーファイン・グレー・両面読み取り・継続読み取りを有効
      • オプション:白紙ページを自動的に削除します のみチェック
    • ファイル形式:PDF
    • 原稿サイズ:サイズ自動検出
    • マルチフィード検出:重なりで検出
    • 圧縮率:2(標準より1弱い)
  • カラー表紙
    • 漫画モノクロの画質をカラーにしたもの

この設定にした背景は以下の通り。あまり自動補正を信用しないようにしています。

  • カラーの自動判別をしない:モノクロのページでも黄ばんでいたりするとカラー判定されてしまうため。週刊誌の赤い紙も同様。
  • 原稿の向きの自動補正をしない:漫画などイラストがあると向きが間違って判定されることがあるため。活字だけならオンにしても良さそう。 向きが同じになるように揃えて入れれば問題なし。

手順

最初はタスクを分割していましたが、裁断した本の作業スペースが取られることに気づき、 今は10冊程度まとまった単位で流すのがいいかなと思っています。

漫画の場合

表紙 + 冒頭にカラー + 残り全てモノクロ の漫画を想定します。

  1. 表紙を外す
  2. 本を裁断、重なりがないかチェック
  3. カラーページと表紙を外しておき、モノクロのページをスキャン。1冊ごとにpdf化する。
    • 向きは始まりのページが下へ、頭から入るように縦向きにセット。
  4. 1.〜3.を10冊くらいまとまった単位で行う
  5. 表紙を裁断
  6. 表紙とカラーページをカラー設定でスキャン
  7. PDFを結合する
  8. ファイルをリネーム、ちゃんとファイルが結合されているかをチェック。結合済みフォルダへ。
  9. 問題なければスキャン後の生のpdfファイルを別フォルダへ。問題なさそうならゴミ箱へ。
  10. (一定期間保持した後)裁断済みの本を縛って古紙回収

文庫本など

ファイルサイズを軽くしたい・ビューアーの負担を軽減したい場合、Adobe Acrobatのテキスト認識→PDFの出力形式:ClearScan でファイルを変換して、別名保存。(原本のファイルは取っておく)

ファイルサイズが1/3〜1/4くらいになる。

PDFの結合

"/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" --output output.pdf input1.pdf input2.pdf というコマンドでPDFを結合できるらしいです。

参考 http://samurai20000.hatenablog.com/entry/20090815/1250340293

スキャンしたフォルダを lsすると、モノクロのファイル、カラーページのファイルの順で並んでいます。

ls -1
20171114193443.pdf
20171114193907.pdf
20171114194321.pdf
20171114194728.pdf
20171114195128.pdf
20171114195656.pdf
20171114200056.pdf
20171114200528.pdf
20171114201004.pdf
20171114201437.pdf
20171114202048.pdf
20171114202104.pdf
20171114202217.pdf
20171114202242.pdf
20171114202311.pdf
20171114202338.pdf
20171114202357.pdf
20171114202411.pdf
20171114202433.pdf
20171114202447.pdf

sublime textの矩形編集など使ってこれをコマンドが実行できるように整形する。

"/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" --output formatted/output`date "+%Y%m%d_%H%M%S"`.pdf 20171114202048.pdf 20171114193443.pdf
"/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" --output formatted/output`date "+%Y%m%d_%H%M%S"`.pdf 20171114202104.pdf 20171114193907.pdf
...

20190114追記 shell関数を定義しておくと便利

# fish での例
function joinpdf
  mkdir -p formatted
  "/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" --output formatted/output(date "+%Y%m%d_%H%M%S").pdf $argv
end
joinpdf 20171114202048.pdf 20171114193443.pdf
joinpdf 20171114202104.pdf 20171114193907.pdf
...

他の方法でもPDF結合できましたが、やりにくい点があったので今はコマンド実行に落ち着きました。

  • Adobe Acrobat:手作業で結合しなきゃいけないのとUIをぽちぽちやらなきゃいけなくて面倒。
  • Automator:自動化できたが、結合後のファイルサイズが結合前のファイル合計よりかなり大きくなっていてなにかがおかしかった。