本の自炊手順メモ - はっしゅろぐ

自分用に本の自炊手順をメモしておきます。今まで200冊ほど自炊しましたが間が空くと忘れていくのでそろそろやり方を確立させたい。

環境・設備

f:id:hush_in:20190108103004p:plain

Mac
スキャナー：ScanSnap S1500M
FUJITSU ScanSnap S1500M FI-S1500M (Macモデル)
- 出版社/メーカー: 富士通
- 発売日: 2009/02/07
- メディア: Personal Computers
- 購入: 14人クリック: 767回
- この商品を含むブログ (58件) を見る
- 5年前から使っているけどまだ使えます
- 漫画のようにページ数が多い場合、本などで底上げしておくと排出した紙を毎回取らなくて便利。
- スキャン結果が汚れたと思ったら掃除する。埃はスライムっぽい掃除用具が取りやすかった。スキャン部分にノリがついたときはウェットティッシュでこすったらきれいになった（正しい対処方法かは不明）。
裁断機
- DURODEX 200DX
  DURODEX 自炊裁断機ブラック 200DX
  - 出版社/メーカー: DURODEX
  - メディア: オフィス用品
  - 購入: 4人クリック: 54回
  - この商品を含むブログを見る
  - 最近買いました。お値段するけど厚めの本もバサバサ切れるので気持ちがいい。
- CARL DC-210N
  カール事務器裁断機ペーパーカッター A4対応 40枚裁断 DC-210N
  - 出版社/メーカー: カール事務器
  - メディア: オフィス用品
  - 購入: 80人クリック: 1,016回
  - この商品を含むブログ (45件) を見る
  - 最初はこれだけでカットしていましたが、何度も分割する必要があり面倒。
  - 漫画の表紙など薄いものをまっすぐ切るときに便利。
他：本を分割する時などに使うもの
- カッターマット
- カッター
- 定規シンワ測定アル助ゴム付 300mm 65331
- ホチキス針リムーバー

ScanSnap の設定

読み取り設定を幾つか作っておきます。

漫画モノクロ
- 指定したフォルダに保存
- 画質：スーパーファイン・グレー・両面読み取り・継続読み取りを有効
  - オプション：白紙ページを自動的に削除しますのみチェック
- ファイル形式：PDF
- 原稿サイズ：サイズ自動検出
- マルチフィード検出：重なりで検出
- 圧縮率：２（標準より１弱い）
カラー表紙
- 漫画モノクロの画質をカラーにしたもの

この設定にした背景は以下の通り。あまり自動補正を信用しないようにしています。

カラーの自動判別をしない：モノクロのページでも黄ばんでいたりするとカラー判定されてしまうため。週刊誌の赤い紙も同様。
原稿の向きの自動補正をしない：漫画などイラストがあると向きが間違って判定されることがあるため。活字だけならオンにしても良さそう。向きが同じになるように揃えて入れれば問題なし。

手順

最初はタスクを分割していましたが、裁断した本の作業スペースが取られることに気づき、今は10冊程度まとまった単位で流すのがいいかなと思っています。

漫画の場合

表紙 + 冒頭にカラー + 残り全てモノクロの漫画を想定します。

表紙を外す
本を裁断、重なりがないかチェック
カラーページと表紙を外しておき、モノクロのページをスキャン。1冊ごとにpdf化する。
- 向きは始まりのページが下へ、頭から入るように縦向きにセット。
1.〜3.を10冊くらいまとまった単位で行う
表紙を裁断
表紙とカラーページをカラー設定でスキャン
PDFを結合する
ファイルをリネーム、ちゃんとファイルが結合されているかをチェック。結合済みフォルダへ。
問題なければスキャン後の生のpdfファイルを別フォルダへ。問題なさそうならゴミ箱へ。
（一定期間保持した後）裁断済みの本を縛って古紙回収へ

文庫本など

ファイルサイズを軽くしたい・ビューアーの負担を軽減したい場合、Adobe Acrobatのテキスト認識→PDFの出力形式：ClearScan でファイルを変換して、別名保存。（原本のファイルは取っておく）

ファイルサイズが1/3〜1/4くらいになる。

PDFの結合

"/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" --output output.pdf input1.pdf input2.pdf というコマンドでPDFを結合できるらしいです。

参考 http://samurai20000.hatenablog.com/entry/20090815/1250340293

スキャンしたフォルダを lsすると、モノクロのファイル、カラーページのファイルの順で並んでいます。

ls -1
20171114193443.pdf
20171114193907.pdf
20171114194321.pdf
20171114194728.pdf
20171114195128.pdf
20171114195656.pdf
20171114200056.pdf
20171114200528.pdf
20171114201004.pdf
20171114201437.pdf
20171114202048.pdf
20171114202104.pdf
20171114202217.pdf
20171114202242.pdf
20171114202311.pdf
20171114202338.pdf
20171114202357.pdf
20171114202411.pdf
20171114202433.pdf
20171114202447.pdf

sublime textの矩形編集など使ってこれをコマンドが実行できるように整形する。

"/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" --output formatted/output`date "+%Y%m%d_%H%M%S"`.pdf 20171114202048.pdf 20171114193443.pdf
"/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" --output formatted/output`date "+%Y%m%d_%H%M%S"`.pdf 20171114202104.pdf 20171114193907.pdf
...

20190114追記 shell関数を定義しておくと便利

# fish での例
function joinpdf
  mkdir -p formatted
  "/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" --output formatted/output(date "+%Y%m%d_%H%M%S").pdf $argv
end

joinpdf 20171114202048.pdf 20171114193443.pdf
joinpdf 20171114202104.pdf 20171114193907.pdf
...

他の方法でもPDF結合できましたが、やりにくい点があったので今はコマンド実行に落ち着きました。

Adobe Acrobat：手作業で結合しなきゃいけないのとUIをぽちぽちやらなきゃいけなくて面倒。
Automator：自動化できたが、結合後のファイルサイズが結合前のファイル合計よりかなり大きくなっていてなにかがおかしかった。