2013年01月20日

[メモ] pdfカタログをダウンロードする方法

・あの製品が消える前に、カタログの情報を保存しておきたい!
・カタログの読みこみが遅いので、一気にダウンロードしてから見たい
・オフライン環境でカタログを読みたい!
ということでpdfカタログを保存する方法。

要は1ページずつpdfを保存する作業の手間を減らしているだけです。
pdfによるカタログではないサイト、pdfをダウンロードできないサイトは、webサイトをまるごと保存するソフトを使うのが良いでしょう。


文具系以外でも同じような形式のカタログを見かけますが、そのようなカタログは同じ方法で保存することができます。
(カタログ一括ダウンロード機能はないが、1ページずつならpdfでダウンロードできるカタログならこのやり方が使えます)

<手順>
0.カタログページを開き、pdfファイルのURLと規則性を調べる ("Firefox" + "HttpFox"を使用)
1.pdfを1ページずつ、全ページダウンロード ("Irvine"を使う)
2.ファイル名順に並び替えたとき、ページ順になるようにリネーム。("Flexible Renamer"を使う)
3.pdfファイルをファイル名順に並び替えてから結合する ("ConcatPDF"を使う)

<以下、詳しい説明>

*Irvine「URLを展開して貼り付け」用のURLメモ。
 2013/01/18日現在のものです。カタログが更新されたらページ数も変わってしまうと思うので参考程度に。

 ファイルサイズはかなり大きいです。各社200MB程度。サクラクレパス、コクヨは1GB越え。
・ぺんてる 2011-2012カタログ
http://pentel.imagestore.jp/catalog/pdf/[1-294].pdf

・パイロット 2012カタログ
http://dcs.mediapress-net.com/iportal/CatalogDownload.do?method=downloadPdfCatalogPage&volumeID=PLT12001&catalogID=2104890000&pageID=21[0655-1113]0000&designID=LINK_PLT&designConfirmFlg=&applicationPdf=true&annotXml=

・三菱鉛筆 2012-2013カタログ
http://dcs.mediapress-net.com/iportal/CatalogDownload.do?method=downloadPdfCatalogPage&volumeID=MBE10001&catalogID=1877550000&pageID=31[7695-8049]0000&designID=LINK_MBE&designConfirmFlg=&applicationPdf=true&annotXml=

・ゼブラ
http://dcs.gamedios.com/iportal/CatalogDownload.do?method=downloadPdfCatalogPage&volumeID=ZBR00001&catalogID=3110160000&pageID=311[020-279]0000&designID=ZBRD001&designConfirmFlg=&applicationPdf=true&annotXml=

・トンボ鉛筆 2013カタログ
http://dcs.mediapress-net.com/iportal/CatalogDownload.do?method=downloadPdfCatalogPage&volumeID=TMB11001&catalogID=3357820000&pageID=33[5785-6084]0000&designID=TMB01&designConfirmFlg=&applicationPdf=true&annotXml=

・サクラクレパス 2012カタログ
http://www.craypas.com/2012collection/books/images/pdf/00[001-372].pdf
※計1GB越え。画像が大きいわけでもないのにPDFのファイルサイズがやけに大きい。必要な部分だけを手動でDLしたほうがよかったか。

・コクヨ
http://dl.kokuyo.co.jp/digicata/2013/stationery/pdf/[1-757].pdf
※商品数が多く、計1.18GBとかさばるので全部は保存しなくて良いかも。コクヨはシャーペンラインナップはあまりありませんし。

・pdfタイプのカタログがないサイト:
ミドリ、ステッドラージャパン、セーラー万年筆、プラチナ万年筆、オートなど
※こういったサイトの製品情報を保存したい場合、サイトを丸ごと保存するソフトを使うのがよいでしょう。

・カタログがまるごとダウンロードできるので面倒な作業が不要な物:
ロットリング(ホルベインのサイトから)


0.<HttpFoxでpdfのURLを調べる>
 Firefoxでカタログページにアクセス。
 HTTPFoxのプラグインをインストールしておきます。
 ※HTTPFox
 https://addons.mozilla.org/en-us/firefox/addon/httpfox/
 
 HTTPFoxがインストールされているなら、右下のHTTPFoxアイコンをクリックするとHTTPFox窓が開きます。


 HTTPFox窓の開始ボタンを押して、通信ログの取得を開始します。


 PDFの最初のページを保存しようとしてみます。実際にダウンロードせず、保存しますか?と聞かれたらキャンセルします。(保存してしまっても良い)

 ※環境によっては保存しますか?と聞かれずにPDFがブラウザで表示されるかもしれません。
 利用規約の確認が出たら同意しておきます。
 
 HTTPFoxの通信ログで、application/pdfと表示されている行を選択。これがpdfをダウンロードしようとしたログ。
 ぺんてるやサクラクレパスは、URLの項目がそのままPDFファイルのダウンロード元になります。


 最初のページ、2ページ目、最後のページをダウンロード試行すれば、ファイル名の規則性がわかり、全ページ分のpdfのURLがわかります。

 URLの部分を右クリックすると、URLをコピーすることができます。
 

 例:サクラクレパスでは、
 http://www.craypas.com/2012collection/books/images/pdf/00001.pdf
 で始まり、
 http://www.craypas.com/2012collection/books/images/pdf/00372.pdf
 で終わるので、00001.pdf、00002.pdf、00003.pdf、...00371.pdf、00372.pdfを全てダウンロードすればよさそうです。

 http://www.craypas.com/2012collection/books/images/pdf/00[001-372].pdf
 とすれば、Irvineの「URLを展開して貼り付け」で全てのページのURLに展開されます。。

 mediapress系は少し面倒。以下mediapress系の解説。
 「POSTデータ」タブを開き、表示形式を「未加工」にします。


 URLの文字列と、「POSTデータ」の文字列を?でつなげると、pdfダウンロード元のURLになります。
 三菱鉛筆の場合は、
 http://dcs.mediapress-net.com/iportal/CatalogDownload.do
 と、
method=downloadPdfCatalogPage&volumeID=MBE10001&catalogID=1877550000&pageID=3176950000&designID=LINK_MBE&designConfirmFlg=&applicationPdf=true&annotXml=
 をつなげて、
 http://dcs.mediapress-net.com/iportal/CatalogDownload.do?method=downloadPdfCatalogPage&volumeID=MBE10001&catalogID=1877550000&pageID=3176950000&designID=LINK_MBE&designConfirmFlg=&applicationPdf=true&annotXml=
 となります。

 カタログの次のページも同じように保存を試みて、pdfダウンロード元のURLを調べます。

 http://dcs.mediapress-net.com/iportal/CatalogDownload.do?method=downloadPdfCatalogPage&volumeID=MBE10001&catalogID=1877560000&pageID=3176960000&designID=LINK_MBE&designConfirmFlg=&applicationPdf=true&annotXml=
 となるはずです。pageIDの上6ケタ目の数字が1増えただけですね。
 つまり、三菱鉛筆カタログの場合は、pageIDの上6ケタを1ずつ増やしていけば全ページのpdfを取得できると想像がつきます。
 
 あとは、何ページ目で終わるか調べればよいので、カタログの最終ページのpdfを保存しようとしてみます。


 http://dcs.mediapress-net.com/iportal/CatalogDownload.do?method=downloadPdfCatalogPage&volumeID=MBE10001&catalogID=1877550000&pageID=3180490000&designID=LINK_MBE&designConfirmFlg=&applicationPdf=true&annotXml=
 pdfダウンロード元はこのようになっているはず。最終ページのpageIDは3180490000だということがわかります。
 
 つまり、pageIDの部分だけを変えて、
 pageID=3176950000、pageID=3176960000、pageID=3176970000、...、pageID=3180480000、pageID=3180490000
 とダウンロードしていけば、三菱鉛筆カタログの全ページをpdfで保存することができそうです。

 さて、全ページのPDFのURLがわかったといっても、手動でURLをタイプしたり、1枚ずつPDFを保存していく作業などやっていられません。
 そこでダウンロード用のソフトを使います。



1.<Irvineでファイルをダウンロード>
左ツリーの「デフォルト」フォルダを右クリックして、「フォルダ設定」を選択します。


ファイルの保存先を選択します。
新しいカタログを保存するときは変更します。
カタログpdfは別企業でも似たファイル名が多いので、同一フォルダに保存すると混ざってどれがどれだかわからなくなるので。


上部メニューの「編集」→「URLを展開して貼り付け」。
URLは上記の方法で調べ、Irvineで展開できる形式で書いておきます。代表的な企業の物は「URLを展開して貼り付け」用のURLメモに書いておきました。


別ウィンドウで、展開されたURL一覧が表示されるので、
別ウィンドウの上部メニューの「実行」→「ダウンロード登録」。


あとはpdfが自動的にダウンロードされていきます。



2.<ファイル名を修正する>
※mediapress系は元からファイル名順=ページ順になっているのでこの手順は飛ばしてよいです。

ファイル名順に並び替えたときに、きちんとページ順に並ぶようにファイル名を変更します。
後で使うpdf結合ソフトはファイル名順にしか並べられないので、ファイル名の順番=ページの順番、にする必要があるからです。

たとえば、"1.pdf"から始まり"231.pdf"で終わるファイル群をそのまま結合すると、表紙をめくると目次もなくボールペンが出てくるような、めちゃくちゃなページ順になってしまいます。
(ファイル名順に並び替えると1.pdf、2.pdf、3.pdf..ではなく、1.pdf、10.pdf、11.pdf、12.pdfというような並び順になるため)

↓例)ぺんてるカタログのファイル群



なので、001.pdf、002.pdf, ... 231.pdfとなるように、ファイル名を変更します。
Flexible Renamerでpdfの入っているフォルダを選び、「数値の整理」→「末尾からn番目の数値の桁合わせ」という項目を選んで「リネーム」ボタンを押せばOK。

※Flexible Renamerのダウンロード元
http://www.vector.co.jp/soft/winnt/util/se131133.html



↓ぺんてるカタログファイルのリネーム後




3.<ConcatPDFで、PDFを1ファイルにまとめる>
ConcatPDFをPDFの結合に使います。このソフトが良いのは以下の2点。
・ファイルをファイル名順に並び変えることができる。
・拡張子が.pdfでなくても読みこめる。類似ソフトでは読みこめない物があった。

※ConcatPDFのダウンロード元
http://www.ujihara.jp/ConcatPDF/ja/

ダウンロードしたPDFファイルを、ConcatPDFの窓にドラッグ&ドロップします。

↓ドラッグ&ドロップした状態

そのままだと、ファイルがファイル名順に並んでいません。(赤枠で囲んだ部分)

そこで画面上部の"FileName"の部分をクリックします。ファイル名順に整列されます。


ファイル名の逆順に並び変えられてしまったら、もう一度"FileName"の部分をクリックするとファイル名順になります。
この手順を忘れるとページの順番がめちゃくちゃに・・・。

上部メニューの"ファイル"→"名前をつけて保存"で好きな名前で保存します。

あとはダブルクリックして保存したpdfを開き、きちんと結合できているか確認します。



これで完了です。おつかれさまでした。
結合された状態でまるごとダウンロードできる方法があったらいいなあ。


*PDF結合ツールのメモ
試したフリーのPDF結合ツールでは、どれもぺんてる社史が結合できなかった。理由不明。
フリーのpdf結合ツールは大抵iTextライブラリを使っているのでツールを変えても肝心な部分はほぼ同じなのかもしれない。

以下試したもの
・ConcatPDF - 拡張子がpdfでなくても認識してくれる。ファイル名順でソートできる。わかりやすい。試した4つの中では一番よかった。iTextSharp。

・PDForsell - 不要ソフトインストールのない2.2を使用。一番駄目だった。一括ソートできず、順番を並び変えるのに何度もボタンを押す必要がある。いちいちpdfの内容を表示するため重い。現行バージョンではKingsoft Office、Yahooツールバーなど、邪魔ソフトのインストールを要求してくる。拡張子がpdfでないと認識しない。拡張子pdfだが中身はpdfではないファイルをドロップすると、『使用中のファイルなので保存できません』という的外れなエラーメッセージが出た。iTextSharp。

・pdfpdfpdf - ConcatPDFとほぼ同じ。しかし拡張子がpdfでないとpdfファイルと認識しないので今回の用途には向かない。新しめのバージョンのPDFは結合できないらしい。(破損と表示される)。iText系ではなさそう

・PDF Split and Merge basic - ソートできる。一応結合もできたが、指定と異なる名前で保存されていた。結合失敗時のエラー音が独特で初めはエラー音だと気付かなかった。よくわからないソフト。他のツールに比べて表示されるデータが多い。ファイル名だけでなくファイルパスやバージョンも表示される。iText。
posted by masati at 00:59 | Comment(1) | TrackBack(0) | メモ