青空文庫の続き物を1冊の Kindle フォーマットにする

gunosytwitter アカウントをひもづけてここ何ヶ月か使っているが、出てくるのはなぜか電子書籍ラノベやソシャゲの話題ばかり(たまに数学や教育)で、自然言語処理機械学習の記事をお勧めされることはまずほとんどない。
お勧めされる記事に興味がないわけではないけど……ねえ。


でもまあそういうことなら、gunosy に興味あると認識されている電子書籍ネタで記事でも書きましょか、ということで Kindle青空文庫の続き物を読む方法。


青空文庫で公開されている書籍を Kindle 化したものは Amazon.co.jp にて無料で買える。
けど、amazon の変換は機械的に「青空文庫の1データ→1書籍」であり、一方の青空文庫は短編それぞれも全部1データとして扱う方針なため、Kindle の中は大量の書籍であふれることになる。例えば寺田寅彦とか読み始めようものなら、もう大変。
これでせめて Kindle のユーザインターフェースが使いやすければ良かったのだが、それはすばらしいというよりどちらかと言えば××なので、大量の書籍がある状態というのはストレスしかない。
まあ、paperwhite などは容量が 1GB ちょいしかないわけで、大量の書籍を放り込むことは最初から考えられていないのだろう。
それでも宮沢賢治のように「たくさんあるけど、それぞれ独立」ならまだ気楽でいいのだが、半七捕物帳のような連作短編とか、与謝野晶子訳の源氏物語のような長編が章別にデータ化されているものとかだと当然順番通りに読みたいところ。でもそれを Kindle で読むのは「こんなにめんどくさいなら、読まなくてもいいや」と思ってしまうくらいめんどくさい。


この問題の一番お手軽な解決方法は、青空文庫のそのような作品を1書籍にまとめたものが KDP でだいたい99円だか100円だか300円だかで売っているので、それを買うというもの。
これでいい人はぜひこの方向で解決して、電子書籍市場の活性化に寄与してもらえればと思うわけだが、いやいや青空文庫をまとめただけのものにお金払いたくないよ〜(正直!)とか、目に付くあたりはだいたいまとめ書籍が作られているもののまだ KDP 化されていない作品を読みたいとか、自分の好きな作品をまとめたオレオレ選集が欲しいとか、そういうとき。


AozoraEpub3 というすばらしいツールがあって、これは青空文庫の1データを epubKindle 用のフォーマットに変換してくれる(mobi ファイル生成にはさらに kindlegen が必要)。

AozoraEpub3
https://w.atwiki.jp/hmdev/

:kindlegen:http://www.amazon.com/gp/feature.html?ie=UTF8&docId=1000765211
【追記】Kindle が epub3 をサポートしたので、kindlegen は配布終了したようです。【/追記】

使い方はここでは説明しないが、とても簡単。ちょっとインストール&設定すれば、あとはファイルまたは URL をドロップするだけ。
例えば、今年著作権が切れたばかりの作品はまだ amazon.co.jp で提供されていないようなので、中谷宇吉郎の「雪」とか読みたかったら AozoraEpub3 で自分で変換するといい。あるいは、青空文庫で校正待ちのまま公開される気配のない坂口安吾の「不連続殺人事件」がこちらのページにて公開していただけているのも、AozoraEpub3 を使えば Kindle で読める。
と、このようにとても便利な AozoraEpub3 なのだが、残念ながら複数の青空文庫を1書籍にまとめてくれる機能はまだない(対応予定はあるっぽい)。「小説家になろう」などのサイトで公開されている連載作品を1書籍にまとめてくれる機能はあるんだけどね……。


そこで、複数の青空文庫を AozoraEpub3 に食わせられる1つのテキストファイルにまとめてくれるスクリプトを書きました、というのが本題。

concatAozora.py
https://gist.github.com/shuyo/5394863

青空文庫のサイトで1つにまとめたい作品のテキストを圧縮した zip ファイルをそれぞれダウンロードしておいて、この concatAozora.py に渡すと、それを1つにまとめた output.txt を吐き出してくれる。作品ごとに改頁する AozoraEpub3 のタグも入っているので、これを AozoraEpub3 に食わせればさっくり電子書籍フォーマットに変換してくれる。
amazon で売っている Kindle 書籍でも TOC がちゃんと入ってなくて、移動メニューから各章の頭にナビゲーションしてくれないなんてこともざらにあるが、こうして作った mobi ファイルはそこらへんもちゃんとしているので、短篇集を作ってもちゃんとお目当ての作品を読むことができる、はず。


まだ坂口安吾安吾捕物帖と岡本綺堂の半七捕物帳、与謝野晶子訳の源氏物語くらいしか試していないのだが、青空文庫のフォーマットは非常にきれい&厳格に守られているので(Project Gutenberg と大違い!w)、おそらくほとんどの作品について大きな問題は出ないんじゃあないかなあ。