Project Gutenberg は小説や詩、論文、教養書、演説原稿などなどなど、著作権切れあるいは著作権のないテキストの一大データベース。主にはやはり英語だが、他の諸言語のデータもそこそこある。
しかたなくそのまま解析したりなんかすると、最もよく使われている単語として the の次に gutenberg が来る、とかいう事態に陥る。
ま、それはともかく、無い物ねだりしても仕方ないので、Project Gutenberg のテキストファイルから本文(というか本体かな)を抽出するコードを書いてみた。
[1/6 またちょっぴり更新]
def extract_gp_body(st) text = st.gsub(/[ \r]+$/, "") + "\n\n" text.gsub!(/<-- .+? -->/m, "") text.gsub!(/<HTML>.+?<\/HTML>/mi, "") r = /http|internet|project gutenberg|mail|ocr/i while text =~ /^(?:.+?END\*{1,2} ?|\*{3} START OF THE PROJECT GUTENBERG E(?:BOOK|TEXT).*? \*{3}|\*{9}END OF .+?|\*{3} END OF THE PROJECT GUTENBERG E(?:BOOK|TEXT).+?|\*{3}START\*.+\*START\*{3}|\**\s*This file should be named .+|\*{5}These [eE](?:Books|texts) (?:Are|Were) Prepared By .+\*{5})$/ pre, post = $`, $' text = if pre.length > post.length*3 then pre elsif post.length > pre.length*3 then post elsif pre.scan(r).length < post.scan(r).length pre else post end end text.gsub!(/^(?:Executive Director's Notes:|\[?Transcriber's Note|PREPARER'S NOTE|\[Redactor's note|\{This e-text has been prepared|As you may be aware, Project Gutenberg has been involved with|[\[\*]Portions of this header are|A note from the digitizer|ETEXT EDITOR'S BOOKMARKS|\[NOTE:|\[Project Gutenberg is|INFORMATION ABOUT THIS E-TEXT EDITION\n+|If you find any errors|This electronic edition was|Notes about this etext:|A request to all readers:|Comments on the preparation of the E-Text:|The base text for this edition has been provided by).+?\n(?:[\-\*]+)?\n\n/mi, "") text.gsub!(/^[\[\n](?:[^\[\]\n]+\n)*[^\n]*(?:Project\sGutenberg|\setext\s|\s[A-Za-z0-9]+@[a-z\-]+\.(?:com|net))[^\n]*(?:\n[^\[\]\n]+)*[\]\n]$/i, "") text.gsub!(/\{The end of etext of .+?\}/, "") text = text.strip + "\n\n" text.gsub!(/^(?:(?:End )?(?:of ?)?(?:by |This |The )?Project Gutenberg(?:'s )?(?:Etext)?|This (?:Gutenberg )?Etext).+?\n\n/mi, "") text.gsub!(/^(?:\(?E?-?(?:text )?(?:prepared|Processed|scanned|Typed|Produced|Edited|Entered|Transcribed|Converted) by|Transcribed from|Scanning and first proofing by|Scanned and proofed by|This e-text|This EBook of|Scanned with|This Etext created by|This eBook was (?:produced|updated) by|Image files scanned in by|\[[^\n]*mostly scanned by).+?\n\n/mi, "") return text end
というわけで Ruby コードだが、そんなにトリッキーなことはしていないので他の言語に移植するのは難しくないだろう。
これでも 100% にはまだまだ遠いのだが、Project Gutenberg で配布されている August 2003 CD (2003/8 時点での収録作品から主に名作を中心に厳選された約 600 作品をまとめた ISO イメージ)に収められているテキストについては 98% くらいの精度で抽出できた。
Newsweek から 500 記事とってきて解析したりとか、なんか最近そんなことばかりやってるねー、というあたりは遠からずお見せできるかも?