言葉のデータベースで遊んでみよう、Google Books Ngram Viewer

科学雑誌『Science』1月14日号に掲載された論文によると、米ハーバード大学の数学者チームは、グーグルブックのもつ1500万冊(既刊総書籍の12%)の書籍スキャンデータの3分の1を使い、1800年から2000年の間に出版された書籍に出現する5000億単語を解析し、各単語の出現頻度をデータベース化したという。

そのデータベースをもとに作成されたのがBooks Ngram Viewerだ。

Ngramとは、N個の連続した単語からなる言葉のことで、データベースではN=5までで、出現頻度が40回以上の言葉に制限されている。それでも結構楽しめる。例えば、日本人でノーベル文学賞を受賞した川端康成氏と大江健三郎氏の名前の出現頻度を見る限り、村上春樹氏の名前の出現頻度は、彼が近々受賞するに値する十分な知名度を得ていることが見て取れる(グラフ)。

畑は違うが、ノーベル医学生理学賞を受賞した利根川進氏も同程度の知名度を得ている。意外なのがノーベル文学賞候補にも挙がったことがあると非公式に言われている三島由紀夫氏だ。彼の知名度は、他の4人と比べても群を抜いて高いのに受賞には至らなかった。やはり選考基準は、知名度だけではないようだ。

今回の論文の共著者で、ハーバード大学学部生!のAdrian Veres氏は、このデータベースを使って、最も有名な科学者(心理学を含む社会科学者は除く)のリストを作った。知名度の単位milliDarwins(ミリダーウィン)は、進化論で有名なチャールズ・ダーウィンの知名度を1000とした時の相対的知名度だ。リストによれば、1800年から2000年までの間で最も有名だった科学者はバートランド・ラッセルで、その知名度は1500ミリダーウィン、2番目がチャールズ・ダーウィンご本人で、知名度はもちろん1000ミリダーウィン、3番目が相対性理論のアルバート・アインシュタインで878ミリダーウィンと続く。彼らの知名度の変遷をBooks Ngram Viewerで見てみるとこうなる(グラフ)。

彼らの中では、先ほどの三島由紀夫氏もちょっと影が薄いようだ。この有名科学者リストを元に作成されたこんなムービーもある。時代とともに現れては消える科学者を俯瞰するには手っ取り早いかもしれない。

(神無 久:サイエンスあれこれ

■関連リンク
言語の系統解析 | スゴモリ

Bookmark and Share

関連プロダクトクラウド