Google Ngram Viewer | http://books.google.com/ngrams
Google在2005年开始
Google Books Library Project项目,试图囊括自现代印刷术发明以来的全世界所有的书刊。至2012年,已完成超过520万本书,包含5千亿个单词。
Google Books Library Project与Googles Partner Program共同组建成广为人知的
Google Books。
Google对书籍的处理不仅是扫描,还进行了数字化(
Digitizing)与数据化(
Datafication),这样就巧妙地避开大多版权问题。庞大的数据库甚至孕育了一个新学科(
Culturomics)的成立。
Ngram就是借用这个庞大的数据库开发的小工具,它有什么功能呢?
----------------------------
比如,想知道thrive的过去式应写作thrived还是throve,在Ngram里输入这两个词,得到下图。
看图的最左端,1900年出版的书刊中,throve出现的个数占该年全部书刊的词汇总量的0.00006%,而thrived是0.00004%,岁月流逝,thrived越来越受到亲睐。今天,书刊中基本见不到throve了。
试一下Influenza (流感),发现在1920年、1930年、1960年出现了三个波峰。这与“1918大流感”、“亚洲流感”等历史事件吻合。
看一下全球气候,发现sea levels (海平面)、atmospheric CO2(大气中二氧化碳), global temperature(全球气温)这三个词的热度在近50年飞速增长。
各个行业的热度呢?发现制造业在走下坡路,这说明社会在进步,不是吗?
我们可以发掘地更深些。
举一个例子。限定英文书籍数据库,搜索一位名为Marc Chagall的艺术家,是一条上升的曲线,知名度越来越高,是正常的。
但是,德语书籍数据库中的曲线在1933-1945年出现了异常的低谷。为什么呢?
原来Marc是犹太人,在特殊的年代他的名字被和谐了。
再来一个例子,拿下图最右边绿色的这条线来说,人们到80年代末才开始疯狂地谈论“1990”,过了90年代中期,热度慢慢降低。对比不同的曲线,越后期的曲线在过了峰值后下降得越快,说明什么?社会节奏加快,人们更快地失去对过去的兴趣。
当然,Google也扫描了英文外的很多语言,包括简体中文。
--------------------------------补充信息------------------------------
Ngram源自计算机语言n-gram目前收录的语种包括但不限于:美式英语,英式英语,法语,德语,西班牙语,俄罗斯语,希伯来语,汉语。Ngram Viewer收录的单词或短语需满足一项要求:该词或短语在某年出版的超过40本书中出现过,才会有该年该词的数据点。数据进行了标准化处理来削弱某些年份某些书印数过多对结果的影响。
Culturomics这个词第一次出现是2010年,一篇刊登在Science的文章Quantitative Analysis of Culture Using Millions of Digitized Books,作者是哈佛大学的Jean-Baptiste Michel 与 Erez Lieberman Aiden。而这两位也参与了Google Labs的Google Ngram Viewer项目。Culturomics(文化组学)这个新词来源于Genomics(基因组学),后者研究人类基因组,文化组学通过定量分析数字化文本研究人类行为和社会文化发展,研究者数据挖掘大量数字化信息,探寻反映在语言和文字中的社会文化现象。
在一个名为Culturomics 2.0的项目中,Kalev H. Leetaru分析包含印刷品和媒体信息的数据库,限定透露出语气、情感和地理信息的词汇。该项研究追溯性预测到2011年阿拉伯之春事件,并成功地预测Osama Bin Laden的生前所在地,误差在124英里以内。Alexander M. Petersen在其2012年所著的一篇论文中声称,他们发现了“词汇的产生和消亡的显著变化”:消亡得更快,产生得更慢。作者还发现了一个普适的新词生命周期的“临界点”:在其产生的30到50年之后,要么写入字典,要么消亡。
---------------------------
第一次得知Ngram是来自于一个TED演讲,以上诸多案例也来源于此。
Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books其他参考文献
CulturomicsGoogle Books Library ProjectGoogle Ngram Viewern-gram