当前位置:

Google 有哪些逆天的黑科技?

xiaoming 2023-12-14 28 0

Google Ngram Viewer | http://books.google.com/ngrams

Google在2005年开始

Google Books Library Project

项目,试图囊括自现代印刷术发明以来的全世界所有的书刊。至2012年,已完成超过520万本书,包含5千亿个单词。

Google Books Library Project与Googles Partner Program共同组建成广为人知的

Google Books

Google对书籍的处理不仅是扫描,还进行了数字化(

Digitizing

)与数据化(

Datafication

),这样就巧妙地避开大多版权问题。庞大的数据库甚至孕育了一个新学科(

Culturomics

)的成立。

Ngram就是借用这个庞大的数据库开发的小工具,它有什么功能呢?

----------------------------

比如,想知道thrive的过去式应写作thrived还是throve,在Ngram里输入这两个词,得到下图。

看图的最左端,1900年出版的书刊中,throve出现的个数占该年全部书刊的词汇总量的0.00006%,而thrived是0.00004%,岁月流逝,thrived越来越受到亲睐。今天,书刊中基本见不到throve了。

试一下Influenza (流感),发现在1920年、1930年、1960年出现了三个波峰。这与“1918大流感”、“亚洲流感”等历史事件吻合。

看一下全球气候,发现sea levels (海平面)、atmospheric CO2(大气中二氧化碳), global temperature(全球气温)这三个词的热度在近50年飞速增长。

各个行业的热度呢?发现制造业在走下坡路,这说明社会在进步,不是吗?

我们可以发掘地更深些。

举一个例子。限定英文书籍数据库,搜索一位名为Marc Chagall的艺术家,是一条上升的曲线,知名度越来越高,是正常的。

但是,德语书籍数据库中的曲线在1933-1945年出现了异常的低谷。为什么呢?

原来Marc是犹太人,在特殊的年代他的名字被和谐了。

再来一个例子,拿下图最右边绿色的这条线来说,人们到80年代末才开始疯狂地谈论“1990”,过了90年代中期,热度慢慢降低。对比不同的曲线,越后期的曲线在过了峰值后下降得越快,说明什么?社会节奏加快,人们更快地失去对过去的兴趣。

当然,Google也扫描了英文外的很多语言,包括简体中文

--------------------------------补充信息------------------------------

Ngram源自计算机语言n-gram目前收录的语种包括但不限于:美式英语,英式英语,法语,德语,西班牙语俄罗斯语,希伯来语,汉语。Ngram Viewer收录的单词或短语需满足一项要求:该词或短语在某年出版的超过40本书中出现过,才会有该年该词的数据点。数据进行了标准化

处理来削弱某些年份某些书印数过多对结果的影响。

Culturomics这个词第一次出现是2010年,一篇刊登在Science的文章Quantitative Analysis of Culture Using Millions of Digitized Books,作者是哈佛大学的Jean-Baptiste Michel 与 Erez Lieberman Aiden。而这两位也参与了Google Labs的Google Ngram Viewer项目。Culturomics(文化组学)这个新词来源于Genomics(基因组学),后者研究人类基因组,文化组学通过定量分析数字化文本研究人类行为和社会文化发展,研究者数据挖掘大量数字化信息,探寻反映在语言和文字中的社会文化现象

在一个名为Culturomics 2.0的项目中,Kalev H. Leetaru分析包含印刷品和媒体信息的数据库,限定透露出语气、情感和地理信息的词汇。该项研究追溯性预测到2011年阿拉伯之春事件,并成功地预测Osama Bin Laden的生前所在地,误差在124英里以内。Alexander M. Petersen在其2012年所著的一篇论文中声称,他们发现了“词汇的产生和消亡的显著变化”:消亡得更快,产生得更慢。作者还发现了一个普适的新词生命周期

的“临界点”:在其产生的30到50年之后,要么写入字典,要么消亡。

---------------------------

第一次得知Ngram是来自于一个TED演讲,以上诸多案例也来源于此。

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

其他参考文献

CulturomicsGoogle Books Library ProjectGoogle Ngram Viewern-gram

发表评论

  • 评论列表
还没有人评论,快来抢沙发吧~
您是本站第5322名访客 今日有1篇新文章