Google的伟大征程之二:知识图谱

Stella981
• 阅读 996

在上一章节《Google 的伟大征程之一:如何攀登移动互联网这座高山》中,我们看到了 Google 曾经的辉煌,如今隐隐显现的危机,以及自身不断做出的努力。在这一章节,我们将详细介绍它其中的一款具有战略性意义的产品:知识图谱。


三叉戟

Google 在大的方向推出了三个实质性的科技突破,正是这三者,将继续确保 Google的霸主地位。其一就是 Google 所开发的「知识图谱」(KnowlegeGraph),这是 Google 从世界范围内将数据进行全面整合之后的产品。一旦有了它,你就会更加深切、直观、全面地了解这个世界。其二则是 Google 的语音控制功能。辛格尔面向我,抬起他手腕上的三星智能手表给我说道:「为什么要开发这个功能?因为我无法在这款手表上打字。就是这么简单。后来我们觉得在预测人们想要问什么的背后是应该由一些成系统的学问的,所以我们又开发出来了 Google Now,这样人们不用老是问来问去了。」而 Google Now,就是第三款产品了。

知识图谱在一个超级大的数据库中重新整合世界的信息。语音搜索功能彻底将「说话」纳入到了搜索领域。而 Google Now 能够让人们在还没来得及提问的时候就已经给了人们想要的答案。这三者的出现绝对不是巧合,完完全全与 Google 瞄准移动互联网的发力有关。尽管整个公司研发战略上并不仅仅就包括这三者,但是我们已经看到了曾经的巨人,那个曾经只能给出「十行蓝色链接」的搜索引擎,单凭这三点内容就开始蜕变成另外的主宰者。它的功能表现不能再用计算机来形容,而更像是一个由信息组成的「智能蜂巢」,一个能够解读并且满足你的信息需求的强大工具。当你还没有注意到它的时候,它就已经布局完成。

知识视图的起源

在 2010 年,Google 收购MetaWeb 公司的时候,大家都没怎么注意。但是如今看来,当年的那次收购确确实实影响了如今搜索领域中很多重大的改进,在曾经简单的「十行蓝色链接」之上附加了丰富的类似于卷宗档案一样的内容,涉及人物、地点、物品等等,一应俱全。

MetaWeb 是当时著名的计算机科学家及创业者丹尼·希尔斯(Danny Hillis)在 2005 年创建起来的。他曾经的公司叫做 Applied Minds,在这个公司丹尼·希尔斯曾经开发了很多创新项目,然而其中有一个项目尤为让他觉得意义重大,以至于准备开设另外的一家公司独立运作这个项目,这也就是 MetaWeb 公司的起源。它于 2007 年创建。该公司在当时被称之为「语意网络」中进行首次重大探索

说这么学院派大家也许还是一头雾水,简单点儿来说,就是用某种方式将多个数据库进行加工,将其整合到一种格式中。在这个格式下的信息会非常容易解读,就像是所有的东西都被收集打扫到一个巨大的贮藏室里一样。希尔斯表示:「我们正在创建世界的数据库,一个能够容纳世界全部信息的地方。」鉴于那个时候 AppliedMinds 已经开始扫描互联网来提供问题的解答服务,不少人认为Metaweb 都是 Google 最强有力的竞争者。但是过了几年,该公司融资了 5000 万美金之后,希尔斯意识到他头脑中那个绝妙的、宏伟的想法只可能成为一个更加强大的公司中的一部分,它只能在那个公司的羽翼下才能破茧成蝶。那个公司,名叫 Google。

那个时候,其实 Google 也在为问题提供一些直接了当的答案。比如,如果你打美国总统巴拉克·奥巴马的生日,它很快就能响应,在搜索结果的最上方显示正确的日期:「1961 年 8 月 14 日」。但是,当 Google 在 2010 年的 7 月份,在其博客上宣布对 Metaweb 的收购时(其中也包括收购 Metaweb 的那包括了 1200 万条容纳人物、地点、事物信息的数据库),它的搜索引擎还没有回答复杂问题的功能。你如果打出类似的问题:「西海岸那些学费低于 3 万美金的学院有哪些?」又或者「至少获得一届奥斯卡奖,现在已经年过 40 岁的演员都是谁」,Google 是没有办法给出答案的。同时,Google 在博客上向外界宣布,对 Metaweb 的收购会有助于提升这个功能,届时 Google 将会针对这种极其复杂的问题给出非常准确的答案。

Google 曾经的产品经理艾米丽·莫克斯利(Emily Moxley)接受采访时表示:「当 Google 收购了 Metaweb 的时候,Google 是非常明白收集所有信息对于搜索是多么重要的一件事。在人们所关心的问题上,它能够给出最快的摘要和最准确的信息,这是最明智的选择,当时我们都是这么认为的。」

开始不断成熟的知识图谱及其背后的意义

在 2012 年 5 月,Google 推出了从 Metaweb 中衍生而来的东西,它的名字就叫做 Knowledge Graph(知识图谱),它从 1200 万个条目已经暴涨到了 5 亿个条目。这个产品会给你搜索的内容提供另外一种附加的衍生出来的结果。当你搜索某些关键词后,如往常一样下面出来了很多排列好的链接,但是在最右边,它会针对你所提供的关键词给出一组信息,这些信息与你所查询的词高度相关,往往对你来说更加有用。

那么到底哪些搜索字词能够触发这个知识图谱呢?哪些搜索字词值得触发呢?莫克斯利是这么解释 Google 的做法的,她拿在维吉尼亚州,位于 Rickmond 的洲际高速公路来做比方。如果是从东北方向而来,要去向弗罗里达州的游客们应该都知道,就在 Richmond 的北边,路线 95 的岔口那儿会有一个标示,告诉司机们你可以选择走南北方向的主干道,直接穿过市中心,又或者选择上 295 号线,这条线围绕城市一圈,然后再与 Richmond 南边的 95 号线汇聚起来。

具体到搜索领域,当你开始查询一个字词,Google 会将其扩展为具有高度相关性的一组字词还有同义词,然后对这些衍生出来的词语进行一次算法测试,看是否符合知识图谱上的结果。这就相当于提前在 295 号线上转了一圈,在选择 295 号线还是 95 号线的时候,系统已经给出了最具价值的路径,如果绕着 295 号线能看到更多有趣的风景,那么系统自然会给你呈现出知识图谱的相关内容了。

自 Google Search 将知识图谱完全整合进来之后的两年多的时间里,公司一直持续地改善这款产品。当然,Google 官方并不会说搜索字词到底有多少的比例会触发知识图谱的内容,但是大致上我们可以估计得出来应该起码有 25%。一开始,知识图谱只是一些简单的数据,但是这个产品开始不断的自我进化,复制了Google Search 中自我学习功能,开始分析用户的上网习惯。

举个例子吧。如果你询问:「谁在《星球炮弹》这部电影中扮演了 Barf 这个角色?」因为系统已经在你发问之前看到无数人都提出类似的问题,它就会自动给出一个图表,里面有演员的姓名 John Candy,电影名称还有演员的照片。你也可以自己去试试这个把戏,打出「某部电影里的某个角色是谁扮演的?」看看系统是多么快地给出答案。

知识图谱同样还在另外一个重要领域带来进步。那就是信息的及时性。鉴于 Google 往往是对一个问题仅仅提供一个正确的答案,那么这唯一的一个答案一定要保证是最新出现的,否则它就不可能称之为最正确的答案。由于信息的不及时所导致的后果,还不如用户压根不去搜索。莫克斯利表示:当知识图谱在 2012 年第一次出现之前,大众汽车如果决定聘请一名新的 CEO,系统估计需要两个星期的时间才能把这个消息反馈在互联网上;而如今知识图谱的出现,整个系统在处理接收这些新闻,做出及时调整上只需要几分钟就能做到。但是知识图谱并非能够满足所有人的需要。信息传递时也会出现误差。比如大众公司已经决定聘请某某成为新 CEO,可是这哥们儿在后面的几个月一直没有到位入职,所以知识图谱所显示的仍然是现任CEO 的信息,这对于很多想要查找新 CEO 信息的人们来说就极为不方便。

除此之外,知识图谱还在不断增加新的知识领域。最近它将汽车领域、视频游戏领域、雨果奖获奖人员信息全部纳入其中。Google 不仅仅满足于向人们提供简单的事实,它已经不再仅仅是追求更快的搜索相应速度,给出一些高度相关的信息,它要给出更加复杂,高度集合化的搜索结果。莫克斯利表示:「人们往往关心的不仅仅是事实本身。他们更关心一些主观的意见看法。比如这个电视剧是不是好看。这些意见会让知识图谱更上一层楼的。」这样做,似乎 Google 是不想让你觉得它只是一个随手一番的字典或者查询极其,它更想扮演一个天上地下无所不知的先知,不仅仅是了解天文地理这些客观的知识,不仅如此,这个先知还精通人世间所有的文化。

知识图谱目前也是存在短板和缺憾的

但是知识图谱还有相当长的路要去走。大家从知识图谱上所获得的满足催发出了更高的期待值,然而这些期待不断落空,转化成失望和沮丧。莫克斯利就曾经非常气恼,因为她发现知识图谱虽然知道某个电视剧,但是它却不知道这部电视剧最新季的信息以及它们什么时候会播出。她说:「我其实就是想要它给我一个提醒,告诉我本周我所喜欢的电视剧的新集开播啦!我同样也想知道在哪个网站能看到它。但是目前知识图谱还做不到。」不过她表示最终 Google 能彻底解决这些问题。

说到令人失望的部分,估计还有曾经提到过的 Google 信誓旦旦所做的保票。它曾说:以后你只要提出诸如:「西海岸那些学费低于 3万美金的学院有哪些?」又或者「至少获得一届奥斯卡奖,现在已经年过 40 岁的演员都是谁」这样的问题,Google 能给你一个圆满的答复。但是直到四年之后的今天,Google 仍然没有办法做到这一点。

在下一章节,我们将介绍另外的两个产品:语音搜索及 Google Now,敬请关注。

本文分享自微信公众号 - GDG(GDG_Shanghai)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
java将前端的json数组字符串转换为列表
记录下在前端通过ajax提交了一个json数组的字符串,在后端如何转换为列表。前端数据转化与请求varcontracts{id:'1',name:'yanggb合同1'},{id:'2',name:'yanggb合同2'},{id:'3',name:'yang
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
5个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Stella981 Stella981
3年前
Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法
Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法参考文章:(1)Google地球出现“无法连接到登录服务器(错误代码:c00a0194)”解决方法(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.codeprj.com%2Fblo
暗箭伤人 暗箭伤人
1年前
【www.ithunter.club】 20230922下午
不容易的2023年,我们一起努力【www.ithunter.club】(2023092208:00:00.8872062023092216:00:00.887206)1.人事招聘专员数名(可选远程或入职)2.招聘向坐标东京Yahoo、Shift、L
直播预告丨大模型如何在健康医疗中挖出大大的花?
大模型时代,“应用变了”:大模型如何在健康医疗中挖出大大的花?12月1日(周五)14:0015:00开播!大模型时代,给千行百业带来了新的想象空间试想一下,大模型经过专业知识训练竟然能够成为你的健康医疗助手曾经科幻片中的场景,正一步步成为现实这一期,我们将
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这