注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

易拉罐的博客

心静自然凉

 
 
 

日志

 
 

转 搜索引擎的未来:语义技术  

2010-05-24 22:31:33|  分类: 人工智能 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
来源:http://www.gemag.com.cn/gemag/new/Article_content.asp?D_ID=6914

作者:里萨·博坎 出处:《时代周报》 发布时间:2008-12-17 11:38:05


这是一个可以确保信息质量,超越统计的技术突破

在不太遥远的将来,从未碰过一本书的学生就能从高中毕业。而仅在20年前,从没有使用过计算机的学生也可以从高中毕业。区区几十年里,计算机和因特网已经改变了信息、知识和教育的核心准则。

事实上,如今你的电脑硬盘就可以存上比一家出售6万本不同书籍的书店更多的书籍。互联网上的网页数量据说已超过5000亿页,这些信息如果用来印刷成每本500页重1磅的书,足可以装满10艘现代化航空母舰。

这种类比可以帮助我们想象出信息爆炸幅度之巨大,并证明随之引发的担忧并非无中生有。搜索引擎是浏览这种海洋般的信息的唯一机制,因此搜索引擎不应该被误认为仅是一个可有可无东西,一个随便玩玩的按钮,或仅是一种能找出最近的比萨饼店的工具。搜索引擎是知识、财富,是的,还有错误信息最强大的扩散中心。

我们提到网络搜索引擎,脑海中浮现出的第一个名字当然是谷歌。说谷歌造就了互联网的今天也并不夸张。谷歌也造就了一代与父母辈全然不同的新人。婴儿潮时代出生的人可能最能体会这一点了,他们在孩提时代经历了摇滚乐,又在为人父母时经历了谷歌。

谷歌的设计是基于统计算法之上的。但是,基于统计算法的搜索技术没有能力处理信息的质量,因为高质量的信息并不总是受欢迎,而受欢迎的信息并不总是高质量的。我们永远可以收集统计数字,但却不能指望统计数字产生的影响超出其本身的作用。

此外,统计数据收集系统是往后看的。它们需要一段时间让人推介并收集它们。因此,新的发表内容和动态网页,由于它们的内容经常改变且已超出流行的使用方法的范围,搜索这种资料很容易受到基本操作技术的误导。例如,如今效率低下的搜索引擎带来了一个称为搜索引擎优化的新产业,它专门使某些网页排名在用谷歌搜索引擎的流行度的标准所搜索出来的结果之上。这是一个数十亿美元的产业。如果你有足够的钱,你的网页排名可以高于许多更可信的或更高质量的网页。自从出现了谷歌,高质量的信息从未在商业威力面前如此脆弱过。

信息的质量将决定人类的未来,但确保质量需要一种革命性的方法,一种超越统计的技术突破,这场革命正在进行之中,并被称为语义技术。

语义技术的基本概念是教导计算机这个世界的运作方式。例如,当计算机遇到“bill”一词时,它知道“bill” 在英文中有15个含义。而遇到“killed the bill”时,它会推断“bill”只能是一个提交给立法会的草案,“kill”仅可能是“停止”的意思。同样,“Kill Bill”只会是一部电影的名字。最后,一系列这样的推断会处理整个句子或段落,然后得出在上下文中的准确含义。

为了达到如此级别的由计算机算法来处理的语言的灵巧性,必须建立一种本体论。本体论既不是一本字典,也不是一本词汇分类集。它是一张相互关联的概念和字意之间的地图,它反映了诸如“bill”和“kill”之间的概念。

建立一个囊括世界上所有知识的本体可能是一项艰巨的任务,这需要编撰大百科全书这样的精力和专业知识,但它还是可行的。世界各地的一些创业公司如Hakia、认知搜索、Lexxe等,已经在挑战这项艰巨的任务了。这些努力的结果还有待观察。

但是,语义搜索引擎将如何解决信息质量的问题呢?答案很简单:精确度。一旦计算机能够以语义精确度来处理自然语言,高质量的信息将不再需要在流行以后才能到达最终用户,这就不同于如今的搜索引擎了。

通过检测某一文本中所遇到的概念的丰富性和连贯性,语义技术还承诺了保证质量的其他手段。如果一段文字中包含一个短语,比如“布什否决了参议院的最后一个议案”,这段文字的其余部分是否包含了连贯的概念?还是说此网页仅是个垃圾网页其中并包括了许多流行的包含广告的单句?语义技术可以辨别出来。

鉴于人类有限的阅读速度(每分钟200–300字)和现有的巨大信息量,当今有效的决策在知识精密化的每一个方面都需要语义技术。如果未来的知识只能为流行度和金钱所奴役,这个代价我们将负担不起。

(里萨·博坎是一名专攻人工智能、模糊逻辑和信息系统的核科学家,搜索引擎Hakia公司创始人和CEO)
  评论这张
 
阅读(167)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017