点击这里给我发消息 点击这里给我发消息

谷歌搜索技术又有提高 PDF文件也可上网搜

添加时间:2010-1-5
    相关阅读: 软件 开发 技术 搜索引擎 网络 网站 公司

据国外媒体报道,谷歌近日宣布将提供扫描文件的搜索服务,届时PDF文件也可上网搜索。

据报道,目前这一新功能需要巨大的计算能力以及先进的图像识别技术。在谷歌以往的搜索技术中很少包括扫描文件,因为扫描文件没有任何文本数据,无法供谷歌搜索分类,但是这个缺陷即将很快被解决。谷歌产品经理利维表示,他们将利用光学字符识别软件,使网民可以搜索到网站以pdf格式存放的文件。谷歌将使用光学字符识别软件将扫描文件转换成可以搜索到的文本文档,这样它们就可以被搜查和编制索引,从而出现在谷歌的搜索结果里面了。利维说道“这是很小却又很重要的一步,我们将努力使得世界上所有的信息都可以查询,那才是我们的目标。”

将光学字符识别技术运用于网络也将帮助谷歌图书搜索项目——这是一个庞大的也是有争议的项目。这个项目是在2004年的法兰克福图书博览会上第一次提出,从那以后,谷歌搜索以每天3000本书的速度在世界各大图书馆搜索书籍。虽然这个项目引起了人们对版权问题的关心,但是谷歌表示,他们刚刚和作家协会和美国出版商协会达成共识,谷歌可以在网上访问美国数以百万计书籍和其他书面材料,这个协议使得谷歌可以合法的走向数字化道路,可以搜索具有版权的书籍,并显示其中一部分,而图书馆中没有版权的书籍,它有权进行拷贝。

鉴于网络多媒体正以指数形势增长,现在的基于文本格式的搜索显然是不够的,这是因为目前这一代的搜索引擎只能找到多媒体素材中已标记的文字,这显然是繁琐和费时的,这也就解释了为什么一些研究人员热衷于研究一种新的搜索技术,因为利用这项技术,搜索引擎可以直接浏览多媒体文件,并将其和搜索关键字对照,将结果反应给使用者。

Adobe公司已经致力于新一代搜索引擎的研究了。该公司于今年7月透露,它们已优化他们的Flash Player技术,使搜索引擎可以浏览的Flash格式文件内容,这在以前,是根本无法想象的。 Adobe公司的副总裁大卫万尼解释道。我们最初将与与谷歌和雅虎合作,以大幅度提高人们对网站上丰富资源的搜索能力,我们还将进一步扩大供应能力,使得所有内容出版商,开发商以及终端用户都可以从中受益。 ”

咨询热线:020-85648757 85648755 85648616 0755-27912581 客服:020-85648756 0755-27912581 业务传真:020-32579052
广州市网景网络科技有限公司 Copyright◎2003-2008 Veelink.com. All Rights Reserved.
广州商务地址:广东省广州市黄埔大道中203号(海景园区)海景花园C栋501室
= 深圳商务地址:深圳市宝源路华丰宝源大厦606
研发中心:广东广州市天河软件园海景园区 粤ICP备05103322号 工商注册