腾讯科技讯(Kathy)北京时间8月26日消息,据国外媒体报道,Diffbot公司的技术不仅具有“极客气质”, 而且非常有趣:它利用机器人、算法、计算机视觉和人工智能,像人类一样处理Web上的内容。Diffbot的联合创始人Mike Tung说:“互联网上的页面可以分成30种不同的类型,Diffbot可以识别出其中的每一种。”这就是说,Diffbot能区别社交网站个人资料、博客、网站首页、产品页面、活动页面等等之间的差异。
今天,Diffbot推出了它的第一套API(应用编程接口),供所有开发者免费使用。业界人士认为此举有可能会极大地影响应用开发人员创建的应用的类型,而对于消费者来说,它则意味着一批智能应用即将出现。
两个新的API
开发人员可以用Diffbot新推出的两个API创建以下这些类型的应用:自动从页面提取含义的应用;了解趋势是什么以及谁在谈论这些趋势的应用;为没有提供RSS源的内容提供RSS源的应用;可以忽略广告、页眉和页脚,读出网页中具有相关性的内容的应用。
然后这仅仅是个开始。Diffbot还会推出一些API,让开发人员自动将活动页面变为日历约会,将社交网络个人资料变成电子名片,或从产品页面中自动提取价格或评论等等。虽然Diffbot没有制定产品路线图,但这些新的API有可能在几个月后就会推出。
今天推出的这两个 API是:
On-Demand API:这个API按页面类型分为“头版” (Frontpage)API和“文章” (Article) API。前者是用来分析网站的首页和索引页的(这种页面常常使用像标题、署名、图片、文章、广告这样的布局标记),“文章”API则用来提取“干净的”文章文字、图片和标签。
Follow API:它可以用来跟追踪任何网页的变化或更新。Diffbot自动确定开发人员想要关注页面的哪个部分,并提取标题、图片、文字总结等元数据,然后把页面细分成有意义的部分。
Diffbot API使用举例
一些大公司已经在使用Diffbot的API了,比如语音识别系统制造商Nuance公司,美国在线(AOL)公司,社会化媒体监测公司SocMetrics等等。
AOL使用Diffbot的API来为其新的iPad 杂志提取标题、作者、图像、文字、视频,主题和其他元数据。 Nuance公司使用这种技术来改善一款产品的自然语言处理性能;这款供医生使用的产品需要理解复杂的医学术语。SocMetrics发送bit.ly的短网址到Diffbot,以获取完整的文章及其主题,以便判断在哪些社会化媒体用户中最流行的话题是什么。
以上是一些知名公司使用Diffbot技术的例子,而中小型公司使用它的方法似乎也不乏创新性。比如Hacker News Radio(黑客新闻电台)可以为用户大声读出《黑客新闻》的文章和评论,FeedBeate可以让你很轻松地把任何网址变成一个RSS源。还有一个服务用Diffbot生成Twitter源: 它可以跟踪巴西圣保罗市网页上的所有变化(它没有RSS),并用Twitter 发布这些更新。
“免费增值”模式
使用Diffbot自助服务平台的免费服务,开发人员每月可调用API 5万次。“云套餐” 收费 500美元,开发人员可调用API 10万次,之后按每次调用 0.002美元收费。企业使用的管理级套餐则需要具体议价。
Diffbot是斯坦福大学的两名博士生Mike Tung和Leith Abdulla请假创办的。Tung最初是希望开发一项技术来自动跟踪学校网站上发布的新作业。Diffbot也是斯坦福大学孵化器(之前名为SSE Labs,现名StartX)孵化的第一个初创公司。