利用PHP制作简单的内容采集器

添加时间：2010-1-5

相关阅读: 网页 ASP 程序 HTML PHP 链接站长

采集器，通常又叫小偷程序，主要是用来抓取别人网页内容的。关于采集器的制作，其实并不难，就是远程打开要采集的网页，然后用正则表达式将需要的内容匹配出来，只要稍微有点正则表达式的基础，都能做出自己的采集器来的。

　　前几天做了个小说连载的程序，因为怕更新麻烦，顺带就写了个采集器，采集八路中文网的，功能比较简单，不能自定义规则，不过大概思路都在里面了，自定义规则可以自己来扩展。

　　用PHP来做采集器主要用到两个函数：file_get_contents()和preg_match_all()，前一个是远程读取网页内容的，不过只在php5以上的版本才能用，后一个是正则函数，用来提取需要的内容的。

　　下面就一步一步来讲功能实现。

　　因为是采集小说，所以首先要将书名、作者、类型这三个提取出来，别的信息可根据需要提取。

　　这里以《回到明朝当王爷》为目标，先打开书目页，链接：http://www.86zw.com/Book/3727/Index.ASPx

　　多打开几本书会发现，书名的基本格式是：http://www.86zw.com/Book/书号/Index.aspx，于是我们可以做一个开始页，定义一个<input type=text name=number>，用来输入需要采集的书号，以后就可以通过利用PHP制作简单的内容采集器 - 站长学院

相关利用PHP制作简单的内容采集器

关于网站计数器的PHP程序代码 [2010-1-5]

PHP简单演示如何使用模板制作静态页面 [2010-1-5]

PHP控制网页过期时间的程序 [2010-1-5]

Zend实用指南连载二：性能优化 [2010-1-5]

PHP删除非空目录函数 [2010-1-5]

用户体验之XAJAX技术应用 [2010-1-5]

咨询热线：020-85648757 85648755 85648616 0755-27912581 客服：020-85648756 0755-27912581 业务传真：020-32579052
广州市网景网络科技有限公司 Copyright◎2003-2008 Veelink.com. All Rights Reserved.
广州商务地址：广东省广州市黄埔大道中203号(海景园区)海景花园C栋501室
= 深圳商务地址：深圳市宝源路华丰宝源大厦606
研发中心：广东广州市天河软件园海景园区粤ICP备05103322号工商注册

利用PHP制作简单的内容采集器

关于网站计数器的PHP程序代码 [2010-1-5] PHP简单演示如何使用模板制作静态页面 [2010-1-5] PHP控制网页过期时间的程序 [2010-1-5] Zend实用指南连载二：性能优化 [2010-1-5] PHP删除非空目录函数 [2010-1-5] 用户体验之XAJAX技术应用 [2010-1-5]