网页分页采集规则定义
系统提供两种方式分页采集。一种是"页码分页地址",另一种是"自动提取分页地址"。页码分页地址
指定分页地址,系统自动递增页码变量。页码地址格式为:分页网址+${count}。
用户定义时将分页地址中数字变化的部分用关键字${count}替换,系统在采集的时候,自动用递增的数字替换掉${count},形成多个分页网址。例如:
猫扑大杂烩的分页网址为http://dzh.mop.com/dwdzh/list_41_929484_${count}.html,
网易论坛的分页地址为http://bbs.news.163.com/bbs/list.jsp?boardid=localsh&pageid=${count}。
它适用于有规律可循的分页网址。
自动提取分页地址
根据分页地址的正则表达式,从当前页面内容中自动提取下一页的地址。它支持网址匹配和全文匹配。
1)网址匹配
用正则表达式匹配网址的整个字符串。如猫扑的网址http://dzh.mop.com/dwdzh/list_41_929484_1.html。
它的表达式可以定义为http://dzh.mop.com/dwdzh/list_$s.html。该表达式匹配的全部内容作为分页的网址。
2)全文匹配
用正则表达式匹配包含网址的整个字符串。
如分页网址所在的字符串为<a href="http://www.caijiqi.net/list_1.html">下一页</a>。
它的表达式可以定义为<a href="$($s.html$)">下一页</a>。需要用$(和$)将网址的部分括起来。系统将自动从括弧里提取数据作为分页网址。
表达式中的$s表示匹配任意字符串。
定义分页采集
如上图,首先定义好网页列表的采集规则,然后点击页面右上角的"分页"按钮。分页按钮如下图:
系统将弹出分页地址对话框。如下图:
选择一种分页提取方式,然后设定好参数,其中"总页数"指的是系统最大采集的分页数。如题写10,系统只采集10页数据。点保存。分页设置完成。

