多级网页采集规则定义
视采采集器支持无限深度的页面采集。可以通过网页中的链接一层一层的采集下去。
流程和一般的采集器大致一样。首先我们在视采采集器中打开列表页面,定义内容页面的网址规则。如下图:
鼠标点击列表中包含网址的一项,一般是点击标题,在属性列表中查看地址形式。
如果在属性列表里看不到网址这一项,则在页面左面HTML标签结构视图里,

在它的父标签里,找到A标签,点击该标签,并且在属性列表里出现网址为止。如下图:
然后点击列表中下一条区域,在属性列表中查看网址的差别,记住网址的变化部分,点击页面的右上角的"单元"按钮。进入单元设定,向下滚动到网址属性的地方。在网址一行里输入单元名,如"网址"。 在表达式输入框里,右键弹出菜单点击粘贴(值),将值复制到表达式输入框里。如图:
鼠标选择网址变化的部分。如图:
右键弹出菜单点击通配符替换掉变化部分。
如http://shbbs.soufun.com/joke~-1~3695/$n_$n.htm。系统提供以下几种通配符:
1、$n:匹配数字
1、$c:匹配字母,不包括数字
1、$s:匹配任意字符串
点保存。
回到网页列表设计器视图,那个黄色的区域叫做样本区域。点击"预览",检查匹配情况。如下图:
蓝色部分表示能够匹配的内容,如果匹配不正确,请参考网页采集规则匹配原理调整规则。如果匹配正确,回到设计器视图里,鼠标右键点击"网址"单元,弹出菜单。
在弹出菜单里点击"网页设计器"。系统自定会进入该网址的内容页面,然后和在列表叶面定义网址过程一样,定义内容页面需要采集的数据。如下图:
点击需要采集的一段文字,出现红色区域,如图:
红色区域有可能没有包含文字的全部部分,在页面左面HTML标签结构视图里找到你刚才点的标签,通过点击它的父标签来扩大它的匹配范围。如下图:
然后定义该标签的单元名以及表达式。该单元定义好后,回到内容页面再次选择其它文字,如标题等,直到需要的字段全部定义好为止。最后预览结果和调整结果,此步骤最好在所有单元定义好后进行,否则预览的结果有可能不对。匹配结果的调整方法和上面列表定义时的方法一样。

