网站采集基本流程
网站采集核心操作是定义规则,包括单元定义,单元过滤,数据发布等。对于已经定义好的规则,用户可以立即运行规则,采集数据。也可以将规则设定成一个任务,由系统定时启动规则,自动进行数据采集。视采采集器规则定义操作流程图如下:
*过滤/合并:修改采集的数据
*采集网址内容:单元的值为网址,并采集该网址页面中的数据
*发布数据:将采集的数据发布到用户网站里,选择一种发布器发布数据。
指定采集单元
首先新建规则,指定入口网址。系统自动打开网页,如图:
用鼠标在网页视图上点击一个需要采集的文字或区域,定义该区域的单元特征。
过滤数据
如果不需要对内容进行过滤,则跳过此步骤。在设计器视图里,鼠标右键点击该单元所在的设计器,在弹出菜单里点击单元过滤器。如图:

在单元过滤器视图里,选择需要过滤的单元,输入替换条件和替换值。如图:
合并数据
如果不需要对内容进行合并,则跳过此步骤。在设计器视图里,鼠标右键点击该单元所在的设计器,在弹出菜单里点击单元包装器。如图:

在单元包装器视图里,选择需要合并的单元。如图:
网址单元
如果单元的值是个网址,用户可以在设计器视图里鼠标右键点击该网址单元,在弹出菜单里点击网页设计器打开该网址所对应的网页。 然后在新打开的网页视图里定义该页面的采集内容。依次类推,可以定义无限深度的网页采集。如图:
通过插件发布数据
如果用户网站里已经安装好csv发布插件,用户可以通过csv生成器来发布数据。在设计器视图里,鼠标右键点击需要发布的单元所在的设计器,在弹出菜单里点击csv生成器。如图:
选择需要发布的单元,设定好发布参数。如图:
通过表单发布数据
如果用户网站有自己的后台管理页面,用户可以通过构造发布表单模拟发布页面发布数据。在设计器视图里,鼠标右键点击需要发布的单元所在的设计器,在弹出菜单里点击内容发布器。如图:
根据用户网站的发布页面设定好表单参数, 选择需要发布的单元。如图:
论坛发布
通过论坛发布器,对采集的数据可以实现自动回帖的功能。用户需要在自己的网站里安装插件。在设计器视图里,鼠标右键点击需要发布的单元所在的设计器,在弹出菜单里点击论坛发布器。如图:
根据用户网站的发布页面设定好表单参数, 选择需要发布的单元。如图:
通过以上操作,网站采集规则就已全部制作完成。接下来就是运行该规则,采集数据。
采集数据
在规则列表里,点击规则所在的一行中的R,系统开始采集数据。如图:
然后等待数据采集完成,打开用户网站查看采集结果。
自动采集
用户可以通过任务功能,将一条规则设定成定时采集。如图:
系统将在用户设定的时间点,自动运行该规则,采集数据。

