新闻采集
新闻采集自动定时采集各类新闻网站如新浪、网易、搜狐等网站上的新闻到用户网站上,保存到用户本地数据库中。新闻采集自动抽取标题、作者、内容、相关图片等,自动过滤其他杂项数据。
视采采集器应用先进的半结构化数据抽取技术,可以采集任意网站上的新闻,并且简单易用。视采采集器具有优秀的开放式架构设计,提供丰富的发布插件,很好的与各类网站系统如织梦(dedecms)、supesite、PHPCMS等cms内容管理系统进行集成。
功能特点
-
分类采集
根据原网站的栏目,可以分开采集,如娱乐、体育、女人等新闻分类。
-
分类发布
保存采集到的新闻数据时,可以指定本地的新闻栏目。
-
责任编辑员
管理员可以设定多个责任编辑员,系统自动模拟多个责任编辑员随机发布新闻。
-
增量发布
增量发布新闻,已有新闻自动跳过。
-
无极过滤
智能过滤,将内容中嵌入的所有的无关部分如广告等去除。
-
附件下载
附件地址智能识别,自动将新闻中的各种附件如图片、falsh等保存到本地服务器上。
-
自动集成
无需改动原有网站系统,新闻采集自动保存。
-
采集结果预览
无需发布,即可预览采集结果,根据预览结果调整规则,规则定义准确轻松。
-
突破反采
系统模拟各种浏览器特性,包括Cookie、Referer等协议信息,突破多种防采限制。
-
网站整站下载
支持无限深度、无限分页的新闻采集。
-
多线程采集
系统多任务并发,多线程采集。支持线程的并发控制和状态监视。