首页>文库>火车采集器>火车采集器软件面板

火车采集器软件面板

一、开始菜单

1.新建分组

新建一个任务分组,选择所属分组,确定分组名称和备注。

2.新建任务

确定所属分组,新建一个任务,填写任务名称并保存。

3.Web发布配置

Web发布配置定义了如何登陆一个网站以及向该网站提交数据。
主要涉及到登录信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布效果。



4.Web发布模块

可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等高级功能。

5.数据库发布配置

数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。

6.数据库发布模块

用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql语句
(需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。

7.计划任务

设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式,
(Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可按照设置执行。

8.插件管理

插件是可以用来扩展火车采集器功能的程序
火车采集器V9支持PHP源码、C#源码、C#类库三种类型的插件,
可用于扩展http请求、内容处理和文件下载的功能,并可以分别进行测试。

9.http二级代理

网络中的代理服务器,可以代理网络用户去取得所需要的网络信息。
代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,
突破电信的ip封锁和隐藏真实的ip等。
火车采集器V9支持http代理、socket4和socket5代理。

二、工具菜单

1.任务批量编辑

批量修改任务规则细节参数

2.任务批量处理

按照以下选项批量清理或导入数据。

3.远程管理

该功能可以通过http协议来对服务器上的采集器进行远程管理。
换言之,我们可以通过浏览器访问到我们的采集器来进行管理。

4.用户管理

该功能允许用户将自己写好的采集规则共享给一个或多个客户端用户。
可以通过服务器用户管理设置用户帐号,用来限定用户下载规则的权限和允许用户访问的分组。
客户端用户可以下载远程的采集规则,并可以有选择地更新任务,还可以一键更新所有远程的采集规则。
该功能对于一些非技术客户而言省去了写规则的麻烦,也帮助开设规则服务器的用户省去了远程指导的环节。
5.运行统计

用于统计用户运行的任务,可以以天、周、月或选择的时间段来查询,
包括采集到的网址、重复网址、采集成功、采集失败、发布成功、发布失败等数据。
6、同义词替换

此功能可以将采集内容中的词语进行替换,自定义替换规则。
但需注意:两个同义词之间要用英文半角逗号连接,比如将快乐替换成高兴,即如下图:
“快乐,高兴” “美丽,漂亮”,然后保存,即可在数据处理中选择对应词库使用替换功能。

7.中文分词

用来测试中文分词以及关键词提取的效果。
可通过编辑用户词库,设置词性,词频,允许词,禁用词,来影响最终效果
8.数据转换

数据采集下来后可选择保存到sqlite、mysql、sqlserver三种类型的数据库中。
默认保存为sqlite数据库,可转换为其他类型,其中sqlite是可以保存在本地数据库的。
mysql、sqlserver既可以保存在本地数据库,也可以保存到远程数据库。
9.选项

可对全局选项、采集设置、配置备份和使用偏好等进行设置。
10.运行完自动关机

如勾选该项,则在任务运行完毕后自动关机。

三、任务列表树

任务列表的分组可以进行无限级设置,分组下可设置分组也可设置任务。
右键点击任务可进行进程控制、编辑、复制、清空数据等多种操作。

四、运行管理

任务运行管理区域可以显示每个任务的运行界面。有多个任务在运行时,会有多个任务运行界面显示。
可以查看运行日志、实时数据、文件下载,可以任务详情中实时调节任务线程,
也可以控制任务的开始、暂停,停止。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索