优采云采集器官方开发的几种方法,你知道吗?
优采云 发布时间: 2021-07-13 23:14优采云采集器官方开发的几种方法,你知道吗?
优采云采集器可以通过二级代理服务器的功能改变IP,避免采集因IP访问受限而无法运行。用户需要先获取一些代理IP,然后再导入代理IP 只需在采集器中完成设置即可。
7、计划任务管理器
优采云采集器支持定时任务管理,可以定时自动发布采集,实现自动更新功能。可以设置添加到定时任务中的任务的执行频率和开始时间,执行频率可以根据用户需求选择每周、每天、每间隔或自定义玉米表达式执行。
8、Task 运行日志管理
优采云采集器配置采集监控系统,任务运行管理器将采集监控模块产生的记录信息组装成日志条目。如果开启了自动运行功能或者需要监控程序运行状态,可以在任务运行日志中查看某个日期和时间段内的运行状态进行具体分析。
您可以了解成功任务的次数、失败的次数、重复的次数以及在特定任务上花费的时间。
9、plugin 扩展
优采云采集器支持PHP和C#插件扩展,可以帮助用户修改采集的数据,满足用户更多的需求,大大扩展采集器的功能。用户可以根据插件开发手册开发需要的插件,也可以使用优采云采集器官方开发的一些插件资源。
优采云采集器配备插件管理器,可以管理插件列表,选择插件方式,支持插件测试。
优采云采集器使用教程
下载安装优采云采集器,有付费版和免费版
安装后双击打开,进入程序主页面,新建组。
选择刚刚创建的组,右键创建任务。
编辑任务名称,添加目标页面链接到采集。
选择批量/多页采集
URL采集的规则设置:
注:采集的数量可根据需要更改
添加采集rule
进入采集的目标页面,右键查看源码。找到你想要采集的文章的标题,然后查找div,一一搜索,找到页面上唯一的div,复制。
同样找到最后一个div。
这样做的目的是缩小采集目标的范围。
然后从第一个 div 开始,到最后一个 div 结束。
将代码复制到对应的选中区域,然后保存即可,测试一次
测试成功。那么采集的大致范围已经选好了,我们来修改采集规则,让采集的内容达到我们想要的。
先找到内容页链接的样式,然后去掉其他不需要的代码。
接下来我们继续采集的第二部分:内容规则设置
设置标题替换
设置标题替换后,测试效果
设置内容部分的替换
进入页面的后台代码,找到文章内容上方唯一的div,以及正文结束后唯一的div,然后将代码复制到对应的设置框中程序。
重新设置html代码的过滤器,留下需要的,去掉不需要的。然后点击确定,保存并测试。
以上测试成功后,进行最终发布设置。
在web发布配置管理里面,配置
主要是配置网站后台的登录信息和要发布的栏目,然后保存配置,全部保存,就OK了。可以正式批量采集文章。
优采云采集器收费和免费的区别
1、免费版和商业版采集器有什么区别?
答:目前论坛采集器共有三个版本,免费版、网络授权版、加密狗版。免费版有功能限制,测试时只能下载到图片和附件。真正的采集发布时,无法下载图片和附件。
免费版和付费版的主要区别在于免费版不支持文件下载,不支持自动运行。不支持插件,只能使用一页回复,其他功能与付费版相同。
2、论坛采集器 详细功能?
答案:论坛data采集专家的特点
1.采集 支持楼层数据。比如论坛、帖子、知道、评论等网站类型爬取。
2.支持附件图片原名下载上传,上传后支持保持原图文格式。
3.特权的普通采集,继续挖矿,更新采集三种模式。续挖功能可以采集,更新采集对已经采集过数据会重新采集,更新了会再次发布。
4.支持随机添加标签,添加的标签会被采集器保存并发布到网站。
5.Content 页面支持循环采集和不循环采集,不循环采集的内容会被添加到循环采集的结果中。例如,知道有问答、回复和最佳答案,您可以通过此功能获得最佳答案。
6. 支持时间标签的模糊识别。只要是带有时间字的标签,时间就会被提取出来,解决了部分时间提取困难的问题。
7.Optional采集post 类型。用户可以自定义帖子类别,实现选择性采集。
8. 通过插件模块,用户可以根据自己的需要编写程序,实现更*敏*感*词*。
9.无人值守,自动运行功能。
一个用于论坛,一个用于一般差异
优采云采集器Rule 默认地址修改
1、open优采云新分组规则
拿到规则后,打开优采云。如果你使用的是优采云开心版,不用输入账号和密码,点击登录即可。如果是免费版,则需要输入账号和密码才能登录,优采云官方注册没问题。
登录后打开优采云,如上图,新建一个分组规则,自己命名。
2、import 任务
点击分组规则,右键-导入任务,选择陶小白发给你的优采云采集规则,打开。
3、编辑规则
点击导入的规则,右键编辑,打开编辑界面
4、修改起始地址规则
起始地址,双击这里打开,然后编辑搜索词的关键词,以及列表页的页数,自己修改,根据需要修改,修改完成后点击确定修改。
5、modify rules采集label
我也用了一些规则,所以有些采集标签需要自己查,内容字数有限,还有一些数据处理。我们自己检查一下。如果您需要修改它们,请自行修改。 , 不需要修改,保持原样即可。
6、posting 更改
您可以在发布和修改内容的地方修改保存的格式。下面是保存为本地的修改方法。如果是在线发布,请根据自己的发布模块进行配置。
7、其他设置
对于其他设置,请先检查发布间隔。如果太长,请自行修改。还有其他发布内容。不懂就自己研究。
到此,修改基本完成。修改完成后点击保存退出。
8、官方采集清除数据之前
点击任务规则,右键清除采集数据,然后正式启动采集。
9、formal采集 请勾选这些
官方采集请检查这3个,或者你可以先采集网址和内容,最后只发布数据。
常见问题
优采云采集器如何安装
1、打开hccjq.exe软件
2、Start优采云采集器安装向导,下一步
3、接受安装协议,我同意
4、将d盘放在安装软件所在的位置,(修改磁盘选项,点击浏览按钮,点击安装按钮
img src="/uppic/170804/2056602.jpg" alt="" />
5、加载软件程序,完成安装,退出程序
优采云采集器how采集数据
打开软件并注册
新组,新任务
打开界面,依次填写采集的URL和你要选择的采集的范围。从网页源代码中选择唯一的代码段,否则会报错。这个 URL 可以直接是采集 的内容页面,也可以是一个页面。本例以最简单的直接采集页面为例,则选择级别为“0”
编辑内容采集的规则也需要标识可以唯一标识或最早标识所需采集内容的图标代码段。结果是一条数据。
如果采集网址的内容有规律重复,而且是我们需要的数据,我们可以点击“循环匹配”,这样采集就可以下载同一代码段的所有内容了。结果是n条相同格式的数据。
选择发布的格式。有很多费用。 txt不收费。如果你想阅读它,你可以选择它。如果您有其他需求,请自行选择。另外模板标签需要自己编辑。
图例是采集的结果,直观显示。如果有问题,这里会报错。
选择任务并右键单击“开始”。
优采云采集器什么采集优酷电影讯法
可以使用小猪浏览器,兼容市面上所有论坛博客网站模式,自动识别版本。最重要的是,采集时无需使用规则,只需选择要转发的内容转发到您指定的网站即可。还有更多的功能。也有视频教程,再看一遍。很简单。
优采云采集器如何去掉时间
纯正则替换是可以的,因为这是一个固定的4位数字,可以使用\.net/\d{4}/(\d\d)(\d\d)/然后反向引用$1和2 美元就可以了。
优采云采集器如何使用
1、采集网址规则,点击添加
2、选择【批量/多页】,添加常规网址,输入第一项和页数。点击【添加】完成
3、采集内容规则
双击【标题】,弹出标题编辑框
4、提取方式一般为【前后截取】,通过观察源码,填写开始串和结束串
5、添加【html标签排除】【为内容添加前缀和后缀】,点击确定。
6、Post 内容设置。启用方法二保存采集结果。
文件名格式可根据喜好任意选择。
文件模板选择,优采云给出的几个默认模板。一般默认格式为txt、csv、html、excel。您可以根据自己的喜好选择模板。
7、设置好后保存。这时,采集规则就已经设置好了。执行可以得到想要的结果。
更新日志
优采云采集器v9.5 更新
1、调整列表页重新排序的方式,现在只会安排同级列表页之间的重新排序。
2、增加了任务完成后运行统计的警告功能(Email警告)【终极版功能】。
3、增加了对一些返回码不是200的请求的支持,仍然配置采集。
4、 支持将下载地址保存为html文件。
5、二级代理服务,增加导入时的代理类型配置,同时修复用户名密码显示错误。
6、发布配置页面。默认只显示当前选中的配置,加快任务加载速度。
7、修复命令行控制,closeapp参数无法自动关闭程序的问题。
8、修复未选择图片水印时图片无法裁剪的问题。
9、优化启动界面的加载方式,解决初始界面冻结问题。
10、修复“|”无法检测到图片下载的问题在配置多线连接器中。
11、修复Excel导出数据时列顺序与字段顺序不一致的问题。
12、修复Excel导出数据时部分字段收录数字的问题。
13、修复了批量编辑任务时无法复制Json采集表达式的问题。