不用采集规则就可以采集(大数据时代的优采云规则定制(二)介绍及应用 )
优采云 发布时间: 2021-10-10 13:08不用采集规则就可以采集(大数据时代的优采云规则定制(二)介绍及应用
)
1、优采云简介
2、什么是信息采集
3、什么是优采云
4、优采云 你是做什么的
5、优采云规则定制
6、规则编写过程
7、网站详解
8、详细解释
9、备注
什么是优采云?
我们打开了一个网站,看到一篇文章文章很不错,所以我们复制了文章的标题和内容,把这个文章传给了我们的网站上。我们这个过程可以叫做采集,把别人网站的有用信息传递给自己网站;网上的内容,大部分都是通过复制-修改-粘贴的过程产生的,所以信息采集很重要,也很常见。我们平台在网站上发送给文章,大部分也是这样的过程;为什么很多人觉得新闻更新很麻烦,因为这项工作重复、枯燥、耗时;
优采云是目前国内用户最多、功能最全、程序支持最全面、数据库支持最丰富的软件产品;现在大数据时代,可以快速、批量、大批量地获取。互联网上的数据以我们需要的格式存储;简单来说,它对我们有什么用?我们需要更新新闻和发送商机。如果要求你准备 1000 篇文章,你需要多长时间?5个小时?有了规则,优采云只需要5分钟!前提是有规则,所以首先要学会写规则。如果规则数量足够,一个规则几分钟就可以了,但是刚开始学习的时候会慢一些;
名称解释和规则编写过程
n以优采云8.6版本为准 第一步:打开—登录 第二步:新建组
第三步:右击组,新建任务,填写任务名称;
第四步:编写采集 URL规则(起始URL和多级URL获取)
第五步:写采集内容规则(如标题、内容)
第 6 步:发布内容设置
检查启用方法二
(1)保存格式:将一条记录保存为txt;
(2)保存位置自定义;
(3) 文件模板不需要移动;
(4)文件名格式:点击右侧倒笔字选择【标签:标题】;
(5)文件编码可以先utf-8,如果测试时数据正常,但保存的数据有乱码,选择gb2312;
第七步:采集设置,两者都选择100;
一种。单任务采集内容线程数:采集多个URL同时;
湾 采集 内容间隔时间,单位毫秒:两个任务之间的间隔时间;
C。单任务发布内容线程数:一次保存多少条数据;
d. 发布内容之间的毫秒数:两次保存数据之间的时间间隔;
注意:如果网站有反屏蔽采集机制(比如很多数据但是只有采集的一部分可以下载,或者打开页面需要多长时间) ,调整a的值,适当增加b的值;
第八步:保存,勾选并启动任务(如果在同一个组,可以在组上批量选择)
前一种方式:比如我要准备n篇文章,首先要找出这个文章在哪个网站上(比如采集peer A或者peer B), yes 在哪一栏(如产品信息或新闻信息)下,该栏下面有n条信息,我要选择哪一条,输入后复制标题,复制内容再输入另一个页面改标题复制内容,等等,然后同样的过程我要执行n次;
如何转换:如何将此流程转换为软件操作?我要准备n条新闻,也就是说我需要n个标题+对应的内容,还有n个新闻链接。这n个新闻链接是从网站的一个新闻栏目中找到的,而这个网站的新闻栏目可能是很多页,比如10页。这时候从peer A的网站—栏目—内页开始;也就是找到你要采集的网站,打开这个网站栏目页(确保是采集新闻或产品),在URL下写上所有新闻链接规则采集栏,然后写内容规则采集所有新闻链接文件中的标题和内容最后保存;
网站具体操作详解
找到你要采集 URL的版块页面,比如新闻版块
复制栏目首页链接网址,在起始网址右侧点击添加,将栏目首页链接粘贴到单个网址中点击添加,如
请改用右侧的 (*),因为已添加第一页,还剩 9 页。此时,在算术数列的那一行,将项数改为9,第一项为2(因为第2页的链接是,然后点击Add-Finish;
1、 点对应右边的加法,然后下图是一个例子,右边的大图是说明;
2、点击保存,点击右下角
看看能不能采集去新闻网站,
如果可以采集到达,则正确,双击新闻网址进入下一步;如果采集错误到达,返回修改直到成功;URL过滤可自行观察其对应规律;
1、进入采集内容规则后,选择作者、时间、来源并删除,如右一图所示,因为这些标签一般情况下是不会用到的;
2、选择title标签点击修改,或者直接双击标签进入编辑界面;
3、 输入后不要更改标签名称的“标题”,更改后需要更改相应的模板;
4、 以下数据提取方法:截取前后和开始结束字符串,尽量使用默认,不熟练的不要随意更改;
5、 点击下方数据处理中的Add——内容替换,如右图;
6、内容替换将标题后的所有内容替换为空。如果不替换,采集就是页面标题。这时候需要打开两个新闻页面,看看两个新闻页面的共同部分是什么,替换共同部分
示例:对于以下两个标题,“-”为共同部分,即替换为“空”;
【图片】你知道螺旋上料机的加工方法吗?你知道螺旋给料机的原理吗?
【图文】气动送粉机的优点有哪些,您知道送粉机的工作原理吗?
1、选择要编辑的内容,或者双击进入内容标签编辑界面,不要更改标签名称;
2、 写开始和结束字符串就是找一个能把所有消息都包起来的字符串。它出现在所有新闻页面的所有新闻页面中,并且是唯一的字符串;即, this 页面模板中唯一的代码串;
例如:采集的内容时,需要选择内容区域,因为采集可能有n篇文章,比如100篇。这时候就需要考虑如何写一个 采集 to all ,方法是打开两个新闻链接。例如,查看第一篇新闻文章的源文件,找到新闻文本,然后查找与新闻第一句最接近的那个。这个页面是唯一的一段代码(如果不是唯一的,软件你能知道从哪一个开始吗?),但不是新闻的内容,比如
, 复制后,在第二个新闻页面的源文件中搜索,看看有没有,如果有,就可以使用了;类似地,找到新闻的最后一句话,并在最近的页面中找到唯一的一段代码。复制后,在第二个新闻页面的源文件中搜索,看看有没有,如果有,就可以使用了;数据处理:因为采集是其他网站信息,可能还有其他网站信息,如公司名称、*敏*感*词*、品牌等信息,也可能有其他网站 超链接和其他信息。这时候需要对信息进行过滤;数据处理——添加——标签过滤下面对应的参数HTML:将滚动轴水平拉到最后,在所有标签前打勾,点击确定;内容替换:把这个网站的信息换成你自己的,原理是整改后拆机,公司名称和电话(拆分),手机号码(拆分),邮箱地址,公司地址(拆分),品牌名称,网址(拆分);split 意味着分解和替换这些数据。这时候需要进行以下更换: 因为在新闻中,这是拆机更换的时候,才能更换干净。你可以多看看他的新闻,可能用的什么格式;您需要进行以下更换:因为在新闻中,这是拆卸和更换的时间,以便将其更换干净。你可以多看看他的新闻,可能用的什么格式;您需要进行以下更换:因为在新闻中,这是拆卸和更换的时间,以便将其更换干净。你可以多看看他的新闻,可能用的什么格式;
注意:数据处理还有很多技巧,需要在使用的过程中思考,是采集的核心。如果处理不好,可能是别人的嫁衣,所以一定要仔细观察,综合考虑,如果处理得当,从采集下来的文章甚至可以出版直接(不是您自己的企业站点)
预防措施()
1、 右击组:出现如下菜单,可以正常使用;
新建任务:在该组上新建一个任务;
运行该组中的所有任务:顾名思义;
新任务:在这个组下重新创建一个组;
编辑/删除组:编辑/删除当前组;
导入/导出分组规则:当前组下的所有任务都可以导出导入到同一版本优采云;
导入任务到该组:将导出的单个任务导入到该组;
粘贴组下任务:该项目只有在任务被复制后才会出现,您可以粘贴多个相同的任务,然后在粘贴的任务上进行编辑;
启动任务:同菜单栏启动;
编辑任务:编辑已写入的任务;
导出任务:可以将当前规则导出并在同版本的其他工具上导入,但导入数据时需要重复上述步骤6-发布内容设置,必须重新选择/填写;
复制任务到粘贴板:复制后,选择一个任务组,右击将不同数量的任务粘贴到该组中,避免多次写入同一个任务;
清除任务的所有采集数据:新建如果你采集之前有采集,想重新采集,需要先清除;
3、其他设置:点击顶部菜单栏中的Tools-Options,配置全局选项和默认选项;
全局选项:可以调整同时运行的最大任务数。一般为5,但不需要调整;
默认选项:是否忽略 case point is;