不用采集规则就可以采集(大数据时代的优采云规则定制(二)介绍及应用 )

优采云 发布时间: 2021-10-10 13:08

  不用采集规则就可以采集(大数据时代的优采云规则定制(二)介绍及应用

)

  1、优采云简介

  2、什么是信息采集

  3、什么是优采云

  4、优采云 你是做什么的

  5、优采云规则定制

  6、规则编写过程

  7、网站详解

  8、详细解释

  9、备注

  什么是优采云?

  

  我们打开了一个网站,看到一篇文章文章很不错,所以我们复制了文章的标题和内容,把这个文章传给了我们的网站上。我们这个过程可以叫做采集,把别人网站的有用信息传递给自己网站;网上的内容,大部分都是通过复制-修改-粘贴的过程产生的,所以信息采集很重要,也很常见。我们平台在网站上发送给文章,大部分也是这样的过程;为什么很多人觉得新闻更新很麻烦,因为这项工作重复、枯燥、耗时;

  优采云是目前国内用户最多、功能最全、程序支持最全面、数据库支持最丰富的软件产品;现在大数据时代,可以快速、批量、大批量地获取。互联网上的数据以我们需要的格式存储;简单来说,它对我们有什么用?我们需要更新新闻和发送商机。如果要求你准备 1000 篇文章,你需要多长时间?5个小时?有了规则,优采云只需要5分钟!前提是有规则,所以首先要学会写规则。如果规则数量足够,一个规则几分钟就可以了,但是刚开始学习的时候会慢一些;

  名称解释和规则编写过程

  n以优采云8.6版本为准 第一步:打开—登录 第二步:新建组

  

  第三步:右击组,新建任务,填写任务名称;

  

  第四步:编写采集 URL规则(起始URL和多级URL获取)

  

  第五步:写采集内容规则(如标题、内容)

  

  第 6 步:发布内容设置

  检查启用方法二

  (1)保存格式:将一条记录保存为txt;

  (2)保存位置自定义;

  (3) 文件模板不需要移动;

  (4)文件名格式:点击右侧倒笔字选择【标签:标题】;

  (5)文件编码可以先utf-8,如果测试时数据正常,但保存的数据有乱码,选择gb2312;

  

  第七步:采集设置,两者都选择100;

  一种。单任务采集内容线程数:采集多个URL同时;

  湾 采集 内容间隔时间,单位毫秒:两个任务之间的间隔时间;

  C。单任务发布内容线程数:一次保存多少条数据;

  d. 发布内容之间的毫秒数:两次保存数据之间的时间间隔;

  

  注意:如果网站有反屏蔽采集机制(比如很多数据但是只有采集的一部分可以下载,或者打开页面需要多长时间) ,调整a的值,适当增加b的值;

  第八步:保存,勾选并启动任务(如果在同一个组,可以在组上批量选择)

  

  前一种方式:比如我要准备n篇文章,首先要找出这个文章在哪个网站上(比如采集peer A或者peer B), yes 在哪一栏(如产品信息或新闻信息)下,该栏下面有n条信息,我要选择哪一条,输入后复制标题,复制内容再输入另一个页面改标题复制内容,等等,然后同样的过程我要执行n次;

  如何转换:如何将此流程转换为软件操作?我要准备n条新闻,也就是说我需要n个标题+对应的内容,还有n个新闻链接。这n个新闻链接是从网站的一个新闻栏目中找到的,而这个网站的新闻栏目可能是很多页,比如10页。这时候从peer A的网站—栏目—内页开始;也就是找到你要采集的网站,打开这个网站栏目页(确保是采集新闻或产品),在URL下写上所有新闻链接规则采集栏,然后写内容规则采集所有新闻链接文件中的标题和内容最后保存;

  网站具体操作详解

  找到你要采集 URL的版块页面,比如新闻版块

  复制栏目首页链接网址,在起始网址右侧点击添加,将栏目首页链接粘贴到单个网址中点击添加,如

  请改用右侧的 (*),因为已添加第一页,还剩 9 页。此时,在算术数列的那一行,将项数改为9,第一项为2(因为第2页的链接是,然后点击Add-Finish;

  

  1、 点对应右边的加法,然后下图是一个例子,右边的大图是说明;

  

  2、点击保存,点击右下角

  看看能不能采集去新闻网站,

  如果可以采集到达,则正确,双击新闻网址进入下一步;如果采集错误到达,返回修改直到成功;URL过滤可自行观察其对应规律;

  

  1、进入采集内容规则后,选择作者、时间、来源并删除,如右一图所示,因为这些标签一般情况下是不会用到的;

  2、选择title标签点击修改,或者直接双击标签进入编辑界面;

  

  3、 输入后不要更改标签名称的“标题”,更改后需要更改相应的模板;

  4、 以下数据提取方法:截取前后和开始结束字符串,尽量使用默认,不熟练的不要随意更改;

  5、 点击下方数据处理中的Add——内容替换,如右图;

  6、内容替换将标题后的所有内容替换为空。如果不替换,采集就是页面标题。这时候需要打开两个新闻页面,看看两个新闻页面的共同部分是什么,替换共同部分

  示例:对于以下两个标题,“-”为共同部分,即替换为“空”;

  【图片】你知道螺旋上料机的加工方法吗?你知道螺旋给料机的原理吗?

  【图文】气动送粉机的优点有哪些,您知道送粉机的工作原理吗?

  

  1、选择要编辑的内容,或者双击进入内容标签编辑界面,不要更改标签名称;

  2、 写开始和结束字符串就是找一个能把所有消息都包起来的字符串。它出现在所有新闻页面的所有新闻页面中,并且是唯一的字符串;即, this 页面模板中唯一的代码串;

  

  例如:采集的内容时,需要选择内容区域,因为采集可能有n篇文章,比如100篇。这时候就需要考虑如何写一个 采集 to all ,方法是打开两个新闻链接。例如,查看第一篇新闻文章的源文件,找到新闻文本,然后查找与新闻第一句最接近的那个。这个页面是唯一的一段代码(如果不是唯一的,软件你能知道从哪一个开始吗?),但不是新闻的内容,比如

  , 复制后,在第二个新闻页面的源文件中搜索,看看有没有,如果有,就可以使用了;类似地,找到新闻的最后一句话,并在最近的页面中找到唯一的一段代码。复制后,在第二个新闻页面的源文件中搜索,看看有没有,如果有,就可以使用了;数据处理:因为采集是其他网站信息,可能还有其他网站信息,如公司名称、*敏*感*词*、品牌等信息,也可能有其他网站 超链接和其他信息。这时候需要对信息进行过滤;数据处理——添加——标签过滤下面对应的参数HTML:将滚动轴水平拉到最后,在所有标签前打勾,点击确定;内容替换:把这个网站的信息换成你自己的,原理是整改后拆机,公司名称和电话(拆分),手机号码(拆分),邮箱地址,公司地址(拆分),品牌名称,网址(拆分);split 意味着分解和替换这些数据。这时候需要进行以下更换: 因为在新闻中,这是拆机更换的时候,才能更换干净。你可以多看看他的新闻,可能用的什么格式;您需要进行以下更换:因为在新闻中,这是拆卸和更换的时间,以便将其更换干净。你可以多看看他的新闻,可能用的什么格式;您需要进行以下更换:因为在新闻中,这是拆卸和更换的时间,以便将其更换干净。你可以多看看他的新闻,可能用的什么格式;

  注意:数据处理还有很多技巧,需要在使用的过程中思考,是采集的核心。如果处理不好,可能是别人的嫁衣,所以一定要仔细观察,综合考虑,如果处理得当,从采集下来的文章甚至可以出版直接(不是您自己的企业站点)

  预防措施()

  1、 右击组:出现如下菜单,可以正常使用;

  新建任务:在该组上新建一个任务;

  运行该组中的所有任务:顾名思义;

  新任务:在这个组下重新创建一个组;

  编辑/删除组:编辑/删除当前组;

  导入/导出分组规则:当前组下的所有任务都可以导出导入到同一版本优采云;

  导入任务到该组:将导出的单个任务导入到该组;

  粘贴组下任务:该项目只有在任务被复制后才会出现,您可以粘贴多个相同的任务,然后在粘贴的任务上进行编辑;

  

  启动任务:同菜单栏启动;

  编辑任务:编辑已写入的任务;

  导出任务:可以将当前规则导出并在同版本的其他工具上导入,但导入数据时需要重复上述步骤6-发布内容设置,必须重新选择/填写;

  复制任务到粘贴板:复制后,选择一个任务组,右击将不同数量的任务粘贴到该组中,避免多次写入同一个任务;

  清除任务的所有采集数据:新建如果你采集之前有采集,想重新采集,需要先清除;

  

  3、其他设置:点击顶部菜单栏中的Tools-Options,配置全局选项和默认选项;

  全局选项:可以调整同时运行的最大任务数。一般为5,但不需要调整;

  默认选项:是否忽略 case point is;

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线