网站内容采集器(【案例讲解】财富网股票业绩预告信息采集规则(二))
优采云 发布时间: 2021-08-29 05:03网站内容采集器(【案例讲解】财富网股票业绩预告信息采集规则(二))
今天和大家分享财富网股票表现的预测信息采集rule。今天的规则比较简单,但简单中有技巧,
比如看到这张图的规则,你会不会头晕?为什么要使用标点符号和通配符?今天的规则主要使用起始URL页面,即内容页面和标签循环采集功能。以下案例详细说明。
【案例说明】
今天主要讲解起始URL页是内容页和标签循环采集函数,其他的跳过!
我们想要采集的网址:
如上所示,我们需要采集表单中的信息。
底部有分页,共29页。发现点击分页,URL没有变化,这时我们需要使用抓包软件Fiddler(学习抓包)抓到真实地址,如下图:
通过抓包,我们找到了需要数据的页面地址,我们复制了URL,参考下图:
通过URL规则分析分页的参数变量。一般情况下,通过抓取多个页面的URL并进行比较,就可以知道哪个是分页变量。找到变量规则后,我可以通过URL分页规则设置它们。第29页,如下图:
通过抓包软件,我们看到我们要采集的数据在爬取的页面中,不需要采集content页面,我们要的内容在起始URL页面,那么我们开始需要使用优采云采集器的网址为内容页网址,我们点击“点击设置”,如下图:
点击后出现下图,是灰色的,无法设置,因为我们不需要设置采集内容页网址,所以不要在这里设置。
直接进入content采集rule设置界面,如下图所示,因为我们需要采集的内容是表格内容并且全部在一个页面上,所以需要使用循环采集,所以当设置标签,每个标签都必须选择循环匹配的√。 (每个标签采集rule的内容这里就不多说了,大家可以下载规则自己测试学习,其实还是有一些小窍门的)
网页上的表格数据每行收录一条消息,因此当采集宕机时,我们需要每行一条消息。然后在左下角的循环设置中,我们需要设置为“添加新记录”,这样我们采集采集的信息就会一行一行,否则所有的信息都会堆积起来,还有将只有一个消息。参考下图:
设置好后我们进行测试,下图说明设置成功
另外,采集页面信息循环时,发现第一条信息和其他信息的规则不一样。经过分析,我们只能循环采集除第一页之外的每一页的其他信息。 我该怎么办?没有更好的办法。页面数据规则太简单了,找不到可以匹配所有信息的规则。解决这个问题只有一种傻瓜式方法,但它也是唯一可以解决这个问题的方法。即先循环遍历所有信息采集,然后只对第一个信息设置规则,再取最后一个合并。这里分享的规则无法采集到达第一条消息,你可以按照我的想法尝试采集first消息。
本案规则下载:【东哥福利】优采云采集器V9财富网业绩预告信息采集讯计创
相关日志:
每周月计|限时免费送,10万+合肥服务快件访问大数据
2019年合肥乐围清明节放假通知
快来|平安夜优采云陪你玩乐,享受训练!
《What is Page》火爆网络的背后,是幕后推广人员的完美策划和精准营销
每周计算周一|12万条环评信息数据免费发送
« 哪些数据对各行业巨头最重要? |【东哥福利】豆瓣电影采集规则发布到本地CSV格式文件»