网站内容采集器(【案例讲解】财富网股票业绩预告信息采集规则（二）)

优采云发布时间: 2021-08-29 05:03

　　今天和大家分享财富网股票表现的预测信息采集rule。今天的规则比较简单，但简单中有技巧，

　　比如看到这张图的规则，你会不会头晕？为什么要使用标点符号和通配符？今天的规则主要使用起始URL页面，即内容页面和标签循环采集功能。以下案例详细说明。

　　【案例说明】

　　今天主要讲解起始URL页是内容页和标签循环采集函数，其他的跳过！

　　我们想要采集的网址：

　　如上所示，我们需要采集表单中的信息。

　　底部有分页，共29页。发现点击分页，URL没有变化，这时我们需要使用抓包软件Fiddler（学习抓包）抓到真实地址，如下图：

　　通过抓包，我们找到了需要数据的页面地址，我们复制了URL，参考下图：

　　通过URL规则分析分页的参数变量。一般情况下，通过抓取多个页面的URL并进行比较，就可以知道哪个是分页变量。找到变量规则后，我可以通过URL分页规则设置它们。第29页，如下图：

　　通过抓包软件，我们看到我们要采集的数据在爬取的页面中，不需要采集content页面，我们要的内容在起始URL页面，那么我们开始需要使用优采云采集器的网址为内容页网址，我们点击“点击设置”，如下图：

　　点击后出现下图，是灰色的，无法设置，因为我们不需要设置采集内容页网址，所以不要在这里设置。

　　直接进入content采集rule设置界面，如下图所示，因为我们需要采集的内容是表格内容并且全部在一个页面上，所以需要使用循环采集，所以当设置标签，每个标签都必须选择循环匹配的√。（每个标签采集rule的内容这里就不多说了，大家可以下载规则自己测试学习，其实还是有一些小窍门的）

　　网页上的表格数据每行收录一条消息，因此当采集宕机时，我们需要每行一条消息。然后在左下角的循环设置中，我们需要设置为“添加新记录”，这样我们采集采集的信息就会一行一行，否则所有的信息都会堆积起来，还有将只有一个消息。参考下图：

　　设置好后我们进行测试，下图说明设置成功

　　另外，采集页面信息循环时，发现第一条信息和其他信息的规则不一样。经过分析，我们只能循环采集除第一页之外的每一页的其他信息。我该怎么办？没有更好的办法。页面数据规则太简单了，找不到可以匹配所有信息的规则。解决这个问题只有一种傻瓜式方法，但它也是唯一可以解决这个问题的方法。即先循环遍历所有信息采集，然后只对第一个信息设置规则，再取最后一个合并。这里分享的规则无法采集到达第一条消息，你可以按照我的想法尝试采集first消息。

　　本案规则下载：【东哥福利】优采云采集器V9财富网业绩预告信息采集讯计创

　　相关日志：

　　每周月计｜限时免费送，10万+合肥服务快件访问大数据

　　2019年合肥乐围清明节放假通知

　　快来｜平安夜优采云陪你玩乐，享受训练！

　　《What is Page》火爆网络的背后，是幕后推广人员的完美策划和精准营销

　　每周计算周一｜12万条环评信息数据免费发送

　　« 哪些数据对各行业巨头最重要？ |【东哥福利】豆瓣电影采集规则发布到本地CSV格式文件»

0

2021-08-29

网站内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集器(【案例讲解】财富网股票业绩预告信息采集规则（二）)

0 个评论

发起人

AI时代内容工厂

网站内容采集器(【案例讲解】财富网股票业绩预告信息采集规则（二）)

0 个评论

发起人

相关问题