【案例讲解】股票业绩预告信息采集规则(一)

优采云 发布时间: 2021-03-25 00:04

  【案例讲解】股票业绩预告信息采集规则(一)

  今天,我将与您分享的股票业绩预测信息采集的规则。如今的规则相对简单,但简单中也有技巧,

  

  例如,如果您看到此图中的规则,您会头晕吗?为什么要使用标点符号和通配符?当今的规则主要使用起始URL页面,即内容页面和标签循环采集函数。以下情况将对其进行详细说明。

  [案例说明]

  今天,我将主要说明起始URL页面是内容页面和标签循环采集功能,请跳过其他页面!

  我们想要采集的网址:

  

  如上所示,我们需要采集表格中的信息。

  

  底部有一个分页,共29页。发现点击分页后,URL并没有改变,那么我们需要使用数据包捕获软件Fiddler(学习捕获数据包)来捕获真实地址,如下所示:

  

  通过捕获数据包,我们找到了收录所需数据的页面地址,我们复制了URL,然后参考下图:

  

  通过URL规则分析页面调度的参数变量。通常,通过获取多个页面的URL并进行比较,可以知道哪个是页面调度变量。找到变量规则后,我可以通过URL分页规则进行设置。页面29,如下所示:

  

  通过数据包捕获软件,我们看到我们要采集的数据在爬网页面中,不需要采集内容页面,我们想要的内容在起始URL页面中,然后我们开始需要使用优采云 采集器的URL是内容页面URL,我们单击“单击设置”,如下所示:

  

  单击下面的图片时,它会显示为灰色,并且您无法进行任何设置,因为我们不需要设置采集内容页面的URL,因此请不要在此处进行设置。

  

  直接转到内容采集规则设置界面,如下图所示,因为我们需要采集的内容是表内容,并且都在同一页面上,所以我们需要使用循环采集,因此设置标签时,必须同时选择两个周期都匹配的√。 (此处未提及每个标签采集规则的内容,您可以下载规则以自行测试和学习,实际上,仍有某些提示)

  

  网页上的表格数据收录一行信息,因此我们采集也需要一行信息,因此我们需要在左下角的循环设置中进行设置,并将其更改为“添加新记录” “,因此我们采集的信息将为每行一行,否则所有信息将堆积起来,并且只有一个信息。请参考下图:

  

  设置完成后,我们将进行测试,下图显示设置成功

  

  另外,当采集页信息正在循环时,发现第一信息的规则与其他信息不同。经过分析,我们只能在除第一页外的每一页上循环采集其他信息。 。我该怎么办?没有更好的办法。页面数据规则太简单,无法找到可以匹配所有信息的规则。解决这个问题只有一种傻瓜式方法,但它也是唯一可以解决此问题的方法。也就是说,首先循环遍历采集中的所有信息,然后仅对第一条信息设置规则,然后进行最后的合并。此处共享的规则不能是第一个消息的采集。您可以根据我的想法尝试采集第一条消息。

  

  下载此案例的规则:[同济福利] 优采云 采集器 V9财富网络性能预测信息采集规则共享

  相关日志:

  2019年合肥乐威清明节放假通知

  即将来临|平安夜优采云与您一起玩耍和训练!

  每周按月计数|限时免费送货,100,000 +合肥服务特快专递访问大数据

  星期一计数| 280万个竞标数据正在等待您!

  周一计数|全国*敏*感*词*信息的大数据将在有限的时间内免费提供

  «哪些数据对各个行业的巨头最重要? | [同志福利]豆瓣电影采集规则并发布到本地CSV格式文件»

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线