自动采集器 近期发布:【银保监】官网政策公告采集

优采云 发布时间: 2022-12-05 23:48

  自动采集器 近期发布:【银保监】官网政策公告采集

  点击查看高分辨率大图,下图同理

  采集结果

  采集结果可以导出为Excel、CSV、HTML、数据库等多种格式,导出为Excel示例:

  教程说明

  本文制作时间:2022/6/19优采云版本:V8.5.2

  如因网页改版导致网址或步骤失效,导致无法采集目标数据,请联系官方客服,我们会及时更正。

  采集步骤

  第一步:打开网页

  第二步:创建【循环点击】进入各个动态详情页

  Step 3. 提取详情页中的文本字段

  步骤 4. 编辑字段

  Step 5. 创建【循环翻页】,采集多页数据

  第 6 步。开始 采集

  以下是具体步骤:

  步骤一、打开网页

  在首页【输入框】输入目标网址%E7%9B%91%E7%AE%A1%E5%8A%A8%E6%80%81,点击【开始采集】,优采云 自动打开网页。

  特别提示:

  一个。打开网页后,如果【自动识别】开启,请点击【不自动识别】或【取消识别】关闭。因为这篇文章不适合使用【自动识别】。

  b. 【自动识别】适用于网页自动识别列表、滚动、翻页。识别成功后,可以直接启动采集获取数据。详情点击查看【自动识别】教程

  Step 2. 创建【循环-点击元素】进入各监管动态详情页

  1.创建【循环-点击元素】进入各监管动态详情页

  

  通过以下3个步骤,循环点击各个链接进入详情页:

  ① 选择页面第一个监管动态链接(注意一定要选择链接)

  ② 点击【循环点击每个链接】进入第一次监管更新详情页面

  特别提示:

  一个。经过以上3个连续的步骤,【循环点击元素】就创建好了。【流通】中的项目对应页面上所有监管动态链接。启动采集后,优采云会依次点击循环中的各个链接进入详情页,采集每个监管动态的详情页数据。

  b. 为什么通过以上3个步骤,就可以建立【循环-点击元素】呢?详情请点击多个链接后点击查看采集详细的页面数据教程。

  2.修改【循环-点击元素】Xpath

  为了准确定位所有监管动态链接,需要修改【Cycle Flip】的XPath。

  进入【循环翻页】设置页面,选择【循环模式】为【不固定元素列表】,修改XPath为://span[@class="title"]/a,然后点击【应用】保存。

  修改后,再次点击【点击元素】步骤,进入问题详情页面。

  特别提示:

  一个。默认生成的循环方式是【固定元素列表循环】,无法准确定位所有问题链接,所以我们需要手动修改XPath来定位所有问题链接。这里需要一些 XPath 知识。点击查看XPath学习和示例教程。

  Step 3. 提取详情页中的文本字段

  进入详情页后,选择页面上的文字,然后在操作提示框中点击【采集此元素文字】。

  可以用这种方式提取文本字段。在示例中,我们提取了当前位置、发布时间、来源、标题、文本等字段。

  步骤 4. 编辑字段

  1.编辑字段

  在【当前页数据预览】页面,您可以删除或添加冗余字段、修改字段名称、移动字段顺序等。

  2.修改字段XPath

  对于[Text]字段,默认生成的XPath字段无法准确定位监管动态的所有内容,需要手动修改。

  

  进入【Extract List Data】步骤设置页面,修改文本XPath为://div[@class="Section0"]

  3.格式字段

  格式化数据,格式化【当前位置】、【发布时间】、【来源】字段中的数据,去掉多余的内容。

  具体步骤如下图所示:

  步骤 5. 创建圆形翻页

  1.创建循环翻页

  如果只有采集一页数据,则跳过此步骤。

  如果您需要翻阅到采集多页数据:

  ① 首先点击流程中的【循环列表】步骤返回列表页面(如果已经在列表页面可以直接继续)

  ②然后选择页面上的【下一页】按钮,在操作提示上点击【循环点击下一页】,创建一个【循环翻页】。

  2.设置执行前的等待时间

  ① 进入【循环翻转1】设置页面,设置【执行前等待】3s

  ②进入【点击翻页1】设置页面,设置【执行前等待】3s,【Ajax超时】7s

  第 6 步。开始 采集

  1. 点击【采集】和【启动本地采集】。优采云启动后开始自动采集数据。

  特别提示:

  一个。[本地采集]是使用自己的电脑给采集,[云端采集]是使用优采云提供的云服务器采集,点击即可查看本地采集和云端采集的详细解释。

  2.采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等,这里导出为Excel。数据示例:

  推荐文章:源代码商城 网站发布文章需要知道的SEO技巧有哪些?

  网站 文章发布哪些 SEO 技巧?

  前几年,百度搜索引擎并没有那么严格,你可以依靠大量的转载收录和伪原创来蒙混过关。但随着百度的不断发展,现在百度已经开始大量打压过量收录,并依靠伪原创积累网站、减少收录权、不收录等处理结果,会对网站产生很大的影响。

  1.为了让网站快速看起来饱满,一些SEO人员利用互联网上一些cms系统的采集能力,在其他网站上采集大量文章,但这种网站往往是徒劳的。

  

  2. 伪原创已过时

  过去,伪原创文章很容易使用,因为搜索引擎的算法不是那么精确,但随着搜索引擎的不断改进,很容易判断文章是否是伪原创。伪原创文章一般为修改内容的30%。例如:修改文章的开头和结尾,替换同义词或相似的单词,短语,替换重要单词等。 原创内容为王

  首先,原创内容非常重要。当然,文章的结构必须清晰。如果内容与主题不对应,更何况用户不喜欢看,连搜索引擎都反感。对于高品质的原创文章,网站是最好的营养液。因为原创文章符合网站的核心,不仅搜索引擎喜欢爬行,还能吸引更多的用户长时间停留在网站上,而这个时间就是判断网站质量的标准。

  4、优质的原创文章不仅可以提升用户体验,还可以稳定百度快照的基础。坚持打造优质原创文章也赋予网站很高的权重和排名。

  

  现在,用户喜欢刷手机。如果你转载了很多别人的文章,特别是你在其他网站上看过文章,用户就不会再去网站去看了,直接关闭网站,除非这个文章是非常经典的文章。

  所以重印和伪原创是一些机会主义的方法,在做网站SEO时,不仅是为了迎合搜索引擎,也是为了网站用户体验。

  源代码商城关键词优化SEO关键词多少钱

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线