自动采集器 近期发布:【银保监】官网政策公告采集
优采云 发布时间: 2022-12-05 23:48自动采集器 近期发布:【银保监】官网政策公告采集
点击查看高分辨率大图,下图同理
采集结果
采集结果可以导出为Excel、CSV、HTML、数据库等多种格式,导出为Excel示例:
教程说明
本文制作时间:2022/6/19优采云版本:V8.5.2
如因网页改版导致网址或步骤失效,导致无法采集目标数据,请联系官方客服,我们会及时更正。
采集步骤
第一步:打开网页
第二步:创建【循环点击】进入各个动态详情页
Step 3. 提取详情页中的文本字段
步骤 4. 编辑字段
Step 5. 创建【循环翻页】,采集多页数据
第 6 步。开始 采集
以下是具体步骤:
步骤一、打开网页
在首页【输入框】输入目标网址%E7%9B%91%E7%AE%A1%E5%8A%A8%E6%80%81,点击【开始采集】,优采云 自动打开网页。
特别提示:
一个。打开网页后,如果【自动识别】开启,请点击【不自动识别】或【取消识别】关闭。因为这篇文章不适合使用【自动识别】。
b. 【自动识别】适用于网页自动识别列表、滚动、翻页。识别成功后,可以直接启动采集获取数据。详情点击查看【自动识别】教程
Step 2. 创建【循环-点击元素】进入各监管动态详情页
1.创建【循环-点击元素】进入各监管动态详情页
通过以下3个步骤,循环点击各个链接进入详情页:
① 选择页面第一个监管动态链接(注意一定要选择链接)
② 点击【循环点击每个链接】进入第一次监管更新详情页面
特别提示:
一个。经过以上3个连续的步骤,【循环点击元素】就创建好了。【流通】中的项目对应页面上所有监管动态链接。启动采集后,优采云会依次点击循环中的各个链接进入详情页,采集每个监管动态的详情页数据。
b. 为什么通过以上3个步骤,就可以建立【循环-点击元素】呢?详情请点击多个链接后点击查看采集详细的页面数据教程。
2.修改【循环-点击元素】Xpath
为了准确定位所有监管动态链接,需要修改【Cycle Flip】的XPath。
进入【循环翻页】设置页面,选择【循环模式】为【不固定元素列表】,修改XPath为://span[@class="title"]/a,然后点击【应用】保存。
修改后,再次点击【点击元素】步骤,进入问题详情页面。
特别提示:
一个。默认生成的循环方式是【固定元素列表循环】,无法准确定位所有问题链接,所以我们需要手动修改XPath来定位所有问题链接。这里需要一些 XPath 知识。点击查看XPath学习和示例教程。
Step 3. 提取详情页中的文本字段
进入详情页后,选择页面上的文字,然后在操作提示框中点击【采集此元素文字】。
可以用这种方式提取文本字段。在示例中,我们提取了当前位置、发布时间、来源、标题、文本等字段。
步骤 4. 编辑字段
1.编辑字段
在【当前页数据预览】页面,您可以删除或添加冗余字段、修改字段名称、移动字段顺序等。
2.修改字段XPath
对于[Text]字段,默认生成的XPath字段无法准确定位监管动态的所有内容,需要手动修改。
进入【Extract List Data】步骤设置页面,修改文本XPath为://div[@class="Section0"]
3.格式字段
格式化数据,格式化【当前位置】、【发布时间】、【来源】字段中的数据,去掉多余的内容。
具体步骤如下图所示:
步骤 5. 创建圆形翻页
1.创建循环翻页
如果只有采集一页数据,则跳过此步骤。
如果您需要翻阅到采集多页数据:
① 首先点击流程中的【循环列表】步骤返回列表页面(如果已经在列表页面可以直接继续)
②然后选择页面上的【下一页】按钮,在操作提示上点击【循环点击下一页】,创建一个【循环翻页】。
2.设置执行前的等待时间
① 进入【循环翻转1】设置页面,设置【执行前等待】3s
②进入【点击翻页1】设置页面,设置【执行前等待】3s,【Ajax超时】7s
第 6 步。开始 采集
1. 点击【采集】和【启动本地采集】。优采云启动后开始自动采集数据。
特别提示:
一个。[本地采集]是使用自己的电脑给采集,[云端采集]是使用优采云提供的云服务器采集,点击即可查看本地采集和云端采集的详细解释。
2.采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等,这里导出为Excel。数据示例:
推荐文章:源代码商城 网站发布文章需要知道的SEO技巧有哪些?
网站 文章发布哪些 SEO 技巧?
前几年,百度搜索引擎并没有那么严格,你可以依靠大量的转载收录和伪原创来蒙混过关。但随着百度的不断发展,现在百度已经开始大量打压过量收录,并依靠伪原创积累网站、减少收录权、不收录等处理结果,会对网站产生很大的影响。
1.为了让网站快速看起来饱满,一些SEO人员利用互联网上一些cms系统的采集能力,在其他网站上采集大量文章,但这种网站往往是徒劳的。
2. 伪原创已过时
过去,伪原创文章很容易使用,因为搜索引擎的算法不是那么精确,但随着搜索引擎的不断改进,很容易判断文章是否是伪原创。伪原创文章一般为修改内容的30%。例如:修改文章的开头和结尾,替换同义词或相似的单词,短语,替换重要单词等。 原创内容为王
首先,原创内容非常重要。当然,文章的结构必须清晰。如果内容与主题不对应,更何况用户不喜欢看,连搜索引擎都反感。对于高品质的原创文章,网站是最好的营养液。因为原创文章符合网站的核心,不仅搜索引擎喜欢爬行,还能吸引更多的用户长时间停留在网站上,而这个时间就是判断网站质量的标准。
4、优质的原创文章不仅可以提升用户体验,还可以稳定百度快照的基础。坚持打造优质原创文章也赋予网站很高的权重和排名。
现在,用户喜欢刷手机。如果你转载了很多别人的文章,特别是你在其他网站上看过文章,用户就不会再去网站去看了,直接关闭网站,除非这个文章是非常经典的文章。
所以重印和伪原创是一些机会主义的方法,在做网站SEO时,不仅是为了迎合搜索引擎,也是为了网站用户体验。
源代码商城关键词优化SEO关键词多少钱