文章采集链接( “自定义数据合并方式”详解教程微信公众号文章采集器)
优采云 发布时间: 2022-03-09 19:14文章采集链接(
“自定义数据合并方式”详解教程微信公众号文章采集器)
我们经常需要采集微信公众号的有效信息,人工检索既麻烦又容易出错。下面介绍一个大数据采集器优采云软件采集微信公众号。
本文以搜狗微信文章为例,介绍优采云采集网页文章的文字使用方法。文章文字一般包括文字和图片。本文仅在采集文字中演示本文的方法,图片和文字采集将在另一篇教程中介绍。
本文将采集以下字段:文章Title, Time, Source, and Body用过,请注意)。下面是“自定义数据合并方法”的详细教程,大家可以先看看:
/tutorialdetail-1/zdyhb_7.html
采集网站:/
使用功能点:
●分页列表信息采集
/tutorial/fylb-70.aspx?t=1
●Xpath
1)进入主界面,选择“自定义模式”
微信公众号文章采集器使用步骤一
2)复制你想采集的网址到网站的输入框,点击“保存网址”
微信公众号文章采集器使用第二步
第 2 步:创建翻页循环
1)在页面右上角,打开“Process”,显示“Process Designer”和“Customize Current Actions”部分。打开网页时,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在动作提示框中,选择“更多动作”
微信公众号文章采集器使用第三步
2)选择“Cycle Click Single Element”创建翻页循环
微信公众号文章采集器使用第四步
由于这个网页涉及到 Ajax 技术,我们需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,时间设置为“2秒”
微信公众号文章采集器使用步骤5
注意:AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。性能特点: a.当点击网页上的某个选项时,网站的大部分URL不会改变;湾。网页没有完全加载,而只是部分加载了数据,这些数据会发生变化。
验证方法:点击操作后,在浏览器中,URL输入栏不会出现在加载状态或圆圈状态。
观察网页,我们发现点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章文章。因此,我们将整个“循环页面”步骤设置为执行 5 次。选择“循环页面”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”
微信公众号文章采集器使用步骤6
第 3 步:创建列表循环并提取数据
1)移动鼠标选择页面上的第一个文章链接。系统会自动识别相似链接。在操作提示框中,选择“全选”
微信公众号文章采集器使用步骤7
2)选择“循环遍历每个链接”
微信公众号文章采集器使用步骤8
3)系统会自动进入文章详情页面。点击需要采集的字段(这里先点击文章标题),在操作提示框中选择“采集该元素的文本”。文章发布时间和文章源字段采集的方法是一样的
微信公众号文章采集器使用步骤9
4)接下来开始采集文章正文。首先点击文章文字的第一段,系统会自动识别页面中的相似元素,并选择“全选”
微信公众号文章采集器使用步骤10
5)如您所见,所有正文段落都被选中并变为绿色。选择“采集以下元素文本”
微信公众号文章采集器使用步骤11
注意:在字段表中,可以自定义修改字段
微信公众号文章采集器使用步骤12
6)经过上面的操作,所有的文字都会往下采集(默认情况下,每段文字都是一个单元格)。一般来说,我们希望 采集 的主体被合并到同一个单元格中。点击“自定义数据字段”按钮,选择“自定义数据合并方式”,勾选“同一字段多次提取并合并为一行,即追加到同一字段,如文本页面合并”,然后点击“确定”
微信公众号文章采集器使用步骤13
自定义数据字段按钮
选择“自定义数据合并方式”
微信公众号文章采集器使用步骤14
微信公众号文章采集器使用步骤15
如图检查
第 4 步:修改 Xpath
1)选择整个“循环步骤”,打开“高级选项”,可以看到优采云默认生成固定元素列表,并定位到前20个文章@的链接>
微信公众号文章采集器使用步骤16
2)在Firefox中打开你想要采集的网页并观察源代码。我们通过这个Xpath发现://DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A,页面需要100篇文章< @文章 位于
微信公众号文章采集器使用步骤17
3)将修改后的Xpath复制粘贴到优采云所示位置,然后点击“确定”
微信公众号文章采集器使用步骤18
第五步:修改流程图结构
我们继续观察,在“加载更多内容”点击 5 次后,该页面加载了全部 100 篇文章文章。所以配置规则的思路是先建立一个翻页循环,加载全部100篇文章文章,然后建立循环列表提取数据
1)选择整个循环步骤并将其拖出循环页面步骤。如果不这样做,会出现大量重复数据