文章采集内容(“自定义数据合并方式”详解教程中,的方法)
优采云 发布时间: 2022-01-11 09:08文章采集内容(“自定义数据合并方式”详解教程中,的方法)
微信公众号文章文字采集教程很多时候,我们都需要采集网页文章的文字。本文以搜狗微信文章为例,介绍优采云采集网页文章的文字使用方法。文章文字一般包括文字和图片。本文仅在采集的文字中演示本文的方法,图片和文字采集将在另一篇教程中介绍。本文将采集以下字段:文章标题、时间、来源和正文(正文中的所有文本将合并到一个excel单元格中,并将使用“自定义数据合并方法”功能,请注意)。以下是“自定义数据合并方法”的详细教程,大家可以先看看:orialdetail-1/zdyhb_7.html采集网站:使用功能点:页面列表信息采集orial/fylb-70.aspx?t=1Xpathrch?query=XPathAJAX 点击页面 orialdetail-1/ajaxdjfy_7.html 第一步:创建采集tasks1)@ >进入主界面,选择“自定义模式”微信公众号文章文字采集步骤一2)复制网址采集并粘贴到网站输入框,点击“保存网址”微信公众号文章Text采集Step 2Step 2:创建翻页循环在页面右上角,打开“Process”,显示“Process Designer”和“Customize current operation "两节。打开网页后,"
选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”微信公众号文章Text采集Step 5 注意:AJAX表示延迟一种加载和异步更新的脚本技术,通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。性能特点: a.当点击网页中的某个选项时,网站的大部分URL不会改变;湾。网页没有完全加载,而只是部分加载了数据,这些数据会发生变化。验证方法:点击操作后,在浏览器中,URL输入栏不会出现在加载状态或圆圈状态。观察网页,我们发现点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章文章。因此,我们将整个“循环页面”步骤设置为执行 5 次。选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”微信公众号文章Text采集@ > 第 6 步 第 3 步:创建一个列表循环并提取数据 移动鼠标选择页面中的第一个 文章 链接。系统会自动识别相似链接。在操作提示框中选择“全选”微信公众号文章文字采集第七步选择“循环点击每个链接” 微信公众号文章文字采集步骤8 系统会自动进入文章详情页面。点击需要采集的字段(这里先点击文章标题),在操作提示框中选择“采集该元素的文本”。文章发布时间,文章来源字段采集方法同微信公众号文章正文采集第九步下一步开始采集文章文本。首先点击文章的第一段文字,系统会自动识别页面中的相似元素,选择“全选”微信公众号文章正文采集第十步< @5)您可以看到所有正文段落都被选中并变为绿色。选择“采集