网络文章正文的采集方法,以微信文章采集为例. docx
优采云 发布时间: 2020-08-08 21:08文档简介:
网页文章文本采集方法,以微信文章采集为例. docx网页文章文本采集方法,并以微信文章采集为例
当我们想将新闻保存在今天的头条新闻和搜狗微信上的文章文字中时,该怎么办?逐条复制并粘贴文章?选择通用的Web数据采集器将使工作变得很容易.
优采云是一个通用的Web数据采集器,可以采集Internet上的公共数据. 用户可以设置从哪个网站爬网数据,要爬网的数据,要爬网的数据范围,何时爬网的数据,如何保存已爬网的数据,等等.
本文接近主题,将以搜狗微信文章正文采集为例,说明使用优采云采集网页文章正文的方法. 文章正文采集主要有两种类型: 第一,采集没有图片的文章正文中的文本;其次,在文章正文中采集文本和图片URL.
示例网站:
使用功能点:
Xpath rch?query = XPath
判断条件orialdetail-1 / judge.html
分页列表信息采集orial / fylb-70.aspx?t = 1
AJAX滚动教程orialdetail-1 / ajgd_7.html
AJAX点击和翻页orialdetail-1 / ajaxdjfy_7.html
采集文章正文中的文本,不带图片
具体步骤:
第1步: 创建采集任务
1)进入主界面,然后选择“自定义模式”
网页文章正文采集的第1步
2)将要采集的URL复制并粘贴到网站输入框中,然后单击“保存URL”
网页文章正文采集的第2步
第2步: 创建翻页循环
在页面的右上角,打开“过程”以显示两个部分: “过程设计器”和“自定义当前操作”. 打开网页后,默认情况下会显示“热门”文章. 向下滚动页面,找到并单击“加载更多内容”按钮,在操作提示框中选择“更多操作”
网页文章正文采集的第3步
选择“循环单击单个元素”以创建翻页循环
网页文章正文采集的第4步
由于该网页涉及Ajax技术,因此我们需要设置一些高级选项. 选择“单击元素”步骤,打开“高级选项”,选中“ Ajax加载数据”,将时间设置为“ 2秒”
网页文章正文采集的第5步
注意: AJAX是延迟加载和异步更新的脚本技术. 通过在后台与服务器进行少量数据交换,它可以更新网页的特定部分,而无需重新加载整个网页. 请查看详细信息
AJAX点击和翻页教程: orialdetail-1 / ajaxdjfy_7.html
查看该网页,我们发现单击“加载更多内容” 5次,该页面加载到底部,总共显示100条文章. 因此,我们将整个“循环翻页”步骤设置为执行5次. 选择“循环翻页”步骤以打开
“高级选项”,打开“满足以下条件时退出循环”,将循环数设置为“ 5次”,然后单击“确定”
网页文章正文采集的第6步
第3步: 创建一个列表循环并提取数据
移动鼠标,然后选择页面上的第一个文章链接. 系统将自动识别相似的链接,在操作提示框中,选择“全选”
网页文章正文采集的第7步
选择“循环单击每个链接”
网页文章正文采集的第8步
系统将自动进入文章详细信息页面. 单击需要采集的字段(在此处单击文章标题),在操作提示框中,选择“采集此元素的文本”. 文章发表时间和文章来源字段的采集方法也是如此
网页文章正文采集的第9步
接下来,开始采集文章正文. 首先点击文章正文的第一段,系统会自动识别页面中的相似元素,选择“全选”
网络文章正文采集的第10步
5)如您所见,所有文本段落均被选中并变为绿色. 选择“采集以下元素文本”
网页文章正文采集的第11步
注意: 在字段表中,您可以自定义字段的修改
网页文章正文采集的第12步