文章采集链接(UC头条是UC浏览器团队潜力打造的新闻资讯推荐平台(组图))
优采云 发布时间: 2021-12-03 17:05文章采集链接(UC头条是UC浏览器团队潜力打造的新闻资讯推荐平台(组图))
UC头条文章采集-文字+图片
UC今日头条是UC浏览器团队打造的新闻资讯推荐平台。拥有海量新闻资讯内容,通过阿里大数据推荐和机器学习算法为用户提供优质贴心的文章。很多用户可能有采集UC头条文章采集的需求,这里有采集文章的文字和图片。文字可以直接采集,对于图片,需要先下载图片网址采集,然后将图片网址批量转换为图片。
本文中采集UC标题文章和采集的字段为:标题、出版商、发布时间、文章内容、页面URL、图片URL、图片存储地址.
采集网站::///doc/2fb4c7d7aff8941ea76e58fafab069dc502247b1.html /
使用功能点:
路径
Xpath入门教程1
/tutorialdetail-1/xpathrm1.html
开始使用 xpath 2
/tutorialdetail-1/xpathrm1.html 相对 XPATH 教程-7.0 版本
/tutorialdetail-1/xdxpath-7.html
AJAX 滚动教程
/tutorial/ajgd_7.aspx?t=1
第一步:创建UC标题文章采集任务
1)进入主界面,选择“自定义模式”
2)将采集的网址复制粘贴到网站的输入框中,点击“保存网址”
3)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个部分。打开网页后,默认显示“推荐”文章。观察到这个网页没有翻页按钮,而是通过下拉加载,不断加载新内容
因此,我们选择“打开网页”这一步,在高级选项中,勾选“页面加载后向下滚动”,滚动次数根据自己的需要设置,间隔根据网页加载设置,滚动方式为“向下”滚动一屏,点击“确定”
(注意:间隔时间需要根据网站的情况来设置,不是绝对的。一般间隔时间>网站加载时间就足够了。有时候网速慢,网页页面加载很慢,需要根据具体情况进行调整,具体参见:优采云7.0教程-AJAX滚动教程
第 2 步:创建翻页循环并提取数据
1)移动鼠标选择页面上的第一个文章链接。系统会自动识别相似链接,在操作提示框中选择“全选”
2)选择“单击循环中的每个链接”
3)系统会自动进入文章详情页。点击需要采集的字段(这里先点击文章标题),在操作提示框中选择“采集元素的文本”
文章发布时间,文章作者,文章发布时间,文章正文内容采集方法同上。以下采集为文章的正文
第三步:提取UC标题文章图片地址
1)下一个开始采集图片地址。点击文章中的第一张图片,然后点击页面上的第二张图片,在弹出的操作提示框中选择“采集以下图片地址”
2) 修改字段名称,然后点击“确定”
3)现在我们已经采集到达图片网址,我们准备批量导出图片。批量导出图片时,我们希望将同一文章文章中的图片放到同一个文件中,文件夹名称为文章。
首先我们选择标题,在操作提示框中选择“采集元素的文本”
选择标题字段并单击按钮,如图
选择“格式化数据”
点击添加步骤
选择“添加前缀”
在如图所示的位置输入前缀:“D:\UC头条图片采集\”,然后点击“确定”
同样的方式添加后缀“\”,点击“确定”
4) 修改字段名称为“图片存储地址”,最后显示的“D:\UC Headline Picture采集\文章Title”为图片存储文件夹的名称,其中"D : \UC 标题图片 采集\" 已修复,文章 标题已更改
第 4 步:修改 Xpath
1)选择整个“循环”步骤,打开“高级选项”,可以看到优采云是默认生成的固定元素列表,还有前13篇文章的链接文章@ > 位于