分享文章:微信公众号文章正文采集
优采云 发布时间: 2022-11-24 09:39分享文章:微信公众号文章正文采集
很多时候,我们都有采集
网页文章正文的需求。本文以搜狗微信文章为例,介绍使用优采云
采集网页文章正文的方法。文章正文一般包括文字和图片两种类型。本文仅演示文中采集文章的方法,图文采集将在另一篇教程中提及。
本文将采集
以下字段:文章标题、时间、出处、正文(正文中所有文字将合并到一个excel单元格中,使用“自定义数据合并方式”功能,请注意)。下面是《自定义数据合并方法》的详细教程,大家可以先看看:
/tutorialdetail-1/zdyhb_7.html
采集
网站:
使用功能点:
l 寻呼列表信息采集
/教程/fylb-70.aspx?t=1
lXpath
/教程/gnd/xpath
lAJAX点击和翻页
/tutorialdetail-1/ajaxdjfy_7.html
第一步:创建采集任务
1)进入主界面,选择“自定义模式”
2) 将要采集的网址复制粘贴到网址输入框中,点击“保存网址”
第 2 步:创建翻页循环
1)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个版块。网页打开后,默认显示“热点”文章。下拉页面,找到并点击“加载更多内容”按钮,在操作提示框中选择“更多操作”
2)选择“循环点击单个元素”创建翻页循环
由于本网页涉及Ajax技术,我们需要设置一些高级选项。选择“点击元素”步骤,打开“高级选项”,勾选“Ajax Load Data”,时间设置为“2秒”
注:AJAX是一种延迟加载、异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。
" />
性能特点: a.当点击网页中的某个选项时,大多数网站的网址不会发生变化;b. 该网页未完全加载,但仅部分加载了数据,这些数据会发生变化。
验证方法:点击操作后,在浏览器中,URL输入框不会出现loading状态,也不会出现circle状态。
观察网页发现,点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章。因此,我们将整个“循环翻页”步骤设置为执行5次。选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”
第 3 步:创建列表循环并提取数据
1) 移动鼠标选择页面上的第一篇文章链接。系统会自动识别相似链接。在操作提示框中,选择“全选”
2)选择“循环点击每个链接”
3)系统会自动进入文章详情页面。点击需要采集的字段(文章标题先点这里),在操作提示框中选择“采集该元素的文本”。文章发布时间和文章来源字段的采集方式相同
4)接下来,开始采集
文章的正文。首先点击文章正文第一段,系统会自动识别页面相似元素,选择“全选”
5) 可以看到所有的文字段落都被选中了,变成了绿色。选择“采集
以下元素的文本”
注意:在字段表中,可以对字段进行自定义修改
6) 经过以上操作,所有的文本都会被采集
起来(默认情况下,每段文本是一个单元格)。一般来说,我们希望将采集
到的文本合并到同一个单元格中。点击“自定义数据字段”按钮,选择“自定义数据合并方式”,勾选“同一字段多次摘录合并为一行,即追加到同一字段,如文本页面合并”,然后点击“好的”
“自定义数据字段”按钮
选择“自定义数据合并方法”
检查如图
第 4 步:修改 XPath
" />
1)选中整个“Cycle Step”,打开“Advanced Options”,可以看到优采云
默认生成固定元素列表,定位到前20篇文章的链接
2) 在Firefox浏览器中打开要采集的网页,观察源代码。通过这个Xpath我们发现:
//DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A,页面需要的100篇文章全部定位
3)将修改后的Xpath复制粘贴到优采云
所示位置,点击“确定”
第五步:修改流程图结构
我们继续观察,点击“加载更多内容”5次后,该网页加载了所有100篇文章。所以我们配置规则的思路是先创建一个翻页循环,加载所有100篇文章,然后创建一个循环列表提取数据
1)选中整个“循环”步骤,拖出“循环翻页”步骤。如果不这样做,就会有很多重复的数据
拖动完成后如下图
第六步:数据采集与导出
1)点击左上角“保存”,然后点击“开始采集”,选择“开始本地采集”
2)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,将采集到的数据导出
3)这里我们选择excel作为导出格式,数据导出如下图
4)如上图,部分文章正文未采集。这是因为系统自动生成的文章正文循环列表的Xpath://[@id="js_content"]/P找不到这篇文章的正文。修改Xpath为://[@id="js_content"]//P,可以定位所有文章正文
修改 XPath 之前
注意:本文方法只适用于采集搜狗微信文章正文的文字内容,不能采集正文中的图片。如果需要采集图片,需要在流程中加入判断条件。
心得:百度生存法则完整版分享
2014年12月底,百度站长平台发布了完整版《百度新闻源站生存法则》PPT。通过对各种新闻案例的对比分析,阐述了百度新闻源采集标准的相关问题。6月26日,在百度站长平台VIP大讲堂,从《认识百度新闻源》开始,通过案例详细阐述了百度优质新闻源的标准,以及百度对低质量新闻源的处罚。机制介绍,低质量包括多次发布、粗制滥造、过度优化等。以下是《百度新闻源生存法则升级版》PPT完整版。
百度新闻源QA合集
1 成为新闻来源之前
Q:申请Google News Source时,会要求申请网页的新闻内容页明确标注发布时间、编辑、来源等要素。百度新闻源是否有相同的要求?
答:请求。对于百度新闻源的网站,我们建议在页面上明确标明内容的发布时间(精确到分钟)、编辑和内容的来源(最好有原文地址)。
Q:百度新闻源在版权问题上有什么要求吗?
答:百度正在向“引流至真实来源站”的方向靠拢。
Q:申请新闻来源的网站对每天发布的信息数量有要求吗?
答:本标准以网站提供的实时新闻内容为准,不受数量影响。
Q:做一个纯原创的网站是很难的。原创内容在信息发布量中的最低比例应该是多少?
" />
答:新闻源对原创内容的判断更多是基于其“新闻属性”,而不是单纯的“原创概念”。新闻源需要的是“原创新闻内容”,但严禁同一内容的多个网址。
Q:百度新闻如何判断商业软文和合法企业新闻?
答:具体可以参考百度新闻源的标准。主要标准是发布的内容是否与网站所针对的用户群具有相同的属性。
Q:我们的原创内容由XX网站采集
。他们是新闻来源,但我们不是。遇到这种情况怎么办?
答:我们仍然倾向于包括原创
新闻内容。如果您确实有此问题,可以与站长平台投诉反馈中心进行沟通。前提是你的网站没有因为盗号、软文等低质量的内容而被处罚。
Q:本地网站如果想提供旅游信息,能不能通过新闻源的审核?
答:这取决于内容的类型,是否具有新闻属性,以及用户是否会浏览相关内容。假设只发布旅游宣传信息是危险的,但哪些地方危险可能不适合旅行或可能会收到消息。资源。
2 成为新闻源网站后
Q:收录了新闻来源,但缩略图不显示,如何调整,不显示的常见原因有哪些?
答:大部分原因是因为新闻源的文章内容页面,新闻内容中是否有有效图片,图片是否可以正常抓取。
问:新闻来源栏下的内容,前台没有入口,但也收录了。是什么原因?
" />
答:新闻源蜘蛛按照一定逻辑爬行,不受入口影响。
问:防止其他版块被收录
在新闻源中的最佳方法是什么?
答:禁止使用机器人。
问:消息来源往往是当天甚至是立即采集
的。次日收货时如何调整?网站本身保持不变。
A:可以通过百度站长工具的“优质新闻资源实时推送工具”提交。请持续关注本站平台活动,发送邮件申请权限。
Q:新闻源采集
总数会在一定时间后恢复。比如采集
到20万,突然又回到5万。
答:取决于网站在互联网上提供的内容的同质性。比如原创性不高,可能经过程序处理,对网站页面的展示方式有一定的影响。
Q:伪原创内容对网站有害吗?
答:根据内容对用户的价值,纯伪原创内容会受到处罚。
问:全国性新闻事件在每个市分站发布,算不算多次发布?
答:多城多发,严格定义是一稿多发。我们希望只发布一次就足够了。如果有一些深入的跟踪报道是另外一个方面。