分享文章:微信公众号文章正文采集

优采云 发布时间: 2022-11-24 09:39

  分享文章:微信公众号文章正文采集

  很多时候,我们都有采集

网页文章正文的需求。本文以搜狗微信文章为例,介绍使用优采云

采集网页文章正文的方法。文章正文一般包括文字和图片两种类型。本文仅演示文中采集文章的方法,图文采集将在另一篇教程中提及。

  本文将采集

以下字段:文章标题、时间、出处、正文(正文中所有文字将合并到一个excel单元格中,使用“自定义数据合并方式”功能,请注意)。下面是《自定义数据合并方法》的详细教程,大家可以先看看:

  /tutorialdetail-1/zdyhb_7.html

  采集

网站:

  使用功能点:

  l 寻呼列表信息采集

  /教程/fylb-70.aspx?t=1

  lXpath

  /教程/gnd/xpath

  lAJAX点击和翻页

  /tutorialdetail-1/ajaxdjfy_7.html

  第一步:创建采集任务

  1)进入主界面,选择“自定义模式”

  2) 将要采集的网址复制粘贴到网址输入框中,点击“保存网址”

  第 2 步:创建翻页循环

  1)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个版块。网页打开后,默认显示“热点”文章。下拉页面,找到并点击“加载更多内容”按钮,在操作提示框中选择“更多操作”

  2)选择“循环点击单个元素”创建翻页循环

  由于本网页涉及Ajax技术,我们需要设置一些高级选项。选择“点击元素”步骤,打开“高级选项”,勾选“Ajax Load Data”,时间设置为“2秒”

  注:AJAX是一种延迟加载、异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。

  

" />

  性能特点: a.当点击网页中的某个选项时,大多数网站的网址不会发生变化;b. 该网页未完全加载,但仅部分加载了数据,这些数据会发生变化。

  验证方法:点击操作后,在浏览器中,URL输入框不会出现loading状态,也不会出现circle状态。

  观察网页发现,点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章。因此,我们将整个“循环翻页”步骤设置为执行5次。选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”

  第 3 步:创建列表循环并提取数据

  1) 移动鼠标选择页面上的第一篇文章链接。系统会自动识别相似链接。在操作提示框中,选择“全选”

  2)选择“循环点击每个链接”

  3)系统会自动进入文章详情页面。点击需要采集的字段(文章标题先点这里),在操作提示框中选择“采集该元素的文本”。文章发布时间和文章来源字段的采集方式相同

  4)接下来,开始采集

文章的正文。首先点击文章正文第一段,系统会自动识别页面相似元素,选择“全选”

  5) 可以看到所有的文字段落都被选中了,变成了绿色。选择“采集

以下元素的文本”

  注意:在字段表中,可以对字段进行自定义修改

  6) 经过以上操作,所有的文本都会被采集

起来(默认情况下,每段文本是一个单元格)。一般来说,我们希望将采集

到的文本合并到同一个单元格中。点击“自定义数据字段”按钮,选择“自定义数据合并方式”,勾选“同一字段多次摘录合并为一行,即追加到同一字段,如文本页面合并”,然后点击“好的”

  “自定义数据字段”按钮

  选择“自定义数据合并方法”

  检查如图

  第 4 步:修改 XPath

  

" />

  1)选中整个“Cycle Step”,打开“Advanced Options”,可以看到优采云

默认生成固定元素列表,定位到前20篇文章的链接

  2) 在Firefox浏览器中打开要采集的网页,观察源代码。通过这个Xpath我们发现:

  //DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A,页面需要的100篇文章全部定位

  3)将修改后的Xpath复制粘贴到优采云

所示位置,点击“确定”

  第五步:修改流程图结构

  我们继续观察,点击“加载更多内容”5次后,该网页加载了所有100篇文章。所以我们配置规则的思路是先创建一个翻页循环,加载所有100篇文章,然后创建一个循环列表提取数据

  1)选中整个“循环”步骤,拖出“循环翻页”步骤。如果不这样做,就会有很多重复的数据

  拖动完成后如下图

  第六步:数据采集与导出

  1)点击左上角“保存”,然后点击“开始采集”,选择“开始本地采集”

  2)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,将采集到的数据导出

  3)这里我们选择excel作为导出格式,数据导出如下图

  4)如上图,部分文章正文未采集。这是因为系统自动生成的文章正文循环列表的Xpath://[@id="js_content"]/P找不到这篇文章的正文。修改Xpath为://[@id="js_content"]//P,可以定位所有文章正文

  修改 XPath 之前

  注意:本文方法​​只适用于采集搜狗微信文章正文的文字内容,不能采集正文中的图片。如果需要采集图片,需要在流程中加入判断条件。

  心得:百度生存法则完整版分享

  2014年12月底,百度站长平台发布了完整版《百度新闻源站生存法则》PPT。通过对各种新闻案例的对比分析,阐述了百度新闻源采集标准的相关问题。6月26日,在百度站长平台VIP大讲堂,从《认识百度新闻源》开始,通过案例详细阐述了百度优质新闻源的标准,以及百度对低质量新闻源的处罚。机制介绍,低质量包括多次发布、粗制滥造、过度优化等。以下是《百度新闻源生存法则升级版》PPT完整版。

  百度新闻源QA合集

  1 成为新闻来源之前

  Q:申请Google News Source时,会要求申请网页的新闻内容页明确标注发布时间、编辑、来源等要素。百度新闻源是否有相同的要求?

  答:请求。对于百度新闻源的网站,我们建议在页面上明确标明内容的发布时间(精确到分钟)、编辑和内容的来源(最好有原文地址)。

  Q:百度新闻源在版权问题上有什么要求吗?

  答:百度正在向“引流至真实来源站”的方向靠拢。

  Q:申请新闻来源的网站对每天发布的信息数量有要求吗?

  答:本标准以网站提供的实时新闻内容为准,不受数量影响。

  Q:做一个纯原创的网站是很难的。原创内容在信息发布量中的最低比例应该是多少?

  

" />

  答:新闻源对原创内容的判断更多是基于其“新闻属性”,而不是单纯的“原创概念”。新闻源需要的是“原创新闻内容”,但严禁同一内容的多个网址。

  Q:百度新闻如何判断商业软文和合法企业新闻?

  答:具体可以参考百度新闻源的标准。主要标准是发布的内容是否与网站所针对的用户群具有相同的属性。

  Q:我们的原创内容由XX网站采集

。他们是新闻来源,但我们不是。遇到这种情况怎么办?

  答:我们仍然倾向于包括原创

新闻内容。如果您确实有此问题,可以与站长平台投诉反馈中心进行沟通。前提是你的网站没有因为盗号、软文等低质量的内容而被处罚。

  Q:本地网站如果想提供旅游信息,能不能通过新闻源的审核?

  答:这取决于内容的类型,是否具有新闻属性,以及用户是否会浏览相关内容。假设只发布旅游宣传信息是危险的,但哪些地方危险可能不适合旅行或可能会收到消息。资源。

  2 成为新闻源网站后

  Q:收录了新闻来源,但缩略图不显示,如何调整,不显示的常见原因有哪些?

  答:大部分原因是因为新闻源的文章内容页面,新闻内容中是否有有效图片,图片是否可以正常抓取。

  问:新闻来源栏下的内容,前台没有入口,但也收录了。是什么原因?

  

" />

  答:新闻源蜘蛛按照一定逻辑爬行,不受入口影响。

  问:防止其他版块被收录

在新闻源中的最佳方法是什么?

  答:禁止使用机器人。

  问:消息来源往往是当天甚至是立即采集

的。次日收货时如何调整?网站本身保持不变。

  A:可以通过百度站长工具的“优质新闻资源实时推送工具”提交。请持续关注本站平台活动,发送邮件申请权限。

  Q:新闻源采集

总数会在一定时间后恢复。比如采集

到20万,突然又回到5万。

  答:取决于网站在互联网上提供的内容的同质性。比如原创性不高,可能经过程序处理,对网站页面的展示方式有一定的影响。

  Q:伪原创内容对网站有害吗?

  答:根据内容对用户的价值,纯伪原创内容会受到处罚。

  问:全国性新闻事件在每个市分站发布,算不算多次发布?

  答:多城多发,严格定义是一稿多发。我们希望只发布一次就足够了。如果有一些深入的跟踪报道是另外一个方面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线