分享文章:微信公众号文章正文采集

优采云发布时间: 2022-11-24 09:39

　　分享文章:微信公众号文章正文

" target="_blank">采集

　　很多时候，我们都有采集

网页文章正文的需求。本文以搜狗微信文章为例，介绍使用优采云

采集网页文章正文的方法。文章正文一般包括文字和图片两种类型。本文仅演示文中采集文章的方法，图文采集将在另一篇教程中提及。

　　本文将采集

以下字段：文章标题、时间、出处、正文（正文中所有文字将合并到一个excel单元格中，使用“自定义数据合并方式”功能，请注意）。下面是《自定义数据合并方法》的详细教程，大家可以先看看：

　　/tutorialdetail-1/zdyhb_7.html

　　采集

网站：

　　使用功能点：

　　l 寻呼列表信息采集

　　/教程/fylb-70.aspx?t=1

　　lXpath

　　/教程/gnd/xpath

　　lAJAX点击和翻页

　　/tutorialdetail-1/ajaxdjfy_7.html

　　第一步：创建采集任务

　　1）进入主界面，选择“自定义模式”

　　2) 将要采集的网址复制粘贴到网址输入框中，点击“保存网址”

　　第 2 步：创建翻页循环

　　1）在页面右上角，打开“流程”，显示“流程设计器”和“自定义当前操作”两个版块。网页打开后，默认显示“热点”文章。下拉页面，找到并点击“加载更多内容”按钮，在操作提示框中选择“更多操作”

　　2）选择“循环点击单个元素”创建翻页循环

　　由于本网页涉及Ajax技术，我们需要设置一些高级选项。选择“点击元素”步骤，打开“高级选项”，勾选“Ajax Load Data”，时间设置为“2秒”

　　注：AJAX是一种延迟加载、异步更新的脚本技术。通过在后台与服务器交换少量数据，可以在不重新加载整个网页的情况下更新网页的某一部分。

" />

　　性能特点： a．当点击网页中的某个选项时，大多数网站的网址不会发生变化；b. 该网页未完全加载，但仅部分加载了数据，这些数据会发生变化。

　　验证方法：点击操作后，在浏览器中，URL输入框不会出现loading状态，也不会出现circle状态。

　　观察网页发现，点击“加载更多内容”5次后，页面加载到底部，一共显示了100篇文章。因此，我们将整个“循环翻页”步骤设置为执行5次。选择“循环翻页”步骤，打开“高级选项”，打开“满足以下条件时退出循环”，设置循环次数等于“5次”，点击“确定”

　　第 3 步：创建列表循环并提取数据

　　1) 移动鼠标选择页面上的第一篇文章链接。系统会自动识别相似链接。在操作提示框中，选择“全选”

　　2）选择“循环点击每个链接”

　　3）系统会自动进入文章详情页面。点击需要采集的字段（文章标题先点这里），在操作提示框中选择“采集该元素的文本”。文章发布时间和文章来源字段的采集方式相同

　　4）接下来，开始采集

文章的正文。首先点击文章正文第一段，系统会自动识别页面相似元素，选择“全选”

　　5) 可以看到所有的文字段落都被选中了，变成了绿色。选择“采集

以下元素的文本”

　　注意：在字段表中，可以对字段进行自定义修改

　　6) 经过以上操作，所有的文本都会被采集

起来（默认情况下，每段文本是一个单元格）。一般来说，我们希望将采集

到的文本合并到同一个单元格中。点击“自定义数据字段”按钮，选择“自定义数据合并方式”，勾选“同一字段多次摘录合并为一行，即追加到同一字段，如文本页面合并”，然后点击“好的”

　　“自定义数据字段”按钮

　　选择“自定义数据合并方法”

　　检查如图

　　第 4 步：修改 XPath

" />

　　1）选中整个“Cycle Step”，打开“Advanced Options”，可以看到优采云

默认生成固定元素列表，定位到前20篇文章的链接

　　2) 在Firefox浏览器中打开要采集的网页，观察源代码。通过这个Xpath我们发现：

　　//DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A，页面需要的100篇文章全部定位

　　3）将修改后的Xpath复制粘贴到优采云

所示位置，点击“确定”

　　第五步：修改流程图结构

　　我们继续观察，点击“加载更多内容”5次后，该网页加载了所有100篇文章。所以我们配置规则的思路是先创建一个翻页循环，加载所有100篇文章，然后创建一个循环列表提取数据

　　1）选中整个“循环”步骤，拖出“循环翻页”步骤。如果不这样做，就会有很多重复的数据

　　拖动完成后如下图

　　第六步：数据采集与导出

　　1）点击左上角“保存”，然后点击“开始采集”，选择“开始本地采集”

　　2）采集完成后会弹出提示，选择“导出数据”，选择“合适的导出方式”，将采集到的数据导出

　　3）这里我们选择excel作为导出格式，数据导出如下图

　　4）如上图，部分文章正文未采集。这是因为系统自动生成的文章正文循环列表的Xpath://[@id="js_content"]/P找不到这篇文章的正文。修改Xpath为：//[@id="js_content"]//P，可以定位所有文章正文

　　修改 XPath 之前

　　注意：本文方法只适用于采集搜狗微信文章正文的文字内容，不能采集正文中的图片。如果需要采集图片，需要在流程中加入判断条件。

　　心得:百度生存法则完整版分享

　　2014年12月底，百度站长平台发布了完整版《百度新闻源站生存法则》PPT。通过对各种新闻案例的对比分析，阐述了百度新闻源

" target="_blank">采集标准的相关问题。6月26日，在百度站长平台VIP大讲堂，从《认识百度新闻源》开始，通过案例详细阐述了百度优质新闻源的标准，以及百度对低质量新闻源的处罚。机制介绍，低质量包括多次发布、粗制滥造、过度优化等。以下是《百度新闻源生存法则升级版》PPT完整版。

　　百度新闻源QA合集

　　1 成为新闻来源之前

　　Q：申请Google News Source时，会要求申请网页的新闻内容页明确标注发布时间、编辑、来源等要素。百度新闻源是否有相同的要求？

　　答：请求。对于百度新闻源的网站，我们建议在页面上明确标明内容的发布时间（精确到分钟）、编辑和内容的来源（最好有原文地址）。

　　Q：百度新闻源在版权问题上有什么要求吗？

　　答：百度正在向“引流至真实来源站”的方向靠拢。

　　Q：申请新闻来源的网站对每天发布的信息数量有要求吗？

　　答：本标准以网站提供的实时新闻内容为准，不受数量影响。

　　Q：做一个纯原创的网站是很难的。原创内容在信息发布量中的最低比例应该是多少？

" />

　　答：新闻源对原创内容的判断更多是基于其“新闻属性”，而不是单纯的“原创概念”。新闻源需要的是“原创新闻内容”，但严禁同一内容的多个网址。

　　Q：百度新闻如何判断商业软文和合法企业新闻？

　　答：具体可以参考百度新闻源的标准。主要标准是发布的内容是否与网站所针对的用户群具有相同的属性。

　　Q：我们的原创内容由XX网站采集

。他们是新闻来源，但我们不是。遇到这种情况怎么办？

　　答：我们仍然倾向于包括原创

新闻内容。如果您确实有此问题，可以与站长平台投诉反馈中心进行沟通。前提是你的网站没有因为盗号、软文等低质量的内容而被处罚。

　　Q：本地网站如果想提供旅游信息，能不能通过新闻源的审核？

　　答：这取决于内容的类型，是否具有新闻属性，以及用户是否会浏览相关内容。假设只发布旅游宣传信息是危险的，但哪些地方危险可能不适合旅行或可能会收到消息。资源。

　　2 成为新闻源网站后

　　Q：收录了新闻来源，但缩略图不显示，如何调整，不显示的常见原因有哪些？

　　答：大部分原因是因为新闻源的文章内容页面，新闻内容中是否有有效图片，图片是否可以正常抓取。

　　问：新闻来源栏下的内容，前台没有入口，但也收录了。是什么原因？

" />

　　答：新闻源蜘蛛按照一定逻辑爬行，不受入口影响。

　　问：防止其他版块被收录

在新闻源中的最佳方法是什么？

　　答：禁止使用机器人。

　　问：消息来源往往是当天甚至是立即采集

的。次日收货时如何调整？网站本身保持不变。

　　A：可以通过百度站长工具的“优质新闻资源实时推送工具”提交。请持续关注本站平台活动，发送邮件申请权限。

　　Q：新闻源采集

总数会在一定时间后恢复。比如采集

到20万，突然又回到5万。

　　答：取决于网站在互联网上提供的内容的同质性。比如原创性不高，可能经过程序处理，对网站页面的展示方式有一定的影响。

　　Q：

" target="_blank">伪原创内容对网站有害吗？

　　答：根据内容对用户的价值，纯伪原创内容会受到处罚。

　　问：全国性新闻事件在每个市分站发布，算不算多次发布？

　　答：多城多发，严格定义是一稿多发。我们希望只发布一次就足够了。如果有一些深入的跟踪报道是另外一个方面。

0

2022-11-24

网站自动采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

分享文章:微信公众号文章正文采集

0 个评论

发起人