文章内容采集(优采云·云采集服务平台优采云网页文章正文采集方法，以及微信文章采集为例)

优采云发布时间: 2021-09-17 22:13

　　优采云·cloud采集service platform优采云·cloud采集service platform网页文章text采集method和微信@K7采集作为一个例子，当我们想要保存今天头条新闻和搜狗微信上的文章文本时，我们应该怎么做？一个一个复制粘贴？选择一个通用web数据采集器，将使工作更容易优采云是一个通用web数据采集器，它可以在采集互联网上打开数据。用户可以设置从哪个网站数据爬网、爬网哪个数据、爬网的数据范围、何时爬网、如何保存爬网的数据等。为了回到正题，本文将以搜狗微信的文章text采集为例，介绍如何使用优采云采集web page文章text文章text采集，主要有两类：文本中的@K21采集文章text，不包括图片@K22采集文章text和正文中的图片url。示例网站:/使用函数节点：XPath/search？Query=XPath判断条件/tutorialdetail-1/judge.html分页列表信息采集/tutorial/fylb-70.Aspx？T=1ajax滚动教程/tutorialdetail-1/ajgd7.htmlAJAX单击并翻页/tutorialdetail-1/ajaxdjfy7.html采集文章正文中的文本，不包括图片。具体步骤：步骤1：创建采集task1）进入主界面，选择“自定义模式”网页文章body采集Step12）将要成为采集的网址的URL复制粘贴到网站输入框中，点击“保存网址”网页文章body采集step 2第2步：在页面右上角创建一个翻页循环，打开“流程”，显示“流程设计器”和“自定义当前操作”两部分

　　打开网页后，默认显示“热门”文章。下拉页面，找到并单击“加载更多内容”按钮。在操作提示框中，选择“更多操作”网页文章body采集step 3，选择“重复点击单个元素”，创建一个翻页循环页面文章body采集step 4因为这个页面涉及Ajax技术，我们需要设置一些高级选项。选择“单击元素”步骤，打开“高级选项”，检查“Ajax加载数据”，并将时间设置为“2秒”页面文章body采集step 5注意：Ajax是一种延迟加载和异步更新的脚本技术。通过在后台与服务器进行少量数据交换，您可以更新页面的一部分，而无需重新加载整个页面。有关详细信息，请参阅Ajax单击和翻页教程：/tutorialdetail-1/ajaxdjfy7.html观察网页，我们发现它通过了5次点击“加载更多内容”，页面将加载到底部，显示100篇文章文章. 因此，我们将整个“翻页周期”步骤设置为执行5次。选择“翻页循环”步骤，打开“高级选项”，打开“满足以下条件时退出循环”，将循环次数设置为“5次”，然后单击“确定”页面文章body采集step 6第3步：创建列表循环并提取数据。移动鼠标以选择页面中的第一个文章链接。系统将自动识别类似链接。在操作提示框中，选择“全选”页面文章body采集step 7选择“点击每个链接循环”页面文章body采集step 8，系统将自动进入文章details页面

　　单击所需的采集字段（首先单击此处的文章标题），并在操作提示框中选择“采集此元素的文本”。文章publishing time和文章source字段的采集方法与页面文章body采集step 9相同。然后启动采集文章body。首先点击文章body的第一段，系统会自动识别页面中的类似元素，并选择“全选”页面文章body采集steps105）您可以看到所有文本段落都被选中并变为绿色。选择“采集following element text”网页文章text采集step 11。注意：在字段表中，您可以自定义字段并修改网页文章text采集step126）完成上述操作后，文本将全部采集down（文本的每个段落默认为一个单元格）。一般来说，我们希望采集文本合并到同一单元格中。点击“自定义数据字段”，选择“自定义数据合并方法”，勾选“同一字段被多次提取并合并成一行，即追加到同一字段，如文本页面合并”，然后点击“确定”页面文章body采集step 13“自定义数据字段”按钮页面文章body采集step 14选择“自定义数据整合方法“页面文章body采集步骤15检查，如图所示步骤4：修改Xpath1）选择整个循环步骤以打开高级选项，如您所见，优采云默认生成固定元素列表，并找到前20个文章链接页面的文章body采集步骤162）在Firefox浏览器中打开网页至采集并查看源代码

　　我们发现，通过这个XPath://div[@class='main-left']/div[3]/UL/Li/div[2]/H3[1]/A，页面中需要的100文章位于网页文章body的采集步骤中173）将修改后的XPath复制并粘贴到优采云中所示的位置，然后单击“确定”页面文章body采集步骤18第5步：修改流程图结构。我们继续观察。单击“加载更多内容”5次后，此页面将加载所有100文章。因此，我们的配置规则的想法是首先建立一个翻页循环，加载所有100文章，然后建立一个循环列表，提取数据1）选择整个“循环”步骤并将其拖出“页面循环”步骤。如果不执行此操作，将在步骤19的文章body采集处出现许多重复的数据页。拖动后，如下图所示，页面文章body采集step 20第6步：数据采集导出1）点击左上角的“保存”，然后点击“开始采集”，选择“开始本地采集”页面文章body采集steps21采集完成后，会弹出提示，选择“导出数据”并“适当的导出方法”，将采集良好数据导出到网页文章body采集step223）这里，我们选择excel作为导出格式。数据导出如下图所示。上图显示了文章body采集step 23页面。一些文章body未找到采集found。这是因为XPath://[@id=”系统自动生成的文章body循环列表中的js_content“]/P找不到文章body

　　将XPath修改为：//[@id=“js_content”]//P.可以找到所有文章文本。当采集重新启动时，所有文章文本内容都是采集到网页文章text采集step 24。在修改XPath之前，网页文章text采集step 25。修改XPath后，目标网站中微信文章text中的所有文本都是采集down。如果采集图片是n需要添加的是，它们需要在现有规则中添加一个判断条件。采集文章正文中的文本和图片URL后面是第6步第7步：添加判断条件。在前6步之后，我们只采集微信文章中的文本内容，不在采集中收录图片文章.如果您需要采集图片，则需要添加ju规则的DGE条件：判断文章内容列表是否收录img元素（图片），执行图片采集分支；如果img元素（图片）不包括，则执行文本采集分支。同时，在优采云中，默认为左分支设置判断条件。如果满足此判断条件，则执行左分支；默认情况下，最右边的分支为“不判断，始终执行此分支”，即当不满足左分支的判断条件时，将执行最右分支。返回此规则，即设置左分支的条件：如果收录IMG元素（图片），则执行左分支；如果不满足左侧条件分支的条件（即不包括img元素），则执行右侧的分支。具体操作如下：从左侧工具栏将“判断条件”步骤拖到流程中（将选中的图标拖到箭头所示的绿色加号处），判断条件出现在流程图中的网页文章body采集step 26中

　　我们将“提取数据”步骤移动到右侧的分支（绿色加号）。然后单击右侧的分支，并在结果页面上单击“确定”（分支条件检测结果-检测结果始终为真）。页面文章body采集step 27将“提取元素”步骤，拖动到右分支网页文章body采集step 28 right branch-检测结果始终为真，单击左分支，然后在结果页面上单击“确定”（分支条件检测结果-检测结果始终为真）。然后设置判断条件：勾选“当前循环项收录元素”，输入元素XPath://img（表示图片），然后点击“确定”页面文章body采集step 29点击左分支到左分支设置判断条件页面文章body采集step304）设置左分支条件后，继续执行数据提取步骤。将“数据提取”步骤从左侧工具栏拖到流程图的左侧分支（绿色加号处），然后在页面中选择一张图片，在操作提示框中选择“采集图片地址”，拖动新的“提取数据”步骤至左侧分支网页文章body采集step31采集Picture address page文章body采集steps325）选择右侧分支中的“提取数据”步骤，点击“自定义数据字段”按钮，选择“自定义定位元素方法”，记录“元素匹配XPath”：//*[@id=“js_content”]/P[1]/span[1]和“相对XPath”：/span[1]在红色框中，并记录与自定义

0

2021-09-17

文章内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章内容采集(优采云·云采集服务平台优采云网页文章正文采集方法，以及微信文章采集为例)

0 个评论

发起人

AI时代内容工厂

文章内容采集(优采云·云采集服务平台优采云网页文章正文采集方法，以及微信文章采集为例)

0 个评论

发起人

相关问题