自动采集文章文章(创建一个翻页循环云采集服务平台自媒体文章采集方法(组图))

优采云发布时间: 2021-10-06 12:25

　　云采集服务平台自媒体文章采集方法随着移动互联网的发展，获取信息和发布信息变得非常方便。这几年自媒体也成为热门话题，其中一些自媒体发布了很多优质的文章，让我们有更多的渠道看这个世界，如果我们想把这些自媒体文章采集下来，如果用最快最有效的方法怎么办？搜狗微信今天的头条新闻和文章的文字要保存，我们应该怎么做？复制并粘贴一篇文章？选择一个通用的网页数据采集器将使工作变得更加容易。优采云是通用网页数据采集器，可以是采集互联网上的公共数据。用户可以设置从哪个网站抓取数据、抓取哪些数据、抓取数据的范围、抓取数据的时间、抓取数据的保存方式等。言归正传，本文将以搜狗微信的文章文字采集为例，讲解优采云采集网页文章文字的使用方法。文章正文采集，主要有两种情况：一、采集文章正文中的文字，不带图片；二、采集文章正文中的文字和图片网址示例网站：使用功能点：Xpath判断条件分页列表信息采集云采集@ > 服务平台AJAX滚动教程AJAX点击并翻页一、采集文章正文中的文字，没有图片。具体步骤：步骤：创建<

　　打开网页后，默认显示“热门”文章。向下滚动页面，找到并点击“加载更多内容”按钮，在操作提示框中选择“更多操作”云采集服务平台自媒体文章采集步骤2）选择“循环点击单个元素”，创建翻页循环云采集服务平台自媒体文章采集步骤由于本网页涉及Ajax 技术，我们需要设置一些高级选项。选择“点击元素”步骤，打开“高级选项”“Ajax加载数据”，设置时间为云采集服务平台自媒体文章采集步骤注意： AJAX 是一种扩展了时间加载和异步更新的脚本技术。通过后台与服务器的少量数据交换，可以在不重新加载整个网页的情况下更新网页的某一部分。详情请参考AJAX点击翻页教程：观察网页，我们发现点击“加载更多内容”，页面加载到底部，一共显示100个文章 . 因此，我们将整个“循环翻页”步骤设置为执行次数。选择“循环翻页”步骤，打开云采集服务平台“高级选项”，打开“满足以下条件时退出循环”，设置循环次数等于：创建列表循环和提取数据 1）移动鼠标，选择页面上的第一个文章链接。系统会自动识别相似链接。在操作提示框中选择“全选”云采集服务平台自媒体文章采集步骤2）选择“循环点击每个链接”云< @采集服务平台自媒体文章采集步骤3）系统会自动进入<

　　点击需要采集的字段（这里先点击文章标题），在操作提示框中选择“采集该元素的文本”。文章发布时间，文章源字段采集方法同理云采集服务平台自媒体文章采集步骤< @4）接下来开始采集文章的正文。点击文章正文的第一段，系统会自动识别页面中的相似元素，选择“全选”云采集服务平台自媒体文章采集Step 10 5）可以看到所有的文本段落都被选中并且变成了绿色。选择“采集以下元素文本”云采集服务平台自媒体文章< @采集 Step 11 注意：字段表中的字段可以自行修改 Cloud 采集Service Platform自媒体文章采集Step 12 6）经过以上操作后，文字会全部采集向下（默认是每段正文为一个单元格）。一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集在字段表中，可以自行修改字段 Cloud 采集Service Platform自媒体文章采集Step 12 6）以上操作后，文本将全部采集向下（默认是每段正文为一个单元格）。一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集在字段表中，可以自行修改字段 Cloud 采集Service Platform自媒体文章采集Step 12 6）以上操作后，文本将全部采集向下（默认是每段正文为一个单元格）。一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集可以自行修改字段 Cloud 采集Service Platform自媒体文章采集Step 12 6）以上操作后，文字全部为采集 @> down（默认是每段正文是一个单元格）。一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集可以自行修改字段 Cloud 采集Service Platform自媒体文章采集Step 12 6）以上操作后，文字全部为采集 @> down（默认是每段正文是一个单元格）。一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 @文章采集第12步6）经过以上操作，文字将全部采集向下（默认是每段正文为一个单元格）。一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 @文章采集第12步6）经过以上操作，文字将全部采集向下（默认是每段正文为一个单元格）。一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集一般来说，我们希望采集的 body 合并到同一个单元格中。点击“自定义数据字段”按钮，选择数据合并方式的定义”，勾选“将同一字段多次提取合并成一行，即追加到同一字段，如文本页合并”，并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集

　　我们发现通过这个Xpath //DIV[@class=´main-left´]/DIV[3]/UL/LI/DIV[2]/H3[1]/A，页面需要100篇文章< @文章都位于云端采集服务平台自媒体文章采集第十七步3）将修改后的Xpath复制粘贴到优采云@ >，然后点击“确定”云采集服务平台自媒体文章采集步骤18 步骤：修改流程图结构。我们继续观察，点击“加载更多内容”后，这个页面加载了全部100个文章。所以，我们配置规则的思路是先建立一个翻页循环，加载全部100个文章，然后创建一个循环列表，提取数据1）选择整个“循环”步骤，并将其拖出“循环”翻页”步骤。如果不这样做，就会有很多重复的数据云。@采集服务平台自媒体文章采集 Step 20 Step：数据采集和导出1）点击左上角“保存”，然后点击“启动采集”，选择“启动本地采集”云采集服务平台自媒体文章采集步骤212）采集完成后会弹出提示，选择“导出数据”，选择“合适的导出方式”，将采集好的数据导出到云端<

　　那是因为系统自动生成的文章文本的循环列表Xpath：//[@id="js_content"]/P，找不到这个文章的文本。修改Xpath为：//[@id="js_content"]//P，文章的所有文本都可以定位。再次启动采集，文章的body内容已经采集到云端采集服务平台自媒体文章采集步骤 24 修改 Xpath 云采集服务平台自媒体文章采集步骤 25 修改 Xpath 经过以上操作，微信正文文章中的所有文字目标 URL 已经采集下来了。如果还需要采集图片，则需要在现有规则中添加判断条件。二、采集文章 body中的文字和图片网址后面跟着云中的步骤采集服务平台步骤：增加判断条件经过上一步，我们只采集微信中的文字内容文章@ > 不包括文章中的图片。如果需要采集的图片，需要在规则中添加一个判断条件：判断文章的内容列表，如果收录img元素（图片），则执行图片采集 @> 分支；如果不收录 img 元素（图片），文本采集将同时被拆分。优采云中默认设置左分支，设置判断条件。如果满足这个判断条件，则执行左分支；默认是最右边的侧分支是“不判断，一直执行这个分支”，

　　回到这个规则，即设置左分支的条件：如果收录img元素（图片），则执行左分支；如果不满足左条件分支的条件（即不收录img元素），则执行右分支。具体操作如下： 1）从左边的工具栏中，将一个“判断条件”步骤拖入流程中（拖住选中的图标，将其拖到如图所示的绿色加号位置箭头) Cloud采集 @>Service Platform自媒体文章采集Step 26 2）判断条件出现在流程图中。我们将“提取数据”步骤移至右侧分支（绿色加号），然后单击右侧分支。在出现的结果页面（分支条件检测结果一直为True），点击“确定” Cloud采集 @>Service Platform自媒体文章采集 Step 27 将“Extract Elements”步入右侧分支云采集服务平台自媒体文章采集第28步右侧分支检测结果始终为True 3）点击左边的分支，在出现的结果页面（分支条件检测结果的检测结果一直为True），点击“确定”。然后设置判断条件：勾选“当前循环项收录元素”，输入元素Xpath：//img（代表一张图片），然后点击“确定”云采集服务平台自媒体< @文章采集

<p>从左侧工具栏中拖入一个“提取数据”步骤到流程图的左侧分支（绿色加号），然后在页面上选择一张图片，在操作提示框中选择“采集 @>图片地址“Cloud采集服务平台拖入新的“提取数据”步骤，到左边分支自媒体文章采集步骤31 Cloud

0

2021-10-06

自动采集文章文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集文章文章(创建一个翻页循环云采集服务平台自媒体文章采集方法(组图))

0 个评论

发起人

AI时代内容工厂

自动采集文章文章(创建一个翻页循环云采集服务平台自媒体文章采集方法(组图))

0 个评论

发起人

相关问题