自动采集文章文章(创建一个翻页循环云采集服务平台自媒体文章采集方法(组图))
优采云 发布时间: 2021-10-06 12:25自动采集文章文章(创建一个翻页循环云采集服务平台自媒体文章采集方法(组图))
云采集服务平台自媒体文章采集方法 随着移动互联网的发展,获取信息和发布信息变得非常方便。这几年自媒体也成为热门话题,其中一些自媒体发布了很多优质的文章,让我们有更多的渠道看这个世界,如果我们想把这些自媒体文章采集 下来,如果用最快最有效的方法怎么办?搜狗微信今天的头条新闻和文章的文字要保存,我们应该怎么做?复制并粘贴一篇文章?选择一个通用的网页数据采集器将使工作变得更加容易。优采云是通用网页数据采集器,可以是采集互联网上的公共数据。用户可以设置从哪个网站抓取数据、抓取哪些数据、抓取数据的范围、抓取数据的时间、抓取数据的保存方式等。言归正传,本文将以搜狗微信的文章文字采集为例,讲解优采云采集网页文章文字的使用方法。文章正文采集,主要有两种情况: 一、采集文章 正文中的文字,不带图片;二、采集 文章正文中的文字和图片网址示例网站:使用功能点:Xpath判断条件分页列表信息采集云采集@ > 服务平台AJAX滚动教程AJAX点击并翻页一、采集文章正文中的文字,没有图片。具体步骤: 步骤:创建<
打开网页后,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在操作提示框中选择“更多操作”云采集服务平台自媒体文章采集步骤2)选择“循环点击单个元素”,创建翻页循环云采集服务平台自媒体文章采集步骤由于本网页涉及Ajax 技术,我们需要设置一些高级选项。选择“点击元素”步骤,打开“高级选项”“Ajax加载数据”,设置时间为云采集服务平台自媒体文章采集步骤注意: AJAX 是一种扩展了时间加载和异步更新的脚本技术。通过后台与服务器的少量数据交换,可以在不重新加载整个网页的情况下更新网页的某一部分。详情请参考AJAX点击翻页教程:观察网页,我们发现点击“加载更多内容”,页面加载到底部,一共显示100个文章 . 因此,我们将整个“循环翻页”步骤设置为执行次数。选择“循环翻页”步骤,打开云采集服务平台“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于:创建列表循环和提取数据 1) 移动鼠标,选择页面上的第一个 文章 链接。系统会自动识别相似链接。在操作提示框中选择“全选”云采集服务平台自媒体文章采集步骤2)选择“循环点击每个链接”云< @采集服务平台自媒体文章采集步骤3)系统会自动进入<
点击需要采集的字段(这里先点击文章标题),在操作提示框中选择“采集该元素的文本”。文章发布时间,文章源字段采集方法同理云采集服务平台自媒体文章采集步骤< @4)接下来开始采集文章的正文。点击文章正文的第一段,系统会自动识别页面中的相似元素,选择“全选”云采集服务平台自媒体文章 采集Step 10 5) 可以看到所有的文本段落都被选中并且变成了绿色。选择“采集以下元素文本”云采集服务平台自媒体文章< @采集 Step 11 注意:字段表中的字段可以自行修改 Cloud 采集Service Platform自媒体文章采集Step 12 6)经过以上操作后,文字会全部采集向下(默认是每段正文为一个单元格)。一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 在字段表中,可以自行修改字段 Cloud 采集Service Platform自媒体文章采集Step 12 6) 以上操作后,文本将全部采集向下(默认是每段正文为一个单元格)。一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 在字段表中,可以自行修改字段 Cloud 采集Service Platform自媒体文章采集Step 12 6) 以上操作后,文本将全部采集向下(默认是每段正文为一个单元格)。一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 可以自行修改字段 Cloud 采集Service Platform自媒体文章采集Step 12 6) 以上操作后,文字全部为采集 @> down(默认是每段正文是一个单元格)。一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 可以自行修改字段 Cloud 采集Service Platform自媒体文章采集Step 12 6) 以上操作后,文字全部为采集 @> down(默认是每段正文是一个单元格)。一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 @文章采集第12步6) 经过以上操作,文字将全部采集向下(默认是每段正文为一个单元格)。一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 @文章采集第12步6) 经过以上操作,文字将全部采集向下(默认是每段正文为一个单元格)。一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集 一般来说,我们希望 采集 的 body 合并到同一个单元格中。点击“自定义数据字段”按钮,选择数据合并方式的定义”,勾选“将同一字段多次提取合并成一行,即追加到同一字段,如文本页合并”,并然后点击“确定”云采集服务平台自媒体文章采集步骤13“自定义数据字段”按钮云采集服务平台自媒体< @文章采集
我们发现通过这个Xpath //DIV[@class=´main-left´]/DIV[3]/UL/LI/DIV[2]/H3[1]/A,页面需要100篇文章< @文章都位于云端采集服务平台自媒体文章采集第十七步3)将修改后的Xpath复制粘贴到优采云@ >,然后点击“确定”云采集服务平台自媒体文章采集 步骤18 步骤:修改流程图结构。我们继续观察,点击“加载更多内容”后,这个页面加载了全部100个文章。所以,我们配置规则的思路是先建立一个翻页循环,加载全部100个文章,然后创建一个循环列表,提取数据1)选择整个“循环”步骤,并将其拖出“循环”翻页”步骤。如果不这样做,就会有很多重复的数据云。@采集服务平台自媒体文章采集 Step 20 Step:数据采集和导出1)点击左上角“保存”,然后点击“启动采集”,选择“启动本地采集”云采集服务平台自媒体文章采集步骤212) 采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出到云端<
那是因为系统自动生成的文章文本的循环列表Xpath://[@id="js_content"]/P,找不到这个文章的文本。修改Xpath为://[@id="js_content"]//P,文章的所有文本都可以定位。再次启动采集,文章的body内容已经采集到云端采集服务平台自媒体文章采集步骤 24 修改 Xpath 云采集服务平台自媒体文章采集 步骤 25 修改 Xpath 经过以上操作,微信正文文章中的所有文字目标 URL 已经 采集 下来了。如果还需要采集图片,则需要在现有规则中添加判断条件。二、采集文章 body中的文字和图片网址后面跟着云中的步骤采集服务平台步骤:增加判断条件经过上一步,我们只采集微信中的文字内容文章@ > 不包括 文章 中的图片。如果需要采集的图片,需要在规则中添加一个判断条件:判断文章的内容列表,如果收录img元素(图片),则执行图片采集 @> 分支;如果不收录 img 元素(图片),文本 采集 将同时被拆分。优采云中默认设置左分支,设置判断条件。如果满足这个判断条件,则执行左分支;默认是最右边的侧分支是“不判断,一直执行这个分支”,
回到这个规则,即设置左分支的条件:如果收录img元素(图片),则执行左分支;如果不满足左条件分支的条件(即不收录img元素),则执行右分支。具体操作如下: 1)从左边的工具栏中,将一个“判断条件”步骤拖入流程中(拖住选中的图标,将其拖到如图所示的绿色加号位置箭头) Cloud采集 @>Service Platform自媒体文章采集Step 26 2) 判断条件出现在流程图中。我们将“提取数据”步骤移至右侧分支(绿色加号),然后单击右侧分支。在出现的结果页面(分支条件检测结果一直为True),点击“确定” Cloud采集 @>Service Platform自媒体文章采集 Step 27 将“Extract Elements”步入右侧分支云采集服务平台自媒体文章采集第28步右侧分支检测结果始终为True 3)点击左边的分支,在出现的结果页面(分支条件检测结果的检测结果一直为True),点击“确定”。然后设置判断条件:勾选“当前循环项收录元素”,输入元素Xpath://img(代表一张图片),然后点击“确定”云采集服务平台自媒体< @文章采集
<p>从左侧工具栏中拖入一个“提取数据”步骤到流程图的左侧分支(绿色加号),然后在页面上选择一张图片,在操作提示框中选择“采集 @>图片地址“Cloud采集服务平台拖入新的“提取数据”步骤,到左边分支自媒体文章采集步骤31 Cloud