文章内容采集(优采云·云采集服务平台优采云网页文章正文采集方法,以及微信文章采集为例)
优采云 发布时间: 2021-09-17 22:13文章内容采集(优采云·云采集服务平台优采云网页文章正文采集方法,以及微信文章采集为例)
优采云·cloud采集service platform优采云·cloud采集service platform网页文章text采集method和微信@K7采集作为一个例子,当我们想要保存今天头条新闻和搜狗微信上的文章文本时,我们应该怎么做?一个一个复制粘贴?选择一个通用web数据采集器,将使工作更容易优采云是一个通用web数据采集器,它可以在采集互联网上打开数据。用户可以设置从哪个网站数据爬网、爬网哪个数据、爬网的数据范围、何时爬网、如何保存爬网的数据等。为了回到正题,本文将以搜狗微信的文章text采集为例,介绍如何使用优采云采集web page文章text文章text采集,主要有两类:文本中的@K21采集文章text,不包括图片@K22采集文章text和正文中的图片url。示例网站:/使用函数节点:XPath/search?Query=XPath判断条件/tutorialdetail-1/judge.html分页列表信息采集/tutorial/fylb-70.Aspx?T=1ajax滚动教程/tutorialdetail-1/ajgd7.htmlAJAX单击并翻页/tutorialdetail-1/ajaxdjfy7.html采集文章正文中的文本,不包括图片。具体步骤:步骤1:创建采集task1)进入主界面,选择“自定义模式”网页文章body采集Step12)将要成为采集的网址的URL复制粘贴到网站输入框中,点击“保存网址”网页文章body采集step 2第2步:在页面右上角创建一个翻页循环,打开“流程”,显示“流程设计器”和“自定义当前操作”两部分
打开网页后,默认显示“热门”文章。下拉页面,找到并单击“加载更多内容”按钮。在操作提示框中,选择“更多操作”网页文章body采集step 3,选择“重复点击单个元素”,创建一个翻页循环页面文章body采集step 4因为这个页面涉及Ajax技术,我们需要设置一些高级选项。选择“单击元素”步骤,打开“高级选项”,检查“Ajax加载数据”,并将时间设置为“2秒”页面文章body采集step 5注意:Ajax是一种延迟加载和异步更新的脚本技术。通过在后台与服务器进行少量数据交换,您可以更新页面的一部分,而无需重新加载整个页面。有关详细信息,请参阅Ajax单击和翻页教程:/tutorialdetail-1/ajaxdjfy7.html观察网页,我们发现它通过了5次点击“加载更多内容”,页面将加载到底部,显示100篇文章文章. 因此,我们将整个“翻页周期”步骤设置为执行5次。选择“翻页循环”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,将循环次数设置为“5次”,然后单击“确定”页面文章body采集step 6第3步:创建列表循环并提取数据。移动鼠标以选择页面中的第一个文章链接。系统将自动识别类似链接。在操作提示框中,选择“全选”页面文章body采集step 7选择“点击每个链接循环”页面文章body采集step 8,系统将自动进入文章details页面
单击所需的采集字段(首先单击此处的文章标题),并在操作提示框中选择“采集此元素的文本”。文章publishing time和文章source字段的采集方法与页面文章body采集step 9相同。然后启动采集文章body。首先点击文章body的第一段,系统会自动识别页面中的类似元素,并选择“全选”页面文章body采集steps105)您可以看到所有文本段落都被选中并变为绿色。选择“采集following element text”网页文章text采集step 11。注意:在字段表中,您可以自定义字段并修改网页文章text采集step126)完成上述操作后,文本将全部采集down(文本的每个段落默认为一个单元格)。一般来说,我们希望采集文本合并到同一单元格中。点击“自定义数据字段”,选择“自定义数据合并方法”,勾选“同一字段被多次提取并合并成一行,即追加到同一字段,如文本页面合并”,然后点击“确定”页面文章body采集step 13“自定义数据字段”按钮页面文章body采集step 14选择“自定义数据整合方法“页面文章body采集步骤15检查,如图所示步骤4:修改Xpath1)选择整个循环步骤以打开高级选项,如您所见,优采云默认生成固定元素列表,并找到前20个文章链接页面的文章body采集步骤162)在Firefox浏览器中打开网页至采集并查看源代码
我们发现,通过这个XPath://div[@class='main-left']/div[3]/UL/Li/div[2]/H3[1]/A,页面中需要的100文章位于网页文章body的采集步骤中173)将修改后的XPath复制并粘贴到优采云中所示的位置,然后单击“确定”页面文章body采集步骤18第5步:修改流程图结构。我们继续观察。单击“加载更多内容”5次后,此页面将加载所有100文章。因此,我们的配置规则的想法是首先建立一个翻页循环,加载所有100文章,然后建立一个循环列表,提取数据1)选择整个“循环”步骤并将其拖出“页面循环”步骤。如果不执行此操作,将在步骤19的文章body采集处出现许多重复的数据页。拖动后,如下图所示,页面文章body采集step 20第6步:数据采集导出1)点击左上角的“保存”,然后点击“开始采集”,选择“开始本地采集”页面文章body采集steps21采集完成后,会弹出提示,选择“导出数据”并“适当的导出方法”,将采集良好数据导出到网页文章body采集step223)这里,我们选择excel作为导出格式。数据导出如下图所示。上图显示了文章body采集step 23页面。一些文章body未找到采集found。这是因为XPath://[@id=”系统自动生成的文章body循环列表中的js_content“]/P找不到文章body
将XPath修改为://[@id=“js_content”]//P.可以找到所有文章文本。当采集重新启动时,所有文章文本内容都是采集到网页文章text采集step 24。在修改XPath之前,网页文章text采集step 25。修改XPath后,目标网站中微信文章text中的所有文本都是采集down。如果采集图片是n需要添加的是,它们需要在现有规则中添加一个判断条件。采集文章正文中的文本和图片URL后面是第6步第7步:添加判断条件。在前6步之后,我们只采集微信文章中的文本内容,不在采集中收录图片文章.如果您需要采集图片,则需要添加ju规则的DGE条件:判断文章内容列表是否收录img元素(图片),执行图片采集分支;如果img元素(图片)不包括,则执行文本采集分支。同时,在优采云中,默认为左分支设置判断条件。如果满足此判断条件,则执行左分支;默认情况下,最右边的分支为“不判断,始终执行此分支”,即当不满足左分支的判断条件时,将执行最右分支。返回此规则,即设置左分支的条件:如果收录IMG元素(图片),则执行左分支;如果不满足左侧条件分支的条件(即不包括img元素),则执行右侧的分支。具体操作如下:从左侧工具栏将“判断条件”步骤拖到流程中(将选中的图标拖到箭头所示的绿色加号处),判断条件出现在流程图中的网页文章body采集step 26中
我们将“提取数据”步骤移动到右侧的分支(绿色加号)。然后单击右侧的分支,并在结果页面上单击“确定”(分支条件检测结果-检测结果始终为真)。页面文章body采集step 27将“提取元素”步骤,拖动到右分支网页文章body采集step 28 right branch-检测结果始终为真,单击左分支,然后在结果页面上单击“确定”(分支条件检测结果-检测结果始终为真)。然后设置判断条件:勾选“当前循环项收录元素”,输入元素XPath://img(表示图片),然后点击“确定”页面文章body采集step 29点击左分支到左分支设置判断条件页面文章body采集step304)设置左分支条件后,继续执行数据提取步骤。将“数据提取”步骤从左侧工具栏拖到流程图的左侧分支(绿色加号处),然后在页面中选择一张图片,在操作提示框中选择“采集图片地址”,拖动新的“提取数据”步骤至左侧分支网页文章body采集step31采集Picture address page文章body采集steps325)选择右侧分支中的“提取数据”步骤,点击“自定义数据字段”按钮,选择“自定义定位元素方法”,记录“元素匹配XPath”://*[@id=“js_content”]/P[1]/span[1]和“相对XPath”:/span[1]在红色框中,并记录与自定义