网页文章正文采集方式-以陌陌文章采集为例

优采云 发布时间: 2020-08-22 03:04

  网页文章正文采集方式-以陌陌文章采集为例

  网页文章正文采集方式,以及陌陌文章采集为例当我们想要将明日头条上的新闻、搜狗陌陌上的文章正文内容保存出来的时侯,如何办?一篇篇复制粘贴?选择一款通用的网页数据采集器,将会使工作简单好多。优采云是一款通用的网页数据采集器,可采集互联网上的公开数据。用户可以设置从那个网站爬取数据,爬取这些数据,爬取哪些范围的数据,哪些时侯去爬取数据,爬取的数据怎么保存等等。言归正传,本文将以搜狗陌陌的文章正文采集为例,讲解使用优采云采集网页文章正文的方式。文章正文采集,主要有两大类情况:一、采集文章正文中的文本,不含图片;二、采集文章正文中的文本和图片URL。示例网站:使用功能点:Xpath判定条件分页列表信息采集AJAX滚动教程AJAX点击和翻页一、采集文章正文中的文本,不含图片具体步骤:步骤1)进2)将骤1:创建采步入主界面即将采集的网采集任务,选择“自定网址URL复定义模式”网页文复制粘贴到网站文章正文采集站输入框中集步骤1,点击“保存网址”步骤1)在网页作提骤2:创建翻在页面右上角页打开后,默提示框中,选翻页循环角,打开“流默认显示“热选择“更多操网页文流程”,以展门”文章。

  下操作”文章正文采集诠释出“流程设下拉页面,找集步骤2设计器”和“找到并点击““定制当前操“加载更多内操作”两个板内容”按钮,蓝筹股。在操2)选择“循环点击单个元素网页文素”,以创建文章正文采集建一个翻页循集步骤3循环因为打开于此网页涉及开“高级选项及Ajax技术项”,勾选“网页文,我们须要进“Ajax加载数文章正文采集进行一些中级数据”,设置集步骤4级选项的设置置时间为“2置。选中“点秒”点击元素”步步骤,注:A可以AJA观察篇文“高定”AJAX即延时以在不重新加AX点击和翻页察网页,我们文章。为此,中级选项”,时加载、异步加载整个网页页教程:htt们发觉,通过我们设置整打开“满足网页文更新的一种脚页的情况下,对tp://www.b5次点击“加整个“循环翻页以下条件时退文章正文采集脚本技术,通对网页的某部azhuayu.co加载更多内容页”步骤执行退出循环”集步骤5通过在后台与部份进行更新om/tutorial容”,页面加行5次。选,设置循环次与服务器进行新。具体请看detail-1/aja加载到最顶部选中“循环翻次数等于“5行少量数据交看axdjfy_7.htm部,一共显示翻页”步骤,次”,点击交换,ml示100打开击“确步骤1)移选择骤3:创建列联通键盘,选择“选中全部列表循环并提取选中页面里第部”网页文取数据第一条文章链文章正文采集链接。

  系统会集步骤6会手动辨识相像链接,在操作提示框框中,2)选择“循环点击每位链接网页文接”文章正文采集步骤73)系提示系统会手动进示框中,选择步入文章详情择“采集该元网页文情页。点击需元素的文本”文章正文采集须要采集的字。文章发布时集步骤8数组(这儿先时间、文章来先点击了文章来源数组的采章标题),在采集方式同理在操作理4)接素,接出来开始采选择“选中采集文章正文中全部”网页文文。先点击文文章正文采集文章正文的第集步骤9第一段,系统会手动识别页面内的同类元5)可以看见,所有的正文段网页文段落均被选中文章正文采集步中,变为红色步骤10色。选择“采集以下元素文本”注意:在数组表中,可进行网页文行数组的自定义文章正文采集步义更改步骤116)经言,定义分页经过如上操作我们希望采义数据合并方页合并”,再作,正文都会采集的正文,合形式”,勾选再点击“确定网页文会被全部采集合并为同一个“同一数组多定”文章正文采集步集出来(默认个单元格。点多次提取合并步骤12觉得每一段正点击“自定义并为一行,即正文为一个单义数据数组”即追加到同一单元格)。

  一按键,选择一数组,比如通常而择“自正文网页文“自定文章正文采集步定义数据数组步骤13段”按钮网页文选择“自文章正文采集步自定义数据合步骤14合并方法”步骤1)选列表骤4:更改X选中整个“循表,定位的是Xpath循环步骤”是前20篇文章网页文如,打开“高级章的链接文章正文采集步如图进行勾选级选项”,可步骤15选可以看见,优采云默认生成的是固定定元素2)在//DI被定在傲游浏览器IV[@class=定位了器中打开要采='main-left']网页文采集的网页并]/DIV[3]/UL文章正文采集步并观察源码。L/LI/DIV[2]/步骤16我们发觉,/H3[1]/A,页通过此条X页面中所需的Xpath:的100篇文文章均3)将更改后的Xpath,复制网页文制粘贴到八爪网页文文章正文采集步爪鱼中所示位文章正文采集步步骤17位置,之后点步骤18点击“确定”步骤我们我们取数1)选出现拖动骤5:更改流们继续观察,们配置规则的数据选中整个“循现好多重复数动完成后,如流程图结构通过5次点的思路是,先循环”步骤数据如右图所示点击“加载更先构建翻页循环,将其拖出网页文更多内容”后环,加载出全“循环翻页”文章正文采集步后,此网页加载全部100篇步骤。

  假如步骤19载出全部10篇文章,再建果不进行此项00篇文章。构建循环列表项操作,这么因此表,提么将会步骤1)点骤6:数据采点击左上角的采集及导入的“保存”网页文,之后点击文章正文采集步“开始采集”步骤20,选择“启动本地采集”2)采数据采集完成后据导入,会跳出提示网页文示,选择“导文章正文采集步导入数据”,步骤21,选择“合适的导入方式”,将采集集好的3)这儿我们选择择excel作为网页文为导入为格式文章正文采集步式,数据导入步骤22出后如右图4)如的X//[@正文如上图,部份Xpath://[@id="js_co文内容,均被分文章的正文[@id="js_content"]//P被采集到了网页文文没有采集到ontent"]/PP,所有的文文章正文采集步到。那是由于P,定位不到文章正文均可步骤23为,系统手动到此篇文章的可被定位到。动生成的文章的正文。将X再度启动采章正文的循环Xpath更改采集,所有文环列表改为:文章的网页文修文章正文采集步更改Xpath前步骤24前经过则需二、接一步骤过如上操作,需往已有的规采集文章正一中的步骤6骤7:降低判目标网址中规则中,加入正文中的文本6判定条件网页文修中的陌陌文章正入一个判定条件本和图片URL文章正文采集步更改Xpath后正文中的全部件。

  L步骤25后部文本被采集出来。如果还需采集图图片,经过要采元素支。同时默认行最回到果不1)从示的过前6个步骤采集图片,则素(图片),时,在优采云认最右边分支最右边分支。到此规则,即不满足右侧条从左边工具栏的红色减号位骤,我们仅采则需往规则里则执行图片鱼中,默认对支为“不判定即对右边分支条件分支的条栏,往流程中位置)采集了陌陌文里加入一个判片采集分支;如对右边分支,设,总是执行该支设置条件:如条件(即不收录中推入一个网页文文章里的文本判定条件:对倘若不收录设置判定条件该分支”,即若果收录im含img元素“判断条件”文章正文采集步本内容,并不文章内容列表img元素(件,满足此判即当不满足左mg元素(图素),则执行步骤(选取步骤26不包括文章里表进行判别图片),则判定条件,则右边分支的判图片),则执行两侧分支。定图标拖住不里的图片。如,假如收录则执行文本采则执行两侧分判定条件时,执行两侧分支具击剑作如下不放,推入箭果需img采集分分支;则执支;如下:箭头所2)流再点流程图中出现点击两侧分支现判定条件。支,在出现的结将我们将“提结果页面(分网页文将“提取元素提取数据”步骤分支条件检查文章正文采集步素”步骤,拖骤,联通到右测结果-检查结步骤27推入两侧分支两侧分支中(结果总是Tru支(红色减号处ue)点击“确处)。

  定”3)点定”(代点击两侧分支。之后对其代表图片),支,在出现的其设置判定条再点击“确网页文两侧分支的结果页面(条件:勾选“确定”文章正文采集步支-检查结果总(分支条件检“当前循环项包步骤28总是True检查结果-检查收录元素”测结果总是,输入元素True)点击Xpath://击“确/img网页文点文章正文采集步点击两侧分支步骤29支4)左步骤中,左边分支条件骤,到流程图选择“采集件设置完毕后图中的右边分集该图片地址对右边分网页文后,再进行提支中(红色加址”分支,设置判文章正文采集步提取数据步骤减号处),然判定条件步骤30骤。从左边工具之后选中页*敏*感*词*栏,推入一面内一张图片一个“提取数片,在操作提数据”提示框拖入新的“提取网页文取数据”步骤文章正文采集步骤,到左边分步骤31分支5)选元素//*[选中两侧分支素方法”,将[@id="js_c支的“提取数将红框中的“content"]/p采网页文数据”步骤,“元素匹配的p[1]/span[1采集图片地址文章正文采集步,点击“自定Xpath”:1]与“相对址步骤32定义数据数组Xpath”:/段”按钮,选/span[1],选择“自定义记录出来义定位自定网页义民义定位元素文章正文采集步素方法步骤336)选元素//*[定”选中两侧分支素方法”,参[@id="js_c元支的“提取数参照右边分支content"]/p元素匹配的X网页文数据”步骤,支相同位置的p[1]/img[1Xpath、“相文章正文采集步,点击“自定的Xpath进行1],“相对X相对Xpath”步骤34定义数据数组行更改:“元Xpath”改为段”按钮,选元素匹配的为:/img[1]选择“自定义Xpath”改],之后点击义定位改为:击“确7)选合并选中两侧分支并方法”,如支的“提取数如图进行勾选网页文数据”步骤,选。

  勾选后,多文章正文采集步,点击“自定多次提取的正步骤35定义数据数组正文将追加为段”按钮,选为一个数组选择“自定义义数据8)注个数请参注意,在八爪数需一致。这儿参考:爪鱼中,判定里,我们将左/www.bazh网页文断条件里各分左右两个分支/文章正文采集步分支中的“提支中,提取的/tutorialdet步骤36提取数据”步的数组名均改ail-1/judge步骤中的数组为“正文”(e.html)段名需相同,判定条件教数组教程,9)如导入文章因此数为如上,整个判出的excel表章正文里的图而,在打开文为“30次”判断条件设置表格中,图片图片,需下拉文章后,需对其,每次间隔网页文置完毕。点击片地址为一堆拉滚动,能够加其进行设置“2秒”,滚文章正文采集步击左上角的“堆乱码。这是加载下来,加“页面加载完滚动形式为“步骤37“保存”并“是为何呢?加载下来后才完成后向上滚“向下滚动一“开始采集”继续观察网页能够采集到正滚动”。在这一屏”。我们发觉页——搜狗正确的图片地这儿,设置滚现,在狗陌陌地址。滚动次陌陌文章网页文章正文里的图文章正文采集步图片,需下拉步骤38拉滚动,才会加载下来注意你们可参10)意:这儿的滚动家可按需设置参考AJAX滚)重新启动采动次数、时间置滚动教程:ht采集,并导入设置“页面网页文间、方式的设ttp://www.b出数据,数据网页文面加载完成后文章正文采集步设置,会影响采bazhuayu.co据导入后如图文章正文采集步导入数据后向上滚动”步骤39采集数据的速om/tutorial所示:步骤40速率、质量。

  ldetail-1/ajg本文仅做参gd_7.html参考,说明间用无需相关百度新浪豆瓣明:因搜狗微用在等待图片需等待图片加关采集教程:度搜索结果采浪微博数据采瓣影片短评采陌陌文章中的片加载,因此加载,采集速采集采集采集网页文图片,需经过而采集速率较慢速率会快好多文章正文采集步数据示例过下拉滚动较慢。若果没有。步骤41,方可加载出有采集图片的下来。在采集的需求,直接集过程中,大接使用文本采大量时采集,优采云——70万用户选择的网页数据采集器。1、操作简单,任何人都可以用:无需技术背景,会上网才能采集。完全可视化流程,点击滑鼠完成操作,2分钟即可快速入门。2、功能强悍,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,死机也可以。配置好采集任务后可死机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担忧IP被封,网路中断。4、功能免费+增值服务,可按需选择。免费版具备所有功能,还能满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足低端付费企业用户的须要。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线