最全的优采云循环提取网站网页数据方式.docx 12页
优采云 发布时间: 2020-08-20 21:50最全的优采云循环提取网站网页数据方式.docx 12页
优采云·云采集网络爬虫软件优采云·云采集网络爬虫软件 最全的优采云循环提取网页数据方式在优采云中,创建循环列表有两种形式,适用于列表信息采集、列表及详情页采集,是由优采云自动创建的。当自动创建的循环不能满足需求的时侯,则须要我们自动创建或则更改循环,以满足更多的数据采集需求。循环的中级选项中,有5大循环形式:URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。URL循环适用情况:在多个同类型的网页中,网页结构和要采集的数组相同。示例网址: HYPERLINK "/subject" /subject HYPERLINK "/subject/6311303/" /subject/6311303/ HYPERLINK "/subject/1578714/" /subject/1578714/ HYPERLINK "/subject" /subject HYPERLINK "/subject" /subject HYPERLINK "/subject" /subject操作演示:具体请看此教程: HYPERLINK "/tutorialdetail-1/urlxh_7.html" /tutorialdetail-1/urlxh_7.html文本循环适用情况:在搜索框中循环输入关键词,采集关键词搜索结果的信息。
实现方法:通过文本循环形式,实现循环输入关键词,采集关键词搜索结果。示例网址:/操作演示:具体请看此教程: HYPERLINK "/tutorialdetail-1/wbxh_7.html" /tutorialdetail-1/wbxh_7.html注意事项:有的网页,点击搜索按键后,页面会发生变化,只能采集到第一个关键词的数据,则打开网页步骤需置于文本循环内。例: HYPERLINK "/" /如图,如果将打开网页步骤,放在循环外,则只能提取到第一个关键词的搜索结果文本,不能提取到第二个关键词的搜索结果文本,文本循环流程不能正常执行。经过调整,将打开网页步骤,放到循环内,则可以提取到两个关键词的搜索结果文本,文本循环流程可正常执行。具体情况此教程:: HYPERLINK "/tutorialdetail-1/urlxh_7.html" /tutorialdetail-1/urlxh_7.html三、单个元素循环 适用情况:需循环点击页面内的某个按键。例如:循环点击下一页按键进行翻页。实现方法:通过单个元素循环形式,达到循环点击下一页按键进行翻页目的。定位方法:使用xpath定位,始终定位到下一页按键。
示例网址: HYPERLINK "/guide/demo/genremoviespage1.html" /guide/demo/genremoviespage1.html操作示例:具体请看此教程: HYPERLINK "/tutorialdetail-1/fylb-70.html" /tutorialdetail-1/fylb-70.html四、固定元素列表循环适用情况:网页上要采集的元素是固定数量的。实现方法:通过固定诱因列表循环,循环页面内的固定元素。定位方法:使用xpath定位,一条xpath对应循环列表中的一个元素。示例网址: HYPERLINK "/" /操作示例:操作说明:示例中,我们通过“选中页面内第一个链接”,选择“选中全部”,继续选择“循环点击每位链接”,建立了一个循环点击元素的循环,自动生成的循环形式是:固定元素列表。打开固定元素列表查看,20条循环xpath,对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。这里涉及了xpath相关内容,可参考此xpath教程:xpath入门1: HYPERLINK "/tutorialdetail-1/xpathrm1.html" /tutorialdetail-1/xpathrm1.html五、不固定元素列表循环适用情况:网页上要采集的元素不是固定数量。
实现方法:通过不固定诱因列表循环,循环页面内的不固定元素。定位方法:使用xpath定位,一条xpath对应循环列表中的多个元素。示例网址: HYPERLINK "/" /操作示例:操作说明:通过观察优采云固定元素列表循环中生成的xpath://UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]20条xpath具有相同的特点:只有LI前面的数字不同。根据这个特点,我们可以写一条通用xpath://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1]。将循环形式改为“不固定元素列表循环”,并将xpath填充进去,同样对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。启动采集看一下,20条数据被正常采集下来。这里涉及了xpath相关内容,可参考此xpath教程: HYPERLINK "/tutorial/gnd/xpath" /tutorial/gnd/xpath相关采集教程:循环翻页爬取网页数据/tutorial/gnd/xunhuan特殊翻页操作/tutorial/gnd/teshufanye模拟登陆并辨识验证码抓取数据/tutorial/gnd/dlyzm网页列表详情页采集方法教程/tutorial/bzy_singlepage_7优采云7.0基本排错详尽教程/tutorial/jbpc_7优采云单网页信息采集方法(7.0版本)/tutorial/xsrm1-70优采云——90万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网才能采集。完全可视化流程,点击滑鼠完成操作,2分钟即可快速入门。2、功能强悍,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,关机也可以。配置好采集任务后可死机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用害怕IP被封,网络中断。4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足低端付费企业用户的须要。