最全的优采云循环提取网站网页数据方式.docx 12页

优采云发布时间: 2020-08-20 21:50

　　优采云·云采集网络爬虫软件优采云·云采集网络爬虫软件最全的优采云循环提取网页数据方式在优采云中，创建循环列表有两种形式，适用于列表信息采集、列表及详情页采集，是由优采云自动创建的。当自动创建的循环不能满足需求的时侯，则须要我们自动创建或则更改循环，以满足更多的数据采集需求。循环的中级选项中，有5大循环形式：URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。URL循环适用情况：在多个同类型的网页中，网页结构和要采集的数组相同。示例网址： HYPERLINK "/subject" /subject HYPERLINK "/subject/6311303/" /subject/6311303/ HYPERLINK "/subject/1578714/" /subject/1578714/ HYPERLINK "/subject" /subject HYPERLINK "/subject" /subject HYPERLINK "/subject" /subject操作演示：具体请看此教程： HYPERLINK "/tutorialdetail-1/urlxh_7.html" /tutorialdetail-1/urlxh_7.html文本循环适用情况：在搜索框中循环输入关键词，采集关键词搜索结果的信息。

　　实现方法：通过文本循环形式，实现循环输入关键词，采集关键词搜索结果。示例网址：/操作演示：具体请看此教程： HYPERLINK "/tutorialdetail-1/wbxh_7.html" /tutorialdetail-1/wbxh_7.html注意事项：有的网页，点击搜索按键后，页面会发生变化，只能采集到第一个关键词的数据，则打开网页步骤需置于文本循环内。例： HYPERLINK "/" /如图，如果将打开网页步骤，放在循环外，则只能提取到第一个关键词的搜索结果文本，不能提取到第二个关键词的搜索结果文本，文本循环流程不能正常执行。经过调整，将打开网页步骤，放到循环内，则可以提取到两个关键词的搜索结果文本，文本循环流程可正常执行。具体情况此教程：： HYPERLINK "/tutorialdetail-1/urlxh_7.html" /tutorialdetail-1/urlxh_7.html三、单个元素循环适用情况：需循环点击页面内的某个按键。例如：循环点击下一页按键进行翻页。实现方法：通过单个元素循环形式，达到循环点击下一页按键进行翻页目的。定位方法：使用xpath定位，始终定位到下一页按键。

　　示例网址： HYPERLINK "/guide/demo/genremoviespage1.html" /guide/demo/genremoviespage1.html操作示例：具体请看此教程： HYPERLINK "/tutorialdetail-1/fylb-70.html" /tutorialdetail-1/fylb-70.html四、固定元素列表循环适用情况：网页上要采集的元素是固定数量的。实现方法：通过固定诱因列表循环，循环页面内的固定元素。定位方法：使用xpath定位，一条xpath对应循环列表中的一个元素。示例网址： HYPERLINK "/" /操作示例：操作说明：示例中，我们通过“选中页面内第一个链接”，选择“选中全部”，继续选择“循环点击每位链接”，建立了一个循环点击元素的循环，自动生成的循环形式是：固定元素列表。打开固定元素列表查看，20条循环xpath，对应循环列表中的固定20个元素（也可以看成对应浏览器页面的20条文章链接）。这里涉及了xpath相关内容，可参考此xpath教程：xpath入门1： HYPERLINK "/tutorialdetail-1/xpathrm1.html" /tutorialdetail-1/xpathrm1.html五、不固定元素列表循环适用情况：网页上要采集的元素不是固定数量。

　　实现方法：通过不固定诱因列表循环，循环页面内的不固定元素。定位方法：使用xpath定位，一条xpath对应循环列表中的多个元素。示例网址： HYPERLINK "/" /操作示例：操作说明：通过观察优采云固定元素列表循环中生成的xpath：//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]20条xpath具有相同的特点：只有LI前面的数字不同。根据这个特点，我们可以写一条通用xpath：//UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1]。将循环形式改为“不固定元素列表循环”，并将xpath填充进去，同样对应循环列表中的固定20个元素（也可以看成对应浏览器页面的20条文章链接）。启动采集看一下，20条数据被正常采集下来。这里涉及了xpath相关内容，可参考此xpath教程： HYPERLINK "/tutorial/gnd/xpath" /tutorial/gnd/xpath相关采集教程：循环翻页爬取网页数据/tutorial/gnd/xunhuan特殊翻页操作/tutorial/gnd/teshufanye模拟登陆并辨识验证码抓取数据/tutorial/gnd/dlyzm网页列表详情页采集方法教程/tutorial/bzy_singlepage_7优采云7.0基本排错详尽教程/tutorial/jbpc_7优采云单网页信息采集方法（7.0版本）/tutorial/xsrm1-70优采云——90万用户选择的网页数据采集器。

　　1、操作简单，任何人都可以用：无需技术背景，会上网才能采集。完全可视化流程，点击滑鼠完成操作，2分钟即可快速入门。2、功能强悍，任何网站都可以采：对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。3、云采集，关机也可以。配置好采集任务后可死机，任务可在云端执行。庞大云采集集群24*7不间断运行，不用害怕IP被封，网络中断。4、功能免费+增值服务，可按需选择。免费版具备所有功能，能够满足用户的基本采集需求。同时设置了一些增值服务（如私有云），满足低端付费企业用户的须要。

0

2020-08-20

关键词文章采集源码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

最全的优采云循环提取网站网页数据方式.docx 12页

0 个评论

发起人

AI时代内容工厂

最全的优采云循环提取网站网页数据方式.docx 12页

0 个评论

发起人

相关问题