解决方案:优采云采集器-多页单层数据抓取
优采云 发布时间: 2022-11-07 04:30解决方案:优采云采集器-多页单层数据抓取
在爬取数据之前,你必须弄清楚爬取的数据是如何分布的。
列表页是内容页的集合,最后要爬的字符串不在本页。内容页面是要抓取的最后一个字符串的页面。软件中设置的初始页面默认为列表页面。如果初始页面实际上是最后一个内容页面,您可以在 URL 采集 规则下点击设置。
如图,当“页面”为列表页面,“连接”为内容页面时,可以顺理成章地分类,可以分为单页单层、单页多层、多页单层、多页多层。
最简单的就是单页单层,所有操作只在一个内容页上进行
昨天的链家测试只测了二手房首页()的数据,但是每栋房子的具体信息需要从各个下层的超链接中获取,所以属于单页多层。连家网站非常适合多页、多层的测试(打算明天做)。
今天主要做多页单层。但是这个多页单层好像有不同的设置方式,不适合重复设置,输出结果会略有不同(应该有一些操作不太理想)。因此,记录了几种方法以供将来参考。
抓取网页的页面和图层
*敏*感*词*模型适合多页单层提取。数据分布在不同的页码上,但每一页都是要提取的内容页。
我选择了一些我的墙头作为测试用例。
刘昊然
张新成
张令和
第一种方式是在URL采集规则中输入多页并设置为内容页,不要在内容采集规则中设置多页
以刘昊然在*敏*感*词*的帖子为例()
[URL 采集 规则部分]
1. 使用向导在起始 URL 中添加用于输入帖子 URL 的表达式。计数部分替换为[地址参数]。由于这篇文章只有 3 页,所以最后的条目数是 3。
2.因为这些页面是内容页面,所以点击设置进行设置。
3、使用URL采集测试看看内容页是否设置成功。
刘昊然案例-网站采集规则与步骤
刘昊然案例 - URL 采集 规则 - 精灵加法
最后设置成功
刘昊然案例——URL 采集规则的设置方式
[内容设计采集 规则部分]
1.在该部分设置要输出的入口名称,点击对应入口设置捕获方式。如果我想抓取评论者的昵称和评论内容,我需要设置“昵称”和“内容”。
2. 因为之前已经设置了所有页面,所以第二部分使用“从默认页面”。
3. 要捕获此页面上人们的所有评论,必须选中 3。特别注意昵称和内容一定要核对一一对应。
4.常用于截取前后和正则提取(正则提取学会更香)。
5、因为已经设置了页码,这里就不用写内容分页了。
6.数据处理部分用于去除一些字符串和空格。因为评论者喜欢添加图片或表情,所以图片串往往很多。
刘昊然案例-内容采集规则与步骤
设置完成后,如图:
刘昊然案例——内容采集规则的完成方式
特别是左下角的循环设置也要改成“添加为新记录”,否则所有的数据采集都会挤到同一个数据框里。此处“昵称”和“内容”应同时勾选。
刘昊然案例——笔记:循环设置
现在测试一下。由于规则设置中不使用内容分页,因此仅运行测试 URL 的内容。即第一页有29条记录
刘昊然案例测试
但是保存退出,在主页面运行项目,可以得到3页所有昵称及其评论(一百多个)。但是你会发现1、2、3的顺序是错误的。虽然可以在excel中复制再调整,但并不是最理想的输出结果。
刘昊然案例——项目运行后收获成果
第二种方式是在URL采集规则中只输入起始页,在内容采集规则中设置多个页面
以我哥张新成的*敏*感*词*的一个帖子为例()(在我哥的贴吧找3页左右的帖子不容易)
[URL 采集 规则部分]
1、只设置首页为起始网址,点击“起始网址为内容页网址”选项。
张新成案例-URL采集规则
[内容设计采集 规则部分]
内容部分与前者不同:
1.数据源要改成默认页面和内容分页源码
2、在内容分页时,分页的URL要通过页码部分的源码来获取。详细操作见B站:
张新成案例——内容采集规则
一切都设置好后,单击测试。
在测试阶段的这一点上,所有 3 个页面都被爬取了。
张新成案例测试
保存退出,在主页面运行。
张新成案例——项目运行后捕捉成果
跑完之后,张新成的案子没有刘昊然案子出现的问题。是的!
最后有一个小测试。在其他一些案例教程中,在 URL采集 规则部分,建议先输入初始 URL,然后通过向导添加输入分页 URL。会不会影响操作?拿张令和的case()来测试一下。
只修改起始URL部分的设置,其他与刘昊然的情况相同。
张令和案例——起始URL的不同设置
运行结果与刘昊然案相同。所以这里的不同设置方法都很好。
后记
1、善用内容采集规则页面的“数据处理”进行数据清洗
2、善用源码中的代码进行位置标记
3.抓取完成后,复制到Excel中进行后续编辑
探索今天结束。明天尝试抓取多层多页数据,以链家或相关网站为例。
解决方案:优采云软件
优采云智能慧聪网络客户端采集软件是一款功能强大、操作简单、实用方便的专业企业信息采集助手。是用户朋友批发采购营销的专业工具。
优采云智能慧聪网络客户端采集软件是慧聪网网站采集企业信息的软件,搜索效率高,数据准确,采集速度快。可以根据关键词、省、市、企业类别准确采集。
搜索到的信息还包括公司名称、联系人、电话号码、传真、买卖年份、商品数量、地址、公司主页.QQ等信息。搜索结果可以xls格式、CVS格式、TXT格式导出到excel。
小编总结
慧聪网企业会员分析挖矿助手简单易用,操作傻瓜式,无需安装解压即可使用。它是寻找供应商进入批发采购和营销的便捷工具。