网站采集工具( 网页数据采集工具页采集)
优采云 发布时间: 2022-02-13 00:01网站采集工具(
网页数据采集工具页采集)
目标采集网址:中文网站总排名_网站排名
类型:标准列表页+详情页+翻页
数据量:1895页x 30/页=56850条数据
采集工具:优采云采集器
优采云采集器 - 好用的网络数据采集tool_免费网络爬虫软件
首先我们创建一个任务,填写起始URL,因为这次采集的结构没有那么复杂,不需要生成URL,只要有List起始页就可以了启动,然后单击下一步。
如图,对优采云采集器的分析非常智能。由于这是一个列表页面,优采云 会自动解析相应的字段和格式。而我们只需要修改字段名称,以确保理解和遵守命名约定。
由于这次是List-Detail的二级采集结构,在Detail页面中有些字段是重复的,所以可以从List页面或者Detail页面采集中去掉一些字段。在这种情况下,请从详细信息页面中删除列表。页面中的某些字段已为 采集。
需要注意的是,当List页面为采集时,由于我不希望采集重复Detail数据,而且我以后也想增量更新,所以这里选择Detail_url字段不要空的或重复的。
此外,对某些字段中不需要的数据进行了简单的文本替换。这部分现场处理确实是优采云经验不够好,希望改进。
这里需要注意的是,首先页面没有复杂的JS或者影响采集的Ajax代码,所以点击HTTP引擎后仍然可以正常加载和采集。所以这个时候一定要检查一下http引擎,它可以大大提高采集的速度,类似于真正的爬虫采集机制,而不是浏览器渲染采集。
之后,我们选择detail_url,然后选择下钻到这个链接采集,这样就可以进入二级页面了。但在此之前,我们还需要设置翻页。优采云 的翻页更加智能。如果是正常翻页,可以尝试自动识别。
这个页面有点特别。虽然显示已经自动识别了翻页元素,但是应该突出显示的却没有显示出来。为了保险起见,我们选择手动标记,这样更安全,最后不必检查。
手动选择也很简单,点击元素定位页面,这个页面就是1895之后的“>”部分。
之后在手动设置xpath就可以看到软件自动定位的xpath结果。
之后就可以进入采集的Detail页面。由于页面内容很多,而且Detail没有自动解析,只能手动一一添加字段,然后点击采集到数据中。,虽然繁琐,但并不复杂。需要注意的是,当采集百度权重和谷歌权重时,直接采集到图片的URL,但是由于图片的文件名代表PR值,可以用很简单的数据处理方法来解决。
比如Google PR值,可以看到文本部分只有一个数字,那么我们的正则表达式可以匹配d。其他所有需要处理的数据都类似处理,基本上换成文字就够了。记住这个页面也可以选择http引擎处理来加快速度。
最后一步,因为我对采集的速度没有什么特殊要求,又不想被站长家拦,所以宁愿采集慢一点,比如线程数2-3,间隔1000-5000毫秒。或者直接挂代理服务器,速度都可以加快。我习惯选择UA来保证请求头数据的完整性。其他设置基本不用修改就可以启动采集。
由于不需要渲染整个页面,所以使用http引擎采集的速度要比浏览器引擎快很多,类似于优采云采集器的效果,但更直观的界面和操作可以说让普通人轻松采集。对我来说,上面的采集规则不到10分钟就可以写出来,我已经相当熟练了。尤其是了解了采集的机制,基本不用停下来想一想就可以搞定。
数据导出也很容易。这里将之前采集导入数据库的表格图片放出来,可以更直观、更方便的在Navicat中管理数据库。
以上采集步骤和数据库管理是针对非技术人员的。一般来说,它比较容易使用。你可以试试看。
周杰伦的技术交流博客——洞察业务与技术的结合,挖掘数据的价值和潜力!