网站采集工具( 网页数据采集工具页采集)

优采云发布时间: 2022-02-13 00:01

　　网站采集工具(

网页数据采集工具页采集)

　　目标采集网址：中文网站总排名_网站排名

　　类型：标准列表页+详情页+翻页

　　数据量：1895页x 30/页=56850条数据

　　采集工具：优采云采集器

　　优采云采集器 - 好用的网络数据采集tool_免费网络爬虫软件

　　首先我们创建一个任务，填写起始URL，因为这次采集的结构没有那么复杂，不需要生成URL，只要有List起始页就可以了启动，然后单击下一步。

　　如图，对优采云采集器的分析非常智能。由于这是一个列表页面，优采云会自动解析相应的字段和格式。而我们只需要修改字段名称，以确保理解和遵守命名约定。

　　由于这次是List-Detail的二级采集结构，在Detail页面中有些字段是重复的，所以可以从List页面或者Detail页面采集中去掉一些字段。在这种情况下，请从详细信息页面中删除列表。页面中的某些字段已为采集。

　　需要注意的是，当List页面为采集时，由于我不希望采集重复Detail数据，而且我以后也想增量更新，所以这里选择Detail_url字段不要空的或重复的。

　　此外，对某些字段中不需要的数据进行了简单的文本替换。这部分现场处理确实是优采云经验不够好，希望改进。

　　这里需要注意的是，首先页面没有复杂的JS或者影响采集的Ajax代码，所以点击HTTP引擎后仍然可以正常加载和采集。所以这个时候一定要检查一下http引擎，它可以大大提高采集的速度，类似于真正的爬虫采集机制，而不是浏览器渲染采集。

　　之后，我们选择detail_url，然后选择下钻到这个链接采集，这样就可以进入二级页面了。但在此之前，我们还需要设置翻页。优采云的翻页更加智能。如果是正常翻页，可以尝试自动识别。

　　这个页面有点特别。虽然显示已经自动识别了翻页元素，但是应该突出显示的却没有显示出来。为了保险起见，我们选择手动标记，这样更安全，最后不必检查。

　　手动选择也很简单，点击元素定位页面，这个页面就是1895之后的“>”部分。

　　之后在手动设置xpath就可以看到软件自动定位的xpath结果。

　　之后就可以进入采集的Detail页面。由于页面内容很多，而且Detail没有自动解析，只能手动一一添加字段，然后点击采集到数据中。，虽然繁琐，但并不复杂。需要注意的是，当采集百度权重和谷歌权重时，直接采集到图片的URL，但是由于图片的文件名代表PR值，可以用很简单的数据处理方法来解决。

　　比如Google PR值，可以看到文本部分只有一个数字，那么我们的正则表达式可以匹配d。其他所有需要处理的数据都类似处理，基本上换成文字就够了。记住这个页面也可以选择http引擎处理来加快速度。

　　最后一步，因为我对采集的速度没有什么特殊要求，又不想被站长家拦，所以宁愿采集慢一点，比如线程数2-3，间隔1000-5000毫秒。或者直接挂代理服务器，速度都可以加快。我习惯选择UA来保证请求头数据的完整性。其他设置基本不用修改就可以启动采集。

　　由于不需要渲染整个页面，所以使用http引擎采集的速度要比浏览器引擎快很多，类似于优采云采集器的效果，但更直观的界面和操作可以说让普通人轻松采集。对我来说，上面的采集规则不到10分钟就可以写出来，我已经相当熟练了。尤其是了解了采集的机制，基本不用停下来想一想就可以搞定。

　　数据导出也很容易。这里将之前采集导入数据库的表格图片放出来，可以更直观、更方便的在Navicat中管理数据库。

　　以上采集步骤和数据库管理是针对非技术人员的。一般来说，它比较容易使用。你可以试试看。

　　周杰伦的技术交流博客——洞察业务与技术的结合，挖掘数据的价值和潜力！

0

2022-02-13

网站采集工具

0 个评论

要回复文章请先登录或注册