php 爬虫抓取网页数据(做爬虫->相似度/主题提取/关键词-IDF)

优采云发布时间: 2021-09-14 21:19

　　我做爬虫的时候，先抓取分类页面，抓取页面下所有分类的列表页url，然后加上*敏*感*词*后缀（也就是页码），开始迭代抓取列表页。在列表页中，我们只关心详情页，所以我们抓取了所有详情页的 URL 并将它们扔到 MQ 中。然后详情页抓取器会循环从MQ中获取详情页url，下整个html，保存在HDFS中。使用 MQ，您可以自己编写分布式架构。

　　为什么不直接从详情页提取想要的信息（ETL），而是直接保存html（EL）？首先是HDFS分布式文件系统，存储成本极低，解决了海量小文件的问题；其次，如果您提取信息的模式（常规/XPath/...）是错误的怎么办？或者您想稍后添加新的提取模式？您必须再次获取此页面，这会浪费宝贵的外部网络带宽。

　　另外，对于爬虫来说，最重要的是高度的容错性。除非你认为每个页面都很有价值，如果服务器返回非200，或者页面意外重定向，就放弃这个url。

　　最有效的爬虫是填满你的外部网络带宽，但这是理想的。抓住满足需求的数量即可。

　　也不要在车站上吊死自己。例如，我过去常常捕捉新闻。基本上几个主流站都在互相爬取，重复的内容很多。一个是爬行，但第二个不一定。至于去重，浪费了一些计算性能，做分词->余弦相似度/主题提取/关键词TF-IDF都可以轻松搞定，总比没有进来好

0

2021-09-14

php 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 爬虫抓取网页数据(做爬虫->相似度/主题提取/关键词-IDF)

0 个评论

发起人

AI时代内容工厂

php 爬虫抓取网页数据(做爬虫->相似度/主题提取/关键词-IDF)

0 个评论

发起人

相关问题