php 爬虫抓取网页数据(做爬虫->相似度/主题提取/关键词-IDF)

优采云 发布时间: 2021-09-14 21:19

  php 爬虫抓取网页数据(做爬虫->相似度/主题提取/关键词-IDF)

  我做爬虫的时候,先抓取分类页面,抓取页面下所有分类的列表页url,然后加上*敏*感*词*后缀(也就是页码),开始迭代抓取列表页。在列表页中,我们只关心详情页,所以我们抓取了所有详情页的 URL 并将它们扔到 MQ 中。然后详情页抓取器会循环从MQ中获取详情页url,下整个html,保存在HDFS中。使用 MQ,您可以自己编写分布式架构。

  为什么不直接从详情页提取想要的信息(ETL),而是直接保存html(EL)?首先是HDFS分布式文件系统,存储成本极低,解决了海量小文件的问题;其次,如果您提取信息的模式(常规/XPath/...)是错误的怎么办?或者您想稍后添加新的提取模式?您必须再次获取此页面,这会浪费宝贵的外部网络带宽。

  另外,对于爬虫来说,最重要的是高度的容错性。除非你认为每个页面都很有价值,如果服务器返回非200,或者页面意外重定向,就放弃这个url。

  最有效的爬虫是填满你的外部网络带宽,但这是理想的。抓住满足需求的数量即可。

  也不要在车站上吊死自己。例如,我过去常常捕捉新闻。基本上几个主流站都在互相爬取,重复的内容很多。一个是爬行,但第二个不一定。至于去重,浪费了一些计算性能,做分词->余弦相似度/主题提取/关键词TF-IDF都可以轻松搞定,总比没有进来好

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线