不用采集规则就可以采集(不用采集规则就可以采集该网站的所有内容!)

优采云 发布时间: 2022-03-15 23:05

  不用采集规则就可以采集(不用采集规则就可以采集该网站的所有内容!)

  不用采集规则就可以采集该网站的所有内容!搜索引擎抓取某个网站内容是根据网站内容是否满足搜索引擎抓取条件来决定的,并不是说只要该网站内容满足搜索引擎抓取条件就可以直接抓取该网站内容。举个例子:像某网站内容很多,每条都是txt格式,并且没有html规则或代码,在采集的时候就不能使用scrapy框架下的requests模块,而需要采用scrapy框架下的selenium模块进行采集。

  目前selenium完成cookie,session之间的转换比较麻烦。最好用cookie的方式进行会更方便。现在就是一个出于等待时间而没有更多的精力和资源采集更多内容的情况下,使用selenium进行抓取!(并不是selenium技术不好,而是目前而言比较耗费时间,airesumetime和人工resumetime问题,导致部分爬虫抓取效率比较低)个人见解!仅供参考!。

  其实selenium很好用,可以注册个authority试试不懂的请留言哈。

  有一个python工具就叫selenium--api

  用selenium可以自动抓取并分析抓取内容,而在实践中有不少的难点和坑。如果使用selenium从网站或者app中获取页面源代码,和在excel中显示并操作网页是一样的,甚至可以在上千行代码中读取,这对初学者来说是个挑战。我就解决这个问题写了一个demo并完整的封装了selenium的api,有兴趣的可以了解一下。selenium官方tutorial。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线