文章采集文章采集(python网站爬虫不适合作为主力开发语言,只是提供思路)

优采云 发布时间: 2021-12-22 03:01

  文章采集文章采集(python网站爬虫不适合作为主力开发语言,只是提供思路)

  文章采集文章采集是python自动爬虫之重要基础。手工采集没有经验,需要先识别,再由机器读取并得到数据,再打标签分析,最后输出结果。想必同学们也遇到过等待python加载完整个网页抓取结果的情况,打开一个新的网页,要从头开始抓取,这样花费的时间是不容忽视的。以我目前的水平,解决方案有一两个,但不是适合每个人,只是提供一个思路。

  网上看了一圈,感觉python网站爬虫不适合作为主力开发语言,作为辅助开发语言时这么考虑更合适一些。python爬虫的另一个优势就是采集速度快,一些网站抓取结果容易分析并整理汇总,尤其是需要引用数据库的情况下。结合爬虫和机器学习,把我自己的一个用网页采集+机器学习+爬虫做聚合平台的想法呈现出来。由于知乎对图片压缩,文字显示效果不是很好,估计看下面效果就明了。

  我简单的实现思路就是,把网页上所有的内容提取出来,并存储数据库。当用户来访爬虫时,我会优先从我的数据库中读取想要的数据,数据的存储还需要python进行读取,这样在用户访问抓取的网页时,速度大大加快,大概只需要60秒左右,实现的代码如下:数据库存储:joinquant爬虫:pipinstalljoinquant--install-i--install-python3--install-i之前没有明确需求写好爬虫的数据库存储,后来想起当初觉得python的数据库是个新特性,特别希望能用它来作为数据库存储,然后connecting完数据库后,现在想法完全落空,然后觉得还是python的pymysqld更加方便。

  之后又体验了各种爬虫工具,发现各有利弊,http的限制就把解决方案干掉了,然后各种爬虫工具都没有接入网页采集。最后发现我的数据库配置不合理,而且爬虫只能抓取post请求的页面。后来得出结论,没有什么工具能完美解决这个问题,就认命,等待爬虫库上线。这时候想想不能在等待爬虫库上线了,要去做一些更有意义的事情,那么就要有用户的*敏*感*词*爬虫。

  于是整理好已有数据,加入机器学习的数据库和爬虫库,重新开始抓取数据。机器学习:requests,beautifulsoup4爬虫:pyspider,scrapy。大家都说scrapy的跨平台性不是太好,但是我使用这种方式应该挺合适的。用一个爬虫池爬虫网站抓取的数据分析采集网站数据我在linux下开始了爬虫测试,写好爬虫用linux不需要像windows一样配置环境,简单方便。

  安装linux:使用sudoapt-getinstalllanguage-python安装好了language-python,有了python标准库,我们就可以开始写爬虫了。在大型网站抓取的时候一般还会对封装好的http请。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线