文章采集文章采集(python网站爬虫不适合作为主力开发语言，只是提供思路)

优采云发布时间: 2021-12-22 03:01

　　文章采集文章采集是python自动爬虫之重要基础。手工采集没有经验，需要先识别，再由机器读取并得到数据，再打标签分析，最后输出结果。想必同学们也遇到过等待python加载完整个网页抓取结果的情况，打开一个新的网页，要从头开始抓取，这样花费的时间是不容忽视的。以我目前的水平，解决方案有一两个，但不是适合每个人，只是提供一个思路。

　　网上看了一圈，感觉python网站爬虫不适合作为主力开发语言，作为辅助开发语言时这么考虑更合适一些。python爬虫的另一个优势就是采集速度快，一些网站抓取结果容易分析并整理汇总，尤其是需要引用数据库的情况下。结合爬虫和机器学习，把我自己的一个用网页采集+机器学习+爬虫做聚合平台的想法呈现出来。由于知乎对图片压缩，文字显示效果不是很好，估计看下面效果就明了。

　　我简单的实现思路就是，把网页上所有的内容提取出来，并存储数据库。当用户来访爬虫时，我会优先从我的数据库中读取想要的数据，数据的存储还需要python进行读取，这样在用户访问抓取的网页时，速度大大加快，大概只需要60秒左右，实现的代码如下：数据库存储：joinquant爬虫：pipinstalljoinquant--install-i--install-python3--install-i之前没有明确需求写好爬虫的数据库存储，后来想起当初觉得python的数据库是个新特性，特别希望能用它来作为数据库存储，然后connecting完数据库后，现在想法完全落空，然后觉得还是python的pymysqld更加方便。

　　之后又体验了各种爬虫工具，发现各有利弊，http的限制就把解决方案干掉了，然后各种爬虫工具都没有接入网页采集。最后发现我的数据库配置不合理，而且爬虫只能抓取post请求的页面。后来得出结论，没有什么工具能完美解决这个问题，就认命，等待爬虫库上线。这时候想想不能在等待爬虫库上线了，要去做一些更有意义的事情，那么就要有用户的*敏*感*词*爬虫。

　　于是整理好已有数据，加入机器学习的数据库和爬虫库，重新开始抓取数据。机器学习：requests,beautifulsoup4爬虫：pyspider,scrapy。大家都说scrapy的跨平台性不是太好，但是我使用这种方式应该挺合适的。用一个爬虫池爬虫网站抓取的数据分析采集网站数据我在linux下开始了爬虫测试，写好爬虫用linux不需要像windows一样配置环境，简单方便。

　　安装linux:使用sudoapt-getinstalllanguage-python安装好了language-python，有了python标准库，我们就可以开始写爬虫了。在大型网站抓取的时候一般还会对封装好的http请。

0

2021-12-22

文章采集文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集文章采集(python网站爬虫不适合作为主力开发语言，只是提供思路)

0 个评论

发起人

AI时代内容工厂

文章采集文章采集(python网站爬虫不适合作为主力开发语言，只是提供思路)

0 个评论

发起人

相关问题