基于browser的爬虫（ghostinstaller.spider）基于python的数据库加速

优采云发布时间: 2022-05-02 03:00

　　js抓取网页内容文件结构文件结构从favicon.ico里面找，或者用浏览器浏览器标签里面找第一步我们获取的excel里面的数据第二步，webpy抓取网页内容python3爬虫+webpy实战(代码已放github)第三步，

　　webpy的webcontent模块

　　写爬虫嘛，o2magicjs的第一个版本，很基础的。别的啥都没有。

　　没有用过webpy，不知道难度，但是比python的方便多了。只要用。

　　webpy

　　当然是o2magic了啊

　　肯定是开源的webpy了呀，

　　excel会得到20000条基本数据可以不用编程了。

　　我找过的一些挺有意思的库：webpy基于get/post的网络请求库，不适合爬取数据。selenium基于模拟器的代理。基于browser的爬虫（ghostinstaller）基于python的爬虫（openitview.spider）基于selenium的爬虫加速库，爬下来就是图片。基于requests的爬虫基于flask的爬虫，参见flaskpy。

　　osgeocouter基于python的命令行工具pathfinder（java版本的）基于mysql的数据库加速。celery/python-sqlite（hbase这种，oracle也可以）（quickopenopen这类有线程池的，nio中的kqueue也可以用在爬虫里，关键是效率）如果需要写的excel能兼容就再考虑mongodb之类，或者借助其他第三方库。

　　最不推荐的就是c++的spider。因为爬取后，除了后续文件读写可能会遇到各种问题以外，最后还是需要进行转化才能跑起来。c++里，也没多少可以实现和效率相关的功能。

0

2022-05-02

js 抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

基于browser的爬虫（ghostinstaller.spider）基于python的数据库加速

0 个评论

发起人