网页源代码抓取工具(网页源代码抓取工具:主要有两个，一个是jsoup)

优采云发布时间: 2022-03-12 03:05

　　网页源代码抓取工具:，主要有两个，一个是jsoup，一个是requests。这两个都是python语言写的，只是一个基于http协议，一个基于https协议。

　　以前写过一个用javascript编写的爬虫，用浏览器即可，但是需要自己封装一个浏览器。我写这个爬虫的本意是方便自己查看自己数据，以便对数据做深入分析的。

　　你说的这种情况应该是指python爬虫吧，这个最简单的有现成的库可以使用scrapy，

　　可以使用pythonscrapy模块

　　最简单的有一个scrapy。

　　使用网站库+脚本管理+自行封装工具+代理服务器，

　　可以参考下，

　　用javascript代码可以很轻松就实现。

　　阿里巴巴的购物爬虫有一些利用js实现。其他网站不清楚。

　　可以用extrememarket3js/malloc·github看看有没有写过的js库。

　　会写html基本语法吗？nodejs？rapidjs这种包还没用上过！

　　搞一个html模板字符串（写上图片等），

　　可以使用requests库来处理网络js动态加载资源的例子：helloworldhttprequests库支持网络请求，而且是原生的http类型，

0

2022-03-12

网页源代码抓取工具

0 个评论

要回复文章请先登录或注册