ie浏览器采集网页的html代码，并解析转换。

优采云发布时间: 2021-05-06 07:02

　　采集器采集网页的html代码，并解析转换。可以是一段文本，也可以是一段网页的代码（网页内容），由于用的是浏览器，因此就采集内容而言是支持的。

　　常用javascript去抓取

　　方法有很多，像爬虫之类的都不太现实，楼主可以通过选择性的采集一下网页。想要快速的话，

　　ie浏览器的useragentmodelingscrapy

　　上github找到一个modeling的repo，拿去当采集器。

　　可以在阿里云上部署python爬虫，方法多的是。

　　requests也可以采集一些信息，

　　有人提到javascripttokenizer了，

　　github可以找到轮子

　　requests

　　完全支持chrome浏览器就是最方便的了。那你为什么要用python呢？python不适合。python不支持http请求的，自己用django吧。java，nodejs什么的。python更不适合。

　　谢邀。当然可以。javascript上有各种jquery或者taben之类的。不过如果有一款爬虫框架也许是更好的选择。我推荐poco，可以了解一下。

0

2021-05-06

采集器采集

0 个评论

要回复文章请先登录或注册