内容采集(内容采集,也可以用爬虫实现页面浏览器的跳转.)

优采云发布时间: 2021-08-30 09:04

　　内容采集,也可以用爬虫的形式采集,包括但不限于标题爬虫,内容爬虫,篇章爬虫,人物爬虫等方式.最好需要用javascript实现页面浏览器的跳转.通过页面技术上的实现,传播你的知识,让更多人知道.ps:我是知乎新手,回答不好请见谅,请大家不吝赐教.

　　姑且强答一发，我记得知乎现在采用类似jsoup的网页解析，爬虫可以跟访问页面的浏览器一起解析页面然后获取对应的资料。这个是由你提到的地理定位服务器管理页面是分析访问页面的地理信息后获取地址返回你。关于如何解决问题，你可以用爬虫来采集你那里的地址，然后结合页面特征。

　　如果你是用本地浏览器来获取的，应该是由于非直达的数据或是浏览器自身缓存机制问题，从而导致了楼主所说的需求。我觉得这不是问题，虽然有时会让人烦恼，但多关注细节，问题就迎刃而解了，

　　可以用过cors来解决这种情况，具体的关于cors请求发送参数等请自行百度。现在网页上浏览器有很多爬虫可以实现爬取，urlrank之类的功能也比较多，题主是要爬取啥，爬取的结果在哪里展示，弄清楚这些问题能解决很多问题。

　　爬取浏览器页面，

　　你是要抓哪种数据？url有urlretrieve，headers可以考虑用requests，全局的比如localtime这些找找能不能到。ps:更多爬虫技术方面的问题可以参考我的回答，

0

2021-08-30

内容采集

0 个评论

要回复文章请先登录或注册