php抓取网页数据插入数据库(request+goquery+mahonia实现自动抓取(图)代码)

优采云 发布时间: 2022-04-07 06:21

  php抓取网页数据插入数据库(request+goquery+mahonia实现自动抓取(图)代码)

  request+goquery+mahonia实现网页数据自动爬取

  https:hotqin888articledetails52194839 设计院OA上有一个维护良好的法规库,3000多个条目。我在 30 分钟内将它们逐页复制到 excel 中。总共1500页。为什么不使用代码抓取?因为我连chrome都不能登录访问这个库,只支持ie。使用fiddler获取库页面地址,复制到chrome,直接跳转到登录页面。今天再试试,用chrome登录,然后点击:进入系统-会单独打开一个窗口,这个窗口好像不支持地址输入,没关系,在这个窗口-公共信息-点击下拉- 技术标准,它将打开一个新窗口,出现库。此时,回到任意一个chrome标签,输入地址,就可以打开库了。我不 不知道为什么这么复杂。就记录下来吧。我们进入正题,直接用代码抓取库。这样一个循环一次可以抓取1500页。用到了三个知识点:请求库构造http访问信息头,这里带上登录cookie来模拟登录;mahonia将页面gb的代码转换为utf-8,否则会乱码;goquery大名鼎鼎的get html 否则会乱码;goquery大名鼎鼎的get html 否则会乱码;goquery大名鼎鼎的get html

  650

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线