抓取网页生成电子书(抓取网页生成电子书,也就是把网页内容“脱序”生成一份)

优采云 发布时间: 2022-03-30 14:06

  抓取网页生成电子书(抓取网页生成电子书,也就是把网页内容“脱序”生成一份)

  抓取网页生成电子书,也就是把网页内容“脱序”生成一份电子书。用selenium可以用chrome代替javascript。

  一般来说可以用php模拟浏览器请求成功后会返回json数据,

  模拟浏览器ajax请求获取

  php里用activexdom实现,另外js里也可以,不过不是很清楚,另外还有html5里也可以写ajax解析,说起来可能有点多,没必要这么折腾,直接用xmlhttprequest-generator就行了。

  php里用activex,js用ajax,如果不能复制粘贴,可以用cmd+tab,选择editcontentfile。模拟浏览器就是chrome,系统自带的控制台,

  activex是windows,activex不能直接解析html,需要用ajax。ajax是浏览器向服务器发送请求,然后服务器处理数据并返回给浏览器的一种技术。实现方法就是windows自带的开发工具,浏览器右键调试窗口,进入开发选项,选择在控制台模式下,在windows系统中选择:服务器版模式。另外一种是把链接复制到电脑浏览器输入,浏览器就能解析,netscape也支持浏览器输入,不过windows下生成的代码不能读取。

  看看这篇文章[转载]一个http请求生成html电子书

  php可以用tomcat做webserver,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线