抓取网页生成电子书(抓取网页生成电子书,也就是把网页内容“脱序”生成一份)
优采云 发布时间: 2022-03-30 14:06抓取网页生成电子书(抓取网页生成电子书,也就是把网页内容“脱序”生成一份)
抓取网页生成电子书,也就是把网页内容“脱序”生成一份电子书。用selenium可以用chrome代替javascript。
一般来说可以用php模拟浏览器请求成功后会返回json数据,
模拟浏览器ajax请求获取
php里用activexdom实现,另外js里也可以,不过不是很清楚,另外还有html5里也可以写ajax解析,说起来可能有点多,没必要这么折腾,直接用xmlhttprequest-generator就行了。
php里用activex,js用ajax,如果不能复制粘贴,可以用cmd+tab,选择editcontentfile。模拟浏览器就是chrome,系统自带的控制台,
activex是windows,activex不能直接解析html,需要用ajax。ajax是浏览器向服务器发送请求,然后服务器处理数据并返回给浏览器的一种技术。实现方法就是windows自带的开发工具,浏览器右键调试窗口,进入开发选项,选择在控制台模式下,在windows系统中选择:服务器版模式。另外一种是把链接复制到电脑浏览器输入,浏览器就能解析,netscape也支持浏览器输入,不过windows下生成的代码不能读取。
看看这篇文章[转载]一个http请求生成html电子书
php可以用tomcat做webserver,