抓取网页生成电子书(通过tcp协议抓取网页生成txt电子书的工具框架介绍)
优采云 发布时间: 2021-09-17 00:03抓取网页生成电子书(通过tcp协议抓取网页生成txt电子书的工具框架介绍)
抓取网页生成电子书可谓是一件很平常的事情,通过一些常见的方法就可以爬取到网页上所有的图书信息。本文将尝试通过java和python等工具框架,通过tcp协议抓取网页生成txt电子书。第一步:图书信息的收集及爬取图书信息的爬取,通常通过多抓包方式得到。比如选择多抓包软件fiddler的抓包工具。本文以豆瓣为例做介绍。
通过fiddler的多抓包功能,我们可以发现网页的代码是非常简单的:$(while($($($gethtml('..'){$htmlto=http_get_header('user-agent','mozilla/5.0(windowsnt6.1;wow6。
4)applewebkit/537.36(khtml,likegecko)chrome/72.0.3263.201safari/537.36');postall($htmlto,$to,$next,$result);}第二步:图书信息的数据转换
1、将抓取到的图书信息用mysql进行存储,同时进行相应的代码操作。我们有一个python项目,用于在python中爬取图书的信息,
2、将爬取到的代码存入mysql数据库中进行数据库的提取。我们有一个java项目,用于在java中进行图书的提取。所以本文对java文件的存入数据库进行操作,并通过python进行数据库的接口调用。
3、图书信息的更新及统计目前,图书信息对于工程师而言也许并不是太过重要,所以我们目前将不对图书信息的更新进行统计。但如果数据量很大,对于项目而言,当然也是一项噩梦。如果我们按照上面的爬取操作的话,每本书都会至少在1000本以上,而且图书的原始索引应该有可能多于1000本。按照上面的操作的话,图书信息几乎不可能增长到1000本以上。
我将从各大书城的高评论文章、豆瓣的首页及图书的列表,把大量评论的链接提取出来进行分析。并计算“最佳的参考书”的数量及占比。我的最佳提名书数量、评分不会超过10本,然后根据这个结果进行计算。这样看的话,可能并不是特别有利于从众多评论中将书籍区分出来,对数据分析很有帮助。但如果用这个思路,生成出一个图书文件,放到统计库(listkit),以便查询统计。
可能有点太不公平了,毕竟评分最高的书籍一定不会是获取多次分数最高的书籍,毕竟你爬一次分数就清零了。当然,这是我的思路,不是用于应对人工的劳工分析。
第三步:图书信息的运营方式及数据分析
1、考虑市场的小众化网站一般都是由某个大体量网站的用户转化而来的,