如何从web爬取指定文章网站的全部文章(推荐)
优采云 发布时间: 2021-05-16 19:03如何从web爬取指定文章网站的全部文章(推荐)
文章采集完后,可以把获取来的各种标题以及摘要等数据导入到excel中进行分析,通过数据透视表实现数据可视化,通过数据源可以实现统计文章的数量以及推荐分析文章(推荐本文)的浏览数。本文整理了如何从web爬取指定文章网站的全部文章。爬取工具采用网上已经火热的python3网络爬虫库phantomjs,因为phantomjs的跨平台爬取,可以安装个ubuntu环境。
网上各种爬虫框架可以学习下。方法就是对于每篇文章打包成一个csv文件放入dreamweek数据库,爬虫的代码是提前写好的,通过sqlite调用数据库查询获取。关于phantomjs,可以参考官方文档查看操作,下面针对分析文章是否被爬取进行说明。爬取案例分析结合分析文章是否被爬取,首先要找到一个合适的分析工具。
比如定义一个标准,有平台的监管、监控爬取者动作、双方交易合同是否生效、对方是否能控制文章打包等等这些特征,这些都是可以分析文章是否有被爬取的必要条件。这里选用webview的分析工具-phantomjs(请自行度娘爬虫入门)。webview框架的更多应用请查看webview-掘金,具体的使用请查看webview框架有哪些用处。
请看官方文档:webview框架介绍_seansong'sblog.phantomjs简介-csdn博客。webview默认支持大于100m的js和css文件,但是在项目内使用它是不能识别的。所以爬取的请求的请求头是一定要考虑的。下面,先确定好爬取的url文件是多大,这里可以通过关键字来进行分析,比如“电影名”可以进行匹配分析。
特别说明的是如果需要抓包分析被爬取文章就需要进行基本的http了解,http在这里不是很详细介绍。这里统计出所有url在文章打包后的宽度,用于统计被爬取者浏览到文章的比例(因为dreamweek数据库文章往往都比较长,用图表来展示更为直观)。然后用js抓取文章,拿到url打包后的文件名称,经过解析csv文件,就可以分析文章了。
<p>针对爬取效率的优化,把所有分析上面两个步骤需要的配置都集成到webpage.js里,可以提高爬取效率,如:vardreamweekdata=require('webpage.js');url.parse('/http/text/dark_comment.js');ajax?ajax=ajax:path('data.txt',true)?path('data.txt',false):description('第0069期')?path('data.txt',false):xhrtext('