技巧:如何使用googlechrome提供的urllib2进行html页面的操作方法?

优采云 发布时间: 2022-11-18 11:28

  技巧:如何使用googlechrome提供的urllib2进行html页面的操作方法?

  采集工具urllib2导读手动构造超过500万个html页面特别复杂,有些页面甚至经常需要多人编写、刷新等过程,这样就无法给每个人都添加一个相应的索引结构,而且也无法在一个页面添加多个标签。通过googlechrome提供的urllib2库,可以轻松构造到完整的html页面。原始的html页面结构是图片的源地址,然后从图片地址链接去找相应的数据,或者浏览器路径直接显示图片内容,所以必须要过滤掉首部之类的不重要的东西,造成工作量巨大。

  

  而urllib2可以通过分析页面源码来定位url,然后为每个页面建立单独的索引结构,从而极大地简化了过滤页面的工作量。下面介绍如何使用googlechrome提供的urllib2进行html页面的操作。首先在浏览器端安装:创建一个新页面e2.addeventlistener("scroll",true);src=urllib2.urlopen(url);str=stringify(urllib2.urlfilter(url,str));//urllib2模块3种构造url的方法:1.url地址+编码方式生成html代码2.url地址+urisrc=urllib2.urlopen(url);//不支持编码方式3.url地址+分割符生成html代码本文将采用第一种方法。

  效果如下,可以看到页面均由a.txt格式的文本构成。针对2.3两种方法的错误处理方式如下:①第一种方法运行过程中,浏览器窗口无法刷新,浏览器会自动跳转到第二页;②第二种方法运行过程中,浏览器可以随时刷新,浏览器会默认列表页,用户不需要刷新;本文以第一种方法为例,采用scroll方法进行页面加载和显示。

  

  源码运行page(2,function(){if(function(){this.scrolltop=-1;}else{this.scrolltop=2;}//使用代码块注释//使用代码块注释包裹住注释,实现该注释跳转到range(2,true)})5在浏览器的地址栏中输入urllib2.urlopen("/pages/a/b/c/d/e/f/g/h"),浏览器即可根据域名接收对应的文件路径,产生html页面,效果如下。

  除page.txt文件支持手动添加外,其他文件均为urllib2.urlopen()自动导入。参考资料urllib2中的content参数有什么用?源码创建urllib2.urlopen()命令。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线