java抓取网页内容(Python网页内容需求的人可以来学习下的抓取网页内容方法)
优采云 发布时间: 2021-10-14 12:06java抓取网页内容(Python网页内容需求的人可以来学习下的抓取网页内容方法)
Python中如何抓取网页内容,很多新手对此不是很清楚。为了帮助您解决这个问题,下面小编将为您详细讲解。有这方面需求的可以过来学习。我希望你能有所收获。
Python抓取网页内容方法一、使用urllib2/sgmllib包列出目标网页的所有网址。
import urllib2 from sgmllib import SGMLParser class URLLister(SGMLParser): def reset(self): SGMLParser.reset(self) self.urls = [] def start_a(self, attrs): href = [v for k, v in attrs if k=='href'] if href: self.urls.extend(href) f = urllib2.urlopen("http://www.donews.com/") if f.code == 200: parser = URLLister() parser.feed(f.read()) f.close() for url in parser.urls: print url
Python抓取网页内容方法二、 使用python调用IE抓取目标网页所有图片的url和大小(需要win32com,pythoncom)
这个方法可以利用IE的Javascript的支持。DHTML 自动提交表单并处理 Javascript。
看完以上内容对你有帮助吗?如果您想了解更多相关知识或阅读更多相关文章,请关注易速云行业资讯频道,感谢您对易速云的支持。