java抓取网页内容(Python网页内容需求的人可以来学习下的抓取网页内容方法)

优采云 发布时间: 2021-10-14 12:06

  java抓取网页内容(Python网页内容需求的人可以来学习下的抓取网页内容方法)

  Python中如何抓取网页内容,很多新手对此不是很清楚。为了帮助您解决这个问题,下面小编将为您详细讲解。有这方面需求的可以过来学习。我希望你能有所收获。

  Python抓取网页内容方法一、使用urllib2/sgmllib包列出目标网页的所有网址。

  import urllib2  from sgmllib import SGMLParser   class URLLister(SGMLParser):  def reset(self):   SGMLParser.reset(self)  self.urls = []  def start_a(self, attrs):   href = [v for k, v in attrs if k=='href']   if href:  self.urls.extend(href)  f = urllib2.urlopen("http://www.donews.com/")  if f.code == 200:  parser = URLLister()  parser.feed(f.read())  f.close()  for url in parser.urls: print url

  Python抓取网页内容方法二、 使用python调用IE抓取目标网页所有图片的url和大小(需要win32com,pythoncom)

  这个方法可以利用IE的Javascript的支持。DHTML 自动提交表单并处理 Javascript。

  看完以上内容对你有帮助吗?如果您想了解更多相关知识或阅读更多相关文章,请关注易速云行业资讯频道,感谢您对易速云的支持。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线