网页新闻抓取(soup()访问链接()识别方法 )

优采云 发布时间: 2022-01-08 22:14

  网页新闻抓取(soup()访问链接()识别方法

)

  这里的案例是抓取TOP250豆瓣电影的案例,主要使用BeautifulSoup进行快速内容搜索,然后使用正则表达式精准识别目标内容。

  

  1.访问链接获取网页信息

  for i in range(0,10): #调用函数获取页面信息,10次

  url=baseurl+str(i*25)

  html=askURL(url)#保存获取的网页源代码

  因为豆瓣电影TOP250的信息存储在25个页面中,每个页面收录50个电影信息,所以使用了一个for循环来访问不同的页面。然后处理每次访问返回的结果。

  2.使用 BeautifulSoup 快速搜索 HTML 和 XML 文件

  汤=BeautifulSoup(html,"html.parser")

  for item in soup.find_all('div',class_="item"): #查找div下class="item"的内容。

  这里的class后面加下划线_,因为class就是class。

  

  在网页中,可以看到你需要的内容在哪里,这里是div

  3. 通过正则匹配得到你想要的确切内容

  findLink=pile(r'') #创建正则表达式对象,表示规则

  项目=str(项目)

  链接=re.findall(findLink,item)[0]

  正则匹配使用piler,那为什么检索到的内容是r''呢?

  第一个 r 表示忽略特殊字符。然后在网页信息中观察,可以发现要爬取的链接在前面,所以代码是compiler(r'?)">'),括号中的.*?就是识别出来的链接。

  同理,电影名称、收视率、图片、被评价人数、演员、导演等信息也可以被抓取。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线