网页新闻抓取(soup()访问链接()识别方法 )
优采云 发布时间: 2022-01-08 22:14网页新闻抓取(soup()访问链接()识别方法
)
这里的案例是抓取TOP250豆瓣电影的案例,主要使用BeautifulSoup进行快速内容搜索,然后使用正则表达式精准识别目标内容。
1.访问链接获取网页信息
for i in range(0,10): #调用函数获取页面信息,10次
url=baseurl+str(i*25)
html=askURL(url)#保存获取的网页源代码
因为豆瓣电影TOP250的信息存储在25个页面中,每个页面收录50个电影信息,所以使用了一个for循环来访问不同的页面。然后处理每次访问返回的结果。
2.使用 BeautifulSoup 快速搜索 HTML 和 XML 文件
汤=BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"): #查找div下class="item"的内容。
这里的class后面加下划线_,因为class就是class。
在网页中,可以看到你需要的内容在哪里,这里是div
3. 通过正则匹配得到你想要的确切内容
findLink=pile(r'') #创建正则表达式对象,表示规则
项目=str(项目)
链接=re.findall(findLink,item)[0]
正则匹配使用piler,那为什么检索到的内容是r''呢?
第一个 r 表示忽略特殊字符。然后在网页信息中观察,可以发现要爬取的链接在前面,所以代码是compiler(r'?)">'),括号中的.*?就是识别出来的链接。
同理,电影名称、收视率、图片、被评价人数、演员、导演等信息也可以被抓取。