网页新闻抓取(soup（）访问链接()识别方法 )

优采云发布时间: 2022-01-08 22:14

　　网页新闻抓取(soup（）访问链接()识别方法

)

　　这里的案例是抓取TOP250豆瓣电影的案例，主要使用BeautifulSoup进行快速内容搜索，然后使用正则表达式精准识别目标内容。

　　1.访问链接获取网页信息

　　for i in range(0,10): #调用函数获取页面信息，10次

　　url=baseurl+str(i*25)

　　html=askURL(url)#保存获取的网页源代码

　　因为豆瓣电影TOP250的信息存储在25个页面中，每个页面收录50个电影信息，所以使用了一个for循环来访问不同的页面。然后处理每次访问返回的结果。

　　2.使用 BeautifulSoup 快速搜索 HTML 和 XML 文件

　　汤=BeautifulSoup(html,"html.parser")

　　for item in soup.find_all('div',class_="item"): #查找div下class="item"的内容。

　　这里的class后面加下划线_，因为class就是class。

　　在网页中，可以看到你需要的内容在哪里，这里是div

　　3. 通过正则匹配得到你想要的确切内容

　　findLink=pile(r'') #创建正则表达式对象，表示规则

　　项目=str（项目）

　　链接=re.findall(findLink,item)[0]

　　正则匹配使用piler，那为什么检索到的内容是r''呢？

　　第一个 r 表示忽略特殊字符。然后在网页信息中观察，可以发现要爬取的链接在前面，所以代码是compiler(r'?)">')，括号中的.*?就是识别出来的链接。

　　同理，电影名称、收视率、图片、被评价人数、演员、导演等信息也可以被抓取。

0

2022-01-08

网页新闻抓取

0 个评论

要回复文章请先登录或注册