网页新闻抓取(这篇就是分享:php标签标签的标签处理库)

优采云 发布时间: 2022-01-06 03:01

  网页新闻抓取(这篇就是分享:php标签标签的标签处理库)

  在标签的标签下

  之后,我们将处理我们刚刚请求的html代码。这时候就需要用到BeautifulSoap库了。

  

soup = BeautifulSoup(wbdata,'lxml')

  这行的意思是解析得到的信息,也可以用html.parser库替换lxml库,效果是一样的

  

news_titles = soup.select("div.text > em.f14 > a.linkto")

  这一行是利用刚刚解析后得到的soup对象来选择我们需要的标签,返回值是一个列表。我们需要的所有标签内容都存储在列表中。您还可以使用 BeautifulSoup 中的 find() 方法或 findall() 方法来选择标签。

  最后使用for in遍历列表,取出标签中的内容(新闻标题)和标签中href的值(新闻网址),存入数据字典

  

for n in news_titles:

title = n.get_text()

link = n.get("href")

data = {

'标题':title,

'链接':link

}

  数据存储所有新闻标题和链接,下图为部分结果

  

  这样一个爬虫就完成了,当然这只是最简单的爬虫。如果深入爬虫,还有很多模拟浏览器行为、安全问题、效率优化、多线程等需要考虑。不得不说爬虫是个深坑。

  python中爬虫可以由各种库或框架来完成,请求只是比较常用的一种。还有很多其他语言的爬虫相关库。例如,PHP 可以使用 curl 库。爬虫的原理是一样的,只是不同语言、不同库实现的方法不同。

  以上通过请求实现腾讯新闻爬虫爬虫的Python方法,就是小编分享的全部内容。希望能给大家一个参考,也希望大家多多支持易素云。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线