网页新闻抓取(如何通过Python爬虫按关键词抓取相关的新闻(图) )

优采云发布时间: 2022-04-17 18:00

　　网页新闻抓取(如何通过Python爬虫按关键词抓取相关的新闻(图)

)

　　输入网站

　　现在各大网站的反爬机制可以说是疯了，比如大众点评的字符加密、微博的登录验证等等。相比之下，新闻网站的反爬机制@> 稍微弱一些。那么今天就以新浪新闻为例，分析一下如何通过Python爬虫按关键词抓取相关新闻。首先，如果你直接从新闻中搜索，你会发现它的内容最多显示20页，所以我们必须从新浪首页搜索，这样就没有页数限制。

　　网页结构分析

1span>b>2a>3a>4a>5a>6a>7a>8a>9a>10a>下一页a>div>

　　进入新浪网，进行关键词搜索后，发现无论怎么翻页，URL都不会改变，但页面内容却更新了。我的经验告诉我这是通过ajax完成的，所以我把新浪的页面代码拿下来看了看。看。显然，每次翻页都是通过点击a标签向一个地址发送请求，如果你把这个地址直接放到浏览器的地址栏，然后回车：

　　那么恭喜，收到错误，仔细查看html的onclick，发现调用了一个叫getNewsData的函数，于是在相关的js文件中查找这个函数，可以看到它是在每次ajax请求之前构造的请求的url使用，使用get请求，返回数据格式为jsonp（跨域）。所以我们只需要模仿它的请求格式来获取数据。

　　发送请求

import requests headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0", } params = {"t":"","q":"旅游","pf":"0","ps":"0","page":"1","stime":"2019-03-30","etime":"2020-03-31","sort":"rel","highlight":"1","num":"10","ie":"utf-8" } response = requests.get("https://interface.sina.cn/homepage/search.d.json?", params=params, headers=headers) print(response)

　　这次使用requests库，构造相同的url，发送请求。收到的结果是一个冷的 403Forbidden：

　　所以回到网站看看出了什么问题

　　从开发工具中找到返回的json文件，查看请求头，发现它的请求头有一个cookie，所以在构造头的时候，我们直接复制它的请求头即可。再次运行，response200！剩下的很简单，只需解析返回的数据，写入Excel即可。

　　完整代码

import requestsimport jsonimport xlwtdef getData(page, news): headers = {"Host": "interface.sina.cn","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0","Accept": "*/*","Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2","Accept-Encoding": "gzip, deflate, br","Connection": "keep-alive","Referer": r"http://www.sina.com.cn/mid/search.shtml?range=all&c=news&q=%E6%97%85%E6%B8%B8&from=home&ie=utf-8","Cookie": "ustat=__172.16.93.31_1580710312_0.68442000; genTime=1580710312; vt=99; Apache=9855012519393.69.1585552043971; SINAGLOBAL=9855012519393.69.1585552043971; ULV=1585552043972:1:1:1:9855012519393.69.1585552043971:; historyRecord={'href':'https://news.sina.cn/','refer':'https://sina.cn/'}; SMART=0; dfz_loc=gd-default","TE": "Trailers" } params = {"t":"","q":"旅游","pf":"0","ps":"0","page":page,"stime":"2019-03-30","etime":"2020-03-31","sort":"rel","highlight":"1","num":"10","ie":"utf-8" } response = requests.get("https://interface.sina.cn/homepage/search.d.json?", params=params, headers=headers) dic = json.loads(response.text) news += dic["result"]["list"]return newsdef writeData(news): workbook = xlwt.Workbook(encoding = 'utf-8') worksheet = workbook.add_sheet('MySheet') worksheet.write(0, 0, "标题") worksheet.write(0, 1, "时间") worksheet.write(0, 2, "媒体") worksheet.write(0, 3, "网址")for i in range(len(news)): print(news[i]) worksheet.write(i+1, 0, news[i]["origin_title"]) worksheet.write(i+1, 1, news[i]["datetime"]) worksheet.write(i+1, 2, news[i]["media"]) worksheet.write(i+1, 3, news[i]["url"]) workbook.save('data.xls')def main(): news = []for i in range(1,501): news = getData(i, news) writeData(news)if __name__ == '__main__': main()

　　最后结果

0

2022-04-17

网页新闻抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻抓取(如何通过Python爬虫按关键词抓取相关的新闻(图) )

0 个评论

发起人

AI时代内容工厂

网页新闻抓取(如何通过Python爬虫按关键词抓取相关的新闻(图) )

0 个评论

发起人

相关问题