抓取网页新闻(我正在为不同的新闻媒体创建一个网络刮板,11 )
优采云 发布时间: 2022-04-05 07:08抓取网页新闻(我正在为不同的新闻媒体创建一个网络刮板,11
)
吉达穆萨 11
我正在为不同的新闻媒体创建一个网络抓取工具,对于 Nytimes 和 Guardian 来说,这很容易,因为它们有自己的 API。
现在,我想从这份报纸上得到结果。他们的 网站 不提供高级搜索,所以我使用谷歌新闻。但是,不推荐使用 google news Api。在搜索中检索到的结果数,例如关键字="Egypt" 和 begin_date="10/02/2011" 和 end_date="10/05/2011"。
这在 Google 新闻 UI 中起作用,只需将源设置为“海湾时间”以及相应的查询和日期,并简单地手动计算结果的数量,但是当我尝试使用 python 执行此操作时,我得到 403 错误,即可以理解。
我对如何做到这一点有任何想法吗?或者除了谷歌新闻之外还有其他服务可以让我这样做吗?请记住,我一次将发出近 500 个请求。
import json
import urllib2
import cookielib
import re
from bs4 import BeautifulSoup
def run():
Query = "Egypt"
Month = "3"
FromDay = "2"
ToDay = "4"
Year = "13"
url='https://www.google.com/search?pz=1&cf=all&ned=us&hl=en&tbm=nws&gl=us&as_q='+Query+'&as_occt=any&as_drrb=b&as_mindate='+Month+'%2F'+FromDay+'%2F'+Year+'&as_maxdate='+Month+'%2F'+ToDay+'%2F'+Year+'&tbs=cdr%3A1%2Ccd_min%3A3%2F1%2F13%2Ccd_max%3A3%2F2%2F13&as_nsrc=Gulf%20Times&authuser=0'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
request = urllib2.Request(url)
response = opener.open(request)
htmlFile = BeautifulSoup(response)
print htmlFile
run()