抓取网页新闻(我正在为不同的新闻媒体创建一个网络刮板,11 )

优采云 发布时间: 2022-04-05 07:08

  抓取网页新闻(我正在为不同的新闻媒体创建一个网络刮板,11

)

  吉达穆萨 11

  我正在为不同的新闻媒体创建一个网络抓取工具,对于 Nytimes 和 Guardian 来说,这很容易,因为它们有自己的 API。

  现在,我想从这份报纸上得到结果。他们的 网站 不提供高级搜索,所以我使用谷歌新闻。但是,不推荐使用 google news Api。在搜索中检索到的结果数,例如关键字="Egypt" 和 begin_date="10/02/2011" 和 end_date="10/05/2011"。

  这在 Google 新闻 UI 中起作用,只需将源设置为“海湾时间”以及相应的查询和日期,并简单地手动计算结果的数量,但是当我尝试使用 python 执行此操作时,我得到 403 错误,即可以理解。

  我对如何做到这一点有任何想法吗?或者除了谷歌新闻之外还有其他服务可以让我这样做吗?请记住,我一次将发出近 500 个请求。

  import json

import urllib2

import cookielib

import re

from bs4 import BeautifulSoup

def run():

Query = "Egypt"

Month = "3"

FromDay = "2"

ToDay = "4"

Year = "13"

url='https://www.google.com/search?pz=1&cf=all&ned=us&hl=en&tbm=nws&gl=us&as_q='+Query+'&as_occt=any&as_drrb=b&as_mindate='+Month+'%2F'+FromDay+'%2F'+Year+'&as_maxdate='+Month+'%2F'+ToDay+'%2F'+Year+'&tbs=cdr%3A1%2Ccd_min%3A3%2F1%2F13%2Ccd_max%3A3%2F2%2F13&as_nsrc=Gulf%20Times&authuser=0'

cj = cookielib.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

request = urllib2.Request(url)

response = opener.open(request)

htmlFile = BeautifulSoup(response)

print htmlFile

run()

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线