抓取网页新闻(我正在为不同的新闻媒体创建一个网络刮板,11 )

优采云发布时间: 2022-04-05 07:08

　　抓取网页新闻(我正在为不同的新闻媒体创建一个网络刮板,11

)

　　吉达穆萨 11

　　我正在为不同的新闻媒体创建一个网络抓取工具，对于 Nytimes 和 Guardian 来说，这很容易，因为它们有自己的 API。

　　现在，我想从这份报纸上得到结果。他们的网站不提供高级搜索，所以我使用谷歌新闻。但是，不推荐使用 google news Api。在搜索中检索到的结果数，例如关键字="Egypt" 和 begin_date="10/02/2011" 和 end_date="10/05/2011"。

　　这在 Google 新闻 UI 中起作用，只需将源设置为“海湾时间”以及相应的查询和日期，并简单地手动计算结果的数量，但是当我尝试使用 python 执行此操作时，我得到 403 错误，即可以理解。

　　我对如何做到这一点有任何想法吗？或者除了谷歌新闻之外还有其他服务可以让我这样做吗？请记住，我一次将发出近 500 个请求。

　　import json

import urllib2

import cookielib

import re

from bs4 import BeautifulSoup

def run():

Query = "Egypt"

Month = "3"

FromDay = "2"

ToDay = "4"

Year = "13"

url='https://www.google.com/search?pz=1&cf=all&ned=us&hl=en&tbm=nws&gl=us&as_q='+Query+'&as_occt=any&as_drrb=b&as_mindate='+Month+'%2F'+FromDay+'%2F'+Year+'&as_maxdate='+Month+'%2F'+ToDay+'%2F'+Year+'&tbs=cdr%3A1%2Ccd_min%3A3%2F1%2F13%2Ccd_max%3A3%2F2%2F13&as_nsrc=Gulf%20Times&authuser=0'

cj = cookielib.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

request = urllib2.Request(url)

response = opener.open(request)

htmlFile = BeautifulSoup(response)

print htmlFile

run()

0

2022-04-05

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(我正在为不同的新闻媒体创建一个网络刮板,11 )

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(我正在为不同的新闻媒体创建一个网络刮板,11 )

0 个评论

发起人

相关问题