js抓取网页内容(我的蜘蛛抓取5个页面中的所有链接(图) )

优采云 发布时间: 2022-01-10 00:03

  js抓取网页内容(我的蜘蛛抓取5个页面中的所有链接(图)

)

  这是我正在处理的 网站。每页的表格中有 18 个帖子。我想访问每个帖子并抓取其内容并在前 5 页重复此操作。

  我的方法是让蜘蛛抓取 5 个页面中的所有链接并遍历它们以获取内容。由于“下一页”按钮和每篇文章中的一些文本都是用 JavaScript 编写的,所以我使用 Selenium 和 Scrapy。我运行了爬虫,我可以看到 Firefox Webdriver 显示了前 5 个页面,但随后爬虫停止了,没有任何内容被爬取。Scrapy 也不会返回任何错误消息。

  现在,我怀疑失败可能是由于:

  1)没有链接存储在 all_links 中。

  2)不知何故 parse_content 没有运行。

  我的诊断可能是错误的,我需要帮助找到问题。非常感谢!

  这是我的蜘蛛:

<p>import scrapy

from bjdaxing.items_bjdaxing import BjdaxingItem

from selenium import webdriver

from scrapy.http import TextResponse

import time

all_links = [] # a global variable to store post links

class Bjdaxing(scrapy.Spider):

name = "daxing"

allowed_domains = ["bjdx.gov.cn"] # DO NOT use www in allowed domains

start_urls = ["http://app.bjdx.gov.cn/cms/daxing/lookliuyan_bjdx.jsp"] # This has to start with http

def __init__(self):

self.driver = webdriver.Firefox()

def parse(self, response):

self.driver.get(response.url) # request the start url in the browser

i = 1

while i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线