js抓取网页内容(我的蜘蛛抓取5个页面中的所有链接(图) )

优采云发布时间: 2022-01-10 00:03

　　js抓取网页内容(我的蜘蛛抓取5个页面中的所有链接(图)

)

　　这是我正在处理的网站。每页的表格中有 18 个帖子。我想访问每个帖子并抓取其内容并在前 5 页重复此操作。

　　我的方法是让蜘蛛抓取 5 个页面中的所有链接并遍历它们以获取内容。由于“下一页”按钮和每篇文章中的一些文本都是用 JavaScript 编写的，所以我使用 Selenium 和 Scrapy。我运行了爬虫，我可以看到 Firefox Webdriver 显示了前 5 个页面，但随后爬虫停止了，没有任何内容被爬取。Scrapy 也不会返回任何错误消息。

　　现在，我怀疑失败可能是由于：

　　1）没有链接存储在 all_links 中。

　　2）不知何故 parse_content 没有运行。

　　我的诊断可能是错误的，我需要帮助找到问题。非常感谢！

　　这是我的蜘蛛：

<p>import scrapy

from bjdaxing.items_bjdaxing import BjdaxingItem

from selenium import webdriver

from scrapy.http import TextResponse

import time

all_links = [] # a global variable to store post links

class Bjdaxing(scrapy.Spider):

name = "daxing"

allowed_domains = ["bjdx.gov.cn"] # DO NOT use www in allowed domains

start_urls = ["http://app.bjdx.gov.cn/cms/daxing/lookliuyan_bjdx.jsp"] # This has to start with http

def __init__(self):

self.driver = webdriver.Firefox()

def parse(self, response):

self.driver.get(response.url) # request the start url in the browser

i = 1

while i

0

2022-01-10

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(我的蜘蛛抓取5个页面中的所有链接(图) )

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(我的蜘蛛抓取5个页面中的所有链接(图) )

0 个评论

发起人

相关问题