js抓取网页内容(我的蜘蛛抓取5个页面中的所有链接(图) )
优采云 发布时间: 2022-01-10 00:03js抓取网页内容(我的蜘蛛抓取5个页面中的所有链接(图)
)
这是我正在处理的 网站。每页的表格中有 18 个帖子。我想访问每个帖子并抓取其内容并在前 5 页重复此操作。
我的方法是让蜘蛛抓取 5 个页面中的所有链接并遍历它们以获取内容。由于“下一页”按钮和每篇文章中的一些文本都是用 JavaScript 编写的,所以我使用 Selenium 和 Scrapy。我运行了爬虫,我可以看到 Firefox Webdriver 显示了前 5 个页面,但随后爬虫停止了,没有任何内容被爬取。Scrapy 也不会返回任何错误消息。
现在,我怀疑失败可能是由于:
1)没有链接存储在 all_links 中。
2)不知何故 parse_content 没有运行。
我的诊断可能是错误的,我需要帮助找到问题。非常感谢!
这是我的蜘蛛:
<p>import scrapy
from bjdaxing.items_bjdaxing import BjdaxingItem
from selenium import webdriver
from scrapy.http import TextResponse
import time
all_links = [] # a global variable to store post links
class Bjdaxing(scrapy.Spider):
name = "daxing"
allowed_domains = ["bjdx.gov.cn"] # DO NOT use www in allowed domains
start_urls = ["http://app.bjdx.gov.cn/cms/daxing/lookliuyan_bjdx.jsp"] # This has to start with http
def __init__(self):
self.driver = webdriver.Firefox()
def parse(self, response):
self.driver.get(response.url) # request the start url in the browser
i = 1
while i