抓取网页生成电子书( 《修真小主播》使用Scrapy抓取电子书爬虫思路怎么抓取数据 )

优采云 发布时间: 2021-10-04 17:20

  抓取网页生成电子书(

《修真小主播》使用Scrapy抓取电子书爬虫思路怎么抓取数据

)

  

  使用 Scrapy 抓取电子书

  爬虫的想法

  如何抓取数据,首先我们要看看从哪里获取,打开“修真小主播”页面,如下:

  

  有一个目录选项卡。单击此选项卡可查看目录。使用浏览器的元素查看工具,我们可以定位到各章节的目录和相关信息。根据这些信息,我们可以抓取到特定页面:

  

  获取章节地址

  现在我们打开xzxzb.py文件,就是我们刚刚创建的爬虫:

  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = 'xzxzb' allowed_domains = ['qidian.com'] start_urls = ['http://qidian.com/'] def parse(self, response): pass

  start_urls 是目录地址,爬虫会自动爬取这个地址,然后在后面的解析中处理结果。现在我们来编写代码处理目录数据,首先爬取小说首页获取目录列表:

  def parse(self, response): pages = response.xpath('//div[@id="j-catalogWrap"]//ul[@]/li') for page in pages: url = page.xpath('./child::a/attribute::href').extract() print url pass

  获取网页中的 DOM 数据有两种方式,一种是使用 CSS 选择器,另一种是使用 XML xPath 查询。

  这里我们使用 xPath。请自行研究相关知识。看上面的代码。首先我们通过ID获取目录框,获取类cf来获取目录列表:

  pages = response.xpath('//div[@id="j-catalogWrap"]//ul[@]/li')

  接下来遍历子节点,查询li标签中a子节点的href属性,最后打印出来:

  for page in pages:<br /> url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()<br /> print url

  这样,可以说是爬取章节路径的小爬虫写好了。使用以下命令运行xzxzb爬虫查看结果:

  scrapy crawl xzxzb

  这时候,我们的程序可能会出现以下错误:

  …<br />ImportError: No module named win32api<br />…

  只需运行以下语句:

  pip install pypiwin32

  屏幕输出如下:

  > ...> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]> ...

  爬取章节路径的小爬虫是写出来的,但是我们的目的不止这些,我们会用这些地址来爬取内容:

  章节页面分析

  接下来我们分析章节页面。从章节页面我们需要获取标题和内容。

  如果解析器方法用于章节信息爬取,那么我们可以写一个爬取每个章节内容的方法,比如:parser_chapter,先看章节页面的具体情况:

  

  可以看到,章节的全部内容在类名main-text-wrap的div标签中,标题是类名j_chapterName的h3标签,具体内容是类名的div标签读取内容 j_readContent。

  尝试打印出这些内容:

  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = &#39;xzxzb&#39; allowed_domains = [&#39;qidian.com&#39;] start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;] def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) yield response.follow(url, callback=self.parse_chapter) pass def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() print title # print content pass

  上一步我们得到了一个章节地址,它是输出内容的相对路径,所以我们使用yield response.follow(url, callback=self.parse_chapter),第二个参数是处理章节的回调函数页面,爬到章节页面后,我们解析页面并将标题保存到文件中。

  next_page = response.urljoin(url)<br />yield scrapy.Request(next_page, callback=self.parse_chapter)

  与使用 response.follow 不同,scrapy.Request 需要通过相对路径构造绝对路径。Response.follow 可以直接使用相对路径,所以不需要调用 urljoin 方法。

  注意 response.follow 直接返回一个Request实例,可以通过yield直接返回。

  获取数据后,进行存储。由于我们想要的是一个html页面,我们可以通过标题来存储它。代码如下:

   def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s.html&#39; % (title) with open(filename, &#39;wb&#39;) as f: f.write(content.encode(&#39;utf-8&#39;)) pass

  至此,我们已经成功抓取了我们的数据,但是还不能直接使用,需要进行排序和优化。

  数据整理

  首先,我们爬下来的章节页面的排序不是很好。如果人工分拣花费太多时间和精力;另外,章节内容收录很多额外的东西,阅读体验不好,需要优化内容布局和可读性。

  我们先对章节进行排序,因为目录中的章节列表是按顺序排列的,所以我们只需要在下载页面名称中加上一个序号即可。

  但是保存网页的代码是回调函数,只有在处理目录时才能确定顺序。回调函数如何知道订单?因此,我们需要告诉回调函数处理章节的序号,并且需要向回调函数传递参数。修改后的代码如下所示:

  def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) req = response.follow(url, callback=self.parse_chapter) req.meta[&#39;idx&#39;] = idx yield req pass def parse_chapter(self, response): idx = response.meta[&#39;idx&#39;] title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s_%s.html&#39; % (idx, title) cnt = &#39;

  %s %s'% (title, content) with open(filename,'wb') as f: f.write(cnt.encode('utf-8')) pass

  使用 Sigil 制作电子书

  加载 html 文件

  要制作ePub电子书,我们首先通过Sigil将我们抓取到的文件加载到程序中,在添加文件对话框中,我们选择所有文件:

  

  制作目录

  当文件中存在HTML的h标签时,点击Generate Catalog按钮自动生成目录。我们已经在之前的数据捕获中自动添加了 h1 标签:

  

  做封面

  

  封面本质上是HTML,可以从页面中编辑或抓取,所以就交给你自己实现吧。

  

  *免责声明:本文整理于网络,版权归原作者所有。如来源信息有误或侵权,请联系我们进行删除或授权。

  

  我觉得不错,点击“我在看”转发

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线