实用文章:Requests和Xpath笔趣阁小说采集爬取教程

优采云 发布时间: 2022-10-17 01:15

  实用文章:Requests和Xpath笔趣阁小说采集爬取教程

  1 爬行网站笔趣亭小说

  2 网站地址

  3 此脚本仅用于学习目的,不得用于非法目的。

  请求

  请求是用基于 urllib 的蟒蛇编写的,并使用 Apache 2 许可开源协议 HTTP 库

  如果你已经阅读了关于使用 urllib 库文章,你会发现实际上 urllib 仍然非常不方便,请求会比 urllib 更方便,这可以为我们节省很多工作。总之,请求是python实现的最简单,最简单的HTTP库,建议使用爬虫使用请求库。

  断续器

  XPath 代表 XML 路径语言,它是一种用于确定 XML 文档的一部分的位置的语言。

  XPath 基于 XML 树结构,提供了在数据结构树中查找节点的功能。XPath 最初是作为 XPointer 和 XSL 之间的通用语法模型提出的。但是XPath很快就被开发人员采用为一种小型查询语言。

  #正则+request+xpath

from lxml import etree

import requests

import re

import warnings

import time

warnings.filterwarnings("ignore")

headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}

<p>

def get_urls(URL):

Html=requests.get(URL,headers=headers,verify=False)

Html.encoding = &#39;gbk&#39;

HTML=etree.HTML(Html.text)

results=HTML.xpath(&#39;//dd/a/@href&#39;)

return results

def get_items(result):

url=&#39;https://www.biquyun.com&#39;+str(result)

html=requests.get(url,headers=headers,verify=False)

html.encoding = &#39;gbk&#39;

pattern=re.compile(&#39;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线