实用文章:Requests和Xpath笔趣阁小说采集爬取教程

优采云发布时间: 2022-10-17 01:15

　　1 爬行网站笔趣亭小说

　　2 网站地址

　　3 此脚本仅用于学习目的，不得用于非法目的。

　　请求

　　请求是用基于 urllib 的蟒蛇编写的，并使用 Apache 2 许可开源协议 HTTP 库

　　如果你已经阅读了关于使用 urllib 库文章，你会发现实际上 urllib 仍然非常不方便，请求会比 urllib 更方便，这可以为我们节省很多工作。总之，请求是python实现的最简单，最简单的HTTP库，建议使用爬虫使用请求库。

　　断续器

　　XPath 代表 XML 路径语言，它是一种用于确定 XML 文档的一部分的位置的语言。

　　XPath 基于 XML 树结构，提供了在数据结构树中查找节点的功能。XPath 最初是作为 XPointer 和 XSL 之间的通用语法模型提出的。但是XPath很快就被开发人员采用为一种小型查询语言。

　　#正则+request+xpath

from lxml import etree

import requests

import re

import warnings

import time

warnings.filterwarnings("ignore")

headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}

<p>

def get_urls(URL):

Html=requests.get(URL,headers=headers,verify=False)

Html.encoding = 'gbk'

HTML=etree.HTML(Html.text)

results=HTML.xpath('//dd/a/@href')

return results

def get_items(result):

url='https://www.biquyun.com'+str(result)

html=requests.get(url,headers=headers,verify=False)

html.encoding = 'gbk'

pattern=re.compile('

0

2022-10-17

文章采集器

0 个评论

要回复文章请先登录或注册