实用文章:Requests和Xpath笔趣阁小说采集爬取教程
优采云 发布时间: 2022-10-17 01:15实用文章:Requests和Xpath笔趣阁小说采集爬取教程
1 爬行网站笔趣亭小说
2 网站地址
3 此脚本仅用于学习目的,不得用于非法目的。
请求
请求是用基于 urllib 的蟒蛇编写的,并使用 Apache 2 许可开源协议 HTTP 库
如果你已经阅读了关于使用 urllib 库文章,你会发现实际上 urllib 仍然非常不方便,请求会比 urllib 更方便,这可以为我们节省很多工作。总之,请求是python实现的最简单,最简单的HTTP库,建议使用爬虫使用请求库。
断续器
XPath 代表 XML 路径语言,它是一种用于确定 XML 文档的一部分的位置的语言。
XPath 基于 XML 树结构,提供了在数据结构树中查找节点的功能。XPath 最初是作为 XPointer 和 XSL 之间的通用语法模型提出的。但是XPath很快就被开发人员采用为一种小型查询语言。
#正则+request+xpath
from lxml import etree
import requests
import re
import warnings
import time
warnings.filterwarnings("ignore")
headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}
<p>
def get_urls(URL):
Html=requests.get(URL,headers=headers,verify=False)
Html.encoding = 'gbk'
HTML=etree.HTML(Html.text)
results=HTML.xpath('//dd/a/@href')
return results
def get_items(result):
url='https://www.biquyun.com'+str(result)
html=requests.get(url,headers=headers,verify=False)
html.encoding = 'gbk'
pattern=re.compile('