文章网址采集器(爬虫技术使用不当非法途径)

优采云发布时间: 2021-12-05 19:08

　　免责声明：本文仅供学习使用，禁止非法使用。爬虫技术使用不当造成的一切不良后果与我无关

　　需要使用的库和模块要获取的信息

　　网站

　　首先我们要确定我们想要得到什么数据

　　主要步骤

　　(一)构建请求头

　　headers = {

'User-Agent': '****************',#可填入自己的

}

base_url = 'http://www.aixiawx.com/27/27010/'

　　(二)解析URL参数的规则

　　刚打开小说的一章，可以看到url参数在增加，对吗？

　　但是一开始我观察到这里的URL有递增规律，所以没多看几眼，然后用遍历，出现了Error。

　　最后我测试了一下，发现有些章节不符合规律，所以不能用这个方法来遍历URL。

　　我能做什么？

　　在目录页面上有所有章节的 url 链接

　　可以抓取章节页面的url，形成一个列表，然后遍历列表，获取每个章节的链接

　　目录页面分析

　　从章节数来看，label是最合适的选择label，所以我们使用label来获取章节链接的top index

　　代码显示如下：

<p>def analysis_catalogue(catalogue_html: "目录HTML文档"):

'''

解析目录HTMl文档

获取小说章节链接

对章节链接排序

'''

html = etree.HTML(catalogue_html)

contentds = html.xpath('//dd[position()>9]/a/@href')

for contentd in contentds:

yield contentd

contentus = html.xpath('//dd[position()9]/a/@href')

for contentd in contentds:

yield contentd

contentus = html.xpath('//dd[position()

0

2021-12-05

文章网址采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章网址采集器(爬虫技术使用不当非法途径)

0 个评论

发起人

AI时代内容工厂

文章网址采集器(爬虫技术使用不当非法途径)

0 个评论

发起人

相关问题