抓取网页生成电子书(- )

优采云发布时间: 2021-12-05 07:04

　　抓取网页生成电子书(-

)

　　我们的任务：抓取网页内容

　　1.用户指定的网址

　　2.获取文章的所有文本

　　urllib 的请求模块可以方便的抓取 URL 内容，即向指定页面发送 GET 请求，然后返回 HTTP 响应

　　Python 通过 re 模块提供对正则表达式的支持

　　from urllib import request

import re

　　用户输入指定的网址

　　#地址绑定(编程期间)

#user_url = "https://news.sina.com.cn/o/2018-12-25/doc-ihmutuee2352838.shtml"

#地址由用户指定(使用期间)

print("请输入您想查看的url")

user_url = input()

请输入您想查看的url

https://www.cnblogs.com/ms-uap/p/9928254.html

　　获取网页的html信息并进行转码

　　添加头部信息，反爬虫策略

　　我们需要url的标题和文章进行分析。

　　提取title标签的正则表达式我的匹配码

　　title = re.findall('(.*?[\u4e00-\u9fa5]*?.*?)', data_web)

for line in title:

print(line)

系列之1-神经网络的基本工作原理 - UniversalAIPlatform - 博客园

　　提取p标签的正则表达式我的匹配码

　　article = re.findall('(.*?[\u4e00-\u9fa5]*?.*?)', data_web)

for line in article:

print(line)</p>

0

2021-12-05

抓取网页生成电子书

0 个评论

要回复文章请先登录或注册