抓取网页生成电子书(- )
优采云 发布时间: 2021-12-05 07:04抓取网页生成电子书(-
)
我们的任务:抓取网页内容
1.用户指定的网址
2.获取文章的所有文本
urllib 的请求模块可以方便的抓取 URL 内容,即向指定页面发送 GET 请求,然后返回 HTTP 响应
Python 通过 re 模块提供对正则表达式的支持
from urllib import request
import re
用户输入指定的网址
#地址 绑定(编程期间)
#user_url = "https://news.sina.com.cn/o/2018-12-25/doc-ihmutuee2352838.shtml"
#地址 由用户指定(使用期间)
print("请输入您想查看的url")
user_url = input()
请输入您想查看的url
https://www.cnblogs.com/ms-uap/p/9928254.html
获取网页的html信息并进行转码
添加头部信息,反爬虫策略
我们需要url的标题和文章进行分析。
提取title标签的正则表达式我的匹配码
title = re.findall('(.*?[\u4e00-\u9fa5]*?.*?)', data_web)
for line in title:
print(line)
系列之1-神经网络的基本工作原理 - UniversalAIPlatform - 博客园
提取p标签的正则表达式我的匹配码
article = re.findall('(.*?[\u4e00-\u9fa5]*?.*?)', data_web)
for line in article:
print(line)</p>