vb抓取网页内容(如果你想提取网页上的文章内容,readability这个免费好用的工具绝对 )
优采云 发布时间: 2022-02-23 05:06vb抓取网页内容(如果你想提取网页上的文章内容,readability这个免费好用的工具绝对
)
如果你想从网页中提取 文章 内容,可读性是一个免费且易于使用的工具,绝对值得一试
官方网站:
提取内容的api文档:
注册,你可以在个人页面找到自己的token
API - 带有令牌和 url 参数的 GET 请求
响应示例---json格式返回数据
回复
看中文
一个随机的网易博客
内容部分是提取的网页内容,写入html文件,可以直接打开显示网页内容
如果您只想提取和保存内容,请转到此处。
如果需要获取网页的内容并做一些处理,可能需要将开头的内容转换成中文。一开始的编码是什么?,您可能需要执行以下操作
# 去掉content中的html标记
def remove_html_tag(content):
return re.sub(r']*>', '', content)
# 转换成中文
def convert_to_cn(text):
# 需要将 × 这种先做补全,×
text = re.sub(r'&#x([A-F0-9]{2});', r'�\1;', text)
return text.replace('&#x', '\u') \
.replace(';', '') \
.decode('unicode-escape') \
.encode('utf-8')