vb抓取网页内容(如果你想提取网页上的文章内容,readability这个免费好用的工具绝对 )

优采云 发布时间: 2022-02-23 05:06

  vb抓取网页内容(如果你想提取网页上的文章内容,readability这个免费好用的工具绝对

)

  如果你想从网页中提取 文章 内容,可读性是一个免费且易于使用的工具,绝对值得一试

  官方网站:

  提取内容的api文档:

  注册,你可以在个人页面找到自己的token

  API - 带有令牌和 url 参数的 GET 请求

  响应示例---json格式返回数据

  

  回复

  看中文

  

  一个随机的网易博客

  内容部分是提取的网页内容,写入html文件,可以直接打开显示网页内容

  如果您只想提取和保存内容,请转到此处。

  如果需要获取网页的内容并做一些处理,可能需要将开头的内容转换成中文。一开始的编码是什么?,您可能需要执行以下操作

  # 去掉content中的html标记

def remove_html_tag(content):

return re.sub(r']*>', '', content)

  # 转换成中文

def convert_to_cn(text):

# 需要将 × 这种先做补全,×

text = re.sub(r'&#x([A-F0-9]{2});', r'&#x00\1;', text)

return text.replace('&#x', '\u') \

.replace(';', '') \

.decode('unicode-escape') \

.encode('utf-8')

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线