php抓取网页动态数据(我的脚本无法返回除之外的任何内容[01])

优采云发布时间: 2021-10-27 10:11

　　我正在尝试获取 .htm 链接，但我的脚本无法返回除“[]”之外的任何内容。

　　链接=

　　import requests

from bs4 import BeautifulSoup as bs

link = 'https://www.forwardhealth.wi.gov/WIPortal/StaticContent/Member/caseloads/481-caseload.htm'

headers = {'User-Agent':'Mozilla/5.0'}

r = requests.get(link, headers=headers)

soup = bs(r.text, 'lxml') #I've tried other html parsers in here as well as r.content

　　我认为问题在于我试图与页面交互（可能是错误的编码？）。上面的格式是我过去所有的网络爬虫都是这样设置的，没有遇到什么我解决不了的问题。最突出的是当我调用 r.content 或 r.text 并收到一个看起来很奇怪的响应时：

　　'\r\n\r\n\r\n'

　　这让我觉得我的脚本写错了，无法处理上述任何一项。我以前从未见过“Microsoft FrontPage 5.0”，我不知道这是不是我的代码崩溃的原因。我试图通过在此处更改 r.encoding = #encoding 来强制编码。任何指导都会有所帮助。

0

2021-10-27

php抓取网页动态数据

0 个评论

要回复文章请先登录或注册