php抓取网页动态数据(我的脚本无法返回除之外的任何内容[01])
优采云 发布时间: 2021-10-27 10:11php抓取网页动态数据(我的脚本无法返回除之外的任何内容[01])
我正在尝试获取 .htm 链接,但我的脚本无法返回除“[]”之外的任何内容。
链接=
import requests
from bs4 import BeautifulSoup as bs
link = 'https://www.forwardhealth.wi.gov/WIPortal/StaticContent/Member/caseloads/481-caseload.htm'
headers = {'User-Agent':'Mozilla/5.0'}
r = requests.get(link, headers=headers)
soup = bs(r.text, 'lxml') #I've tried other html parsers in here as well as r.content
我认为问题在于我试图与页面交互(可能是错误的编码?)。上面的格式是我过去所有的网络爬虫都是这样设置的,没有遇到什么我解决不了的问题。最突出的是当我调用 r.content 或 r.text 并收到一个看起来很奇怪的响应时:
'\r\n\r\n\r\n'
这让我觉得我的脚本写错了,无法处理上述任何一项。我以前从未见过“Microsoft FrontPage 5.0”,我不知道这是不是我的代码崩溃的原因。我试图通过在此处更改 r.encoding = #encoding 来强制编码。任何指导都会有所帮助。