php抓取网页动态数据(我的脚本无法返回除之外的任何内容[01])

优采云 发布时间: 2021-10-27 10:11

  php抓取网页动态数据(我的脚本无法返回除之外的任何内容[01])

  我正在尝试获取 .htm 链接,但我的脚本无法返回除“[]”之外的任何内容。

  链接=

  import requests

from bs4 import BeautifulSoup as bs

link = 'https://www.forwardhealth.wi.gov/WIPortal/StaticContent/Member/caseloads/481-caseload.htm'

headers = {'User-Agent':'Mozilla/5.0'}

r = requests.get(link, headers=headers)

soup = bs(r.text, 'lxml') #I've tried other html parsers in here as well as r.content

  我认为问题在于我试图与页面交互(可能是错误的编码?)。上面的格式是我过去所有的网络爬虫都是这样设置的,没有遇到什么我解决不了的问题。最突出的是当我调用 r.content 或 r.text 并收到一个看起来很奇怪的响应时:

  '\r\n\r\n\r\n'

  这让我觉得我的脚本写错了,无法处理上述任何一项。我以前从未见过“Microsoft FrontPage 5.0”,我不知道这是不是我的代码崩溃的原因。我试图通过在此处更改 r.encoding = #encoding 来强制编码。任何指导都会有所帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线