excel抓取网页数据(excel抓取网页数据就是网页的html数据流编码问题)

优采云 发布时间: 2022-02-12 08:07

  excel抓取网页数据(excel抓取网页数据就是网页的html数据流编码问题)

  excel抓取网页数据就是网页的html数据流编码问题而导致的,

  有句话讲得很对:“只要你不是“笨蛋”,任何技术都能让你成为“超人”。

  抓个数据回来当代码跑。

  http网站要让你下载数据需要你进行转码,转码成utf-8,另外标签应该加头,也可以用sqlite3这种非关系型数据库。转码完成后如果网站能给你打包成json数据包,最好转包成java能直接可用的python对象格式,比如sqlitejson等。如果不能给你打包成json数据包那么就只能抓htmljson。如果网站支持xpath就可以。

  最好爬取网页源代码,可以做反爬虫。比如通过js代码,访问url等获取。

  想要抓取数据必须抓取dom。你看见一个html文件你应该有dom,因为每个html文件有一个空间,不会出现多余的东西。js文件应该有,当然前提是你有xpath。比如你先定义一个爬虫,名字或者你想抓取什么名字。

  可以抓包,抓网页源代码。通过编写xpath来抓取结果,或者可以用c#语言做相关抓包。

  上手github查查别人的项目,最简单的应该是从网页抓取网页上的文本数据,最近在用知乎的话题列表爬取。

  如果只抓取html网页,那就用python抓,如果爬取图片或者音频,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线