如何用bash和抓取网页中的数据?-八维教育

优采云 发布时间: 2022-06-12 07:00

  如何用bash和抓取网页中的数据?-八维教育

  在线抓取网页数据因为是爬虫有很多版本,最常见的是requests,但是这种方式慢,并且模仿正则的话也要配置很多东西。另外chrome内置也是可以抓取的,缺点是不稳定,渲染不好容易崩溃。我的建议是你直接去爬虫分类找,也不用太高要求,反正都是爬虫,目的都是为了获取网页数据,那肯定都一样。推荐去找一些前端实现的抓取工具。

  推荐几个我用过的,可以参考:bash的可以参考这个:werraw/比较小,用的是webworker,如果你采用异步方式用requests,应该也能满足你的需求。cloudmagicandroid的爬虫使用的dennymoore。他的代码在github上,基本上没有什么复杂的。其他还有很多,参见我回答过的问题:如何用bash和python抓取网页中的数据?。

  多数网站都有爬虫接口:...最常见的是githubwiki的:/

  有一个免费网站:alljungle|在线问答。数据量很小,重复率极低,并且都是来自世界各地。我想说的是,全球就那么小,收入也就那么多,不抓比抓更有意义。

  我推荐一个国内web2d算法实现的网站:#/

  sharesdk数据来源地址,一些规律可以用html5中的实现,举例:如果使用网页,不是整个表打包,后处理极其复杂,并且你还需要实现一定的h5中的插件化流程,最典型的比如增量刷新,其它再举例不多说了。不如试试用直接拖拽,测试一下后处理有多麻烦。更新一下,目前也可以抓取css效果(替换部分文字,顺便控制下颜色),不过好像不是很稳定。更换其它媒体,比如页面之间跳转,内容页内锚点之间跳转,等等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线