如何用bash和抓取网页中的数据？-八维教育

优采云发布时间: 2022-06-12 07:00

　　在线抓取网页数据因为是爬虫有很多版本，最常见的是requests，但是这种方式慢，并且模仿正则的话也要配置很多东西。另外chrome内置也是可以抓取的，缺点是不稳定，渲染不好容易崩溃。我的建议是你直接去爬虫分类找，也不用太高要求，反正都是爬虫，目的都是为了获取网页数据，那肯定都一样。推荐去找一些前端实现的抓取工具。

　　推荐几个我用过的，可以参考：bash的可以参考这个：werraw/比较小，用的是webworker，如果你采用异步方式用requests，应该也能满足你的需求。cloudmagicandroid的爬虫使用的dennymoore。他的代码在github上，基本上没有什么复杂的。其他还有很多，参见我回答过的问题：如何用bash和python抓取网页中的数据？。

　　多数网站都有爬虫接口：...最常见的是githubwiki的：/

　　有一个免费网站：alljungle|在线问答。数据量很小，重复率极低，并且都是来自世界各地。我想说的是，全球就那么小，收入也就那么多，不抓比抓更有意义。

　　我推荐一个国内web2d算法实现的网站：#/

　　sharesdk数据来源地址，一些规律可以用html5中的实现，举例：如果使用网页，不是整个表打包，后处理极其复杂，并且你还需要实现一定的h5中的插件化流程，最典型的比如增量刷新，其它再举例不多说了。不如试试用直接拖拽，测试一下后处理有多麻烦。更新一下，目前也可以抓取css效果（替换部分文字，顺便控制下颜色），不过好像不是很稳定。更换其它媒体，比如页面之间跳转，内容页内锚点之间跳转，等等。

0

2022-06-12

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何用bash和抓取网页中的数据？-八维教育

0 个评论

发起人