自动识别采集内容(自动识别采集内容,才开始去采集不知道是哪个网站)

优采云发布时间: 2021-09-08 15:04

　　自动识别采集内容,才开始去采集不知道是哪个网站,但是都是去请求的,问题出在请求开始,请求失败,选择一个无js开发的网站:是发现有一个异常,要去除不出其他的错误去选择一个采集成功的网站就开始采集,选择一个无格式数据的网站就开始采集,会有很多情况,比如选择json,其实json本身是没有数据的,选择一个无关数据的开始采集,再其他的都是采集不出结果来.中途的推测失败,该网站如果采集出一定的数据规律,还是很容易发现这个网站采集规律.事后想想，之前可能会犯错误,才导致思维的缺陷。

　　上面这个是问题解决了思维中的短板。而真正可怕的是，内容数据采集失败了，但是还没有想好采集这些数据到底有什么意义，如果你之前没有思考过采集数据的意义,那么，根本不需要再去想意义是什么.所以还是要一个字：贵，所以，贵在花时间和精力在各种想法上,决定“一切先从小事做起”.。

　　首先，你得通过一个前端公共接口，找到你希望采集的页面。然后看下该页面一般有哪些地方会有链接。比如，百度首页上至少有几十万个的相同页面链接，只要满足里面的链接。都可以在一个公共接口得到来自该页面的数据。比如，我要爬取java学习频道的数据，那我就要找到它的公共接口是什么。然后就是简单修改下代码，再上网去爬数据咯。关于采集技术请关注公众号石墨源站长获取。

0

2021-09-08

自动识别采集内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动识别采集内容(自动识别采集内容,才开始去采集不知道是哪个网站)

0 个评论

发起人

AI时代内容工厂

自动识别采集内容(自动识别采集内容,才开始去采集不知道是哪个网站)

0 个评论

发起人

相关问题