自动采集文章链接有什么问题？举个例子：我要采集百度搜索

优采云发布时间: 2021-06-14 21:01

　　自动采集文章文章链接有什么问题？举个例子：我要采集百度搜索“个人介绍”的文章，以下图的网站是我试着在非小号里运行的：1.进入我的小号2.点击这个下拉菜单3.点击自动采集，一般是文章a这个文章的网址4.然后点击结束自动采集5.看看效果不知道百度知道为什么一直反爬，我发现只要抓住知乎上“李开复是谁？”这个问题的title，自动就会帮我自动抓取一些文章，但是一进去什么都没有，也没有相关的搜索结果。

　　对于爬虫而言，发现与收集是一个loop。只有把收集当成一个简单的事情来做，才能坚持爬下去。想知道其他的技术关键词，可以去：全栈最全的web开发和ai视觉技术课程，提供*敏*感*词*的师徒效果。学习就看个人的了，不要用到框架，js用不了多久就可以学会了，一个基础的对象创建，多页爬取，页面异步，调用javascript都是要学的，不要寄希望于不吃香的框架或者语言。先搞定需求，多接触不同的项目，选一个前沿的学就是了。

　　如果是要写小说，还是先把javascript搞熟练了，随后再学习html5与css这些后端知识。以后如果想要做大型的web项目，会用到前端技术，javascript+css+image，都要有研究过，不能在一开始就对javascript一无所知。一开始接触web页面爬虫可以看看「虎书」，某一章有详细的介绍，相对难度来说稍大一些，但是里面讲的内容很实用，属于新手的过渡阶段。

　　或者找一些html5以及css3前端基础读一读，看下网页加载，css布局。写些简单的小网页玩玩也是不错的。要是想走的更远，那就要学些后端的知识了，爬虫的任务其实不是完全简单的让服务器爬取内容，还需要和后端交互。很多javascript不是为后端服务的，或者通过不同的前端框架来对接后端的服务，也有直接对接后端服务器的技术。

　　我现在就用的是从「springboot」开始，配合springboottouch与springcloudeureka等等，后端也不用怕麻烦，总体来说，前端不是很容易，要说学好也不简单，至少要个半年。要是想从事后端开发，那我觉得要从学好前端开始吧，至少现在网页上都是css3+javascript，一开始爬取的文章不一定是需要直接填写信息，只是为了让服务器抓取，如果连javascript都不懂，还不如不写呢。

0

2021-06-14

自动采集文章文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集文章链接有什么问题？举个例子：我要采集百度搜索

0 个评论

发起人

AI时代内容工厂

自动采集文章链接有什么问题？举个例子：我要采集百度搜索

0 个评论

发起人

相关问题