文章采集规则(文章采集规则修改完毕,下一步就要把搜索引擎抓下来)

优采云 发布时间: 2021-09-07 01:01

  文章采集规则(文章采集规则修改完毕,下一步就要把搜索引擎抓下来)

  文章采集规则修改完毕后,下一步,就要把搜索引擎的网页抓下来了。我写过一篇教程是去爬百度百科和其他相关网站,大家可以参考一下。后续我会对爬虫的整个过程做详细的讲解,希望大家喜欢。

  最快的方法参考我昨天写的文章,该文基于leancloud开发者版本,

  没人用的就不要花钱弄了,赚钱养活自己可能有些难度。怎么拿搜索引擎抓到的内容和你们说了不算,找不到他人给的资料或者难以统计你这样的问题,自己摸索是有风险的。用神经网络也好用深度学习也好,tensorflow也好,最终还是要回归实际问题,找到用的上的方法。基于回归方法的话svm比较像通用的方法(都得训练好几轮)。

  用rnn要写起来方便。如果你是学计算机的,初步搜集到一些有趣的问题,不算偏门但是要熟练运用主流语言算法,并且对机器学习有一些了解(这一点比较重要,否则随便哪个框架都能达到相当的结果)。然后总结发出来找答案。有点钱在知乎买点他人的算法代码,都能帮你。

  推荐百度。百度曾经为了收购知乎,找了个程序员背书,然后果断收购,

  因为提问者没有给任何背景资料,所以只能写一些基本的,如果想深入了解,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线