关键词采集器(机器采集网络爬虫的关键词采集器是怎样的？)

优采云发布时间: 2022-01-08 11:03

　　关键词采集器是机器采集网络爬虫，weburl提取器是人为提取，本质有差异。比如说标题和内容检索，标题就是给人看的，内容是给机器看的。你是想对所有内容都进行对齐也好，对小样本标记也好，统计分析也好，我觉得应该看爬虫的需求而不是看爬虫的类型。

　　我理解是，最终给谁看。如果是技术选型，每一个技术都有其适用的场景。知道用到什么地方的话，查一下自己需要什么技术，再看自己需要的技术的应用场景。

　　weburl规则识别应该是springcloudconfig容器提供的，之前有使用过，

　　基于规则的爬虫不好做，因为规则形式太多了，http请求规则基本上都有，而且可以重复利用，但是规则工具是要花钱的，而且规则相对更新比较慢，爬虫框架太复杂，底层的组件很多，

　　everythingframeworkbasics.

　　没有。自己都写不了，

　　.ai也可以啊.深度学习网络也可以.只要网络够好..

　　现在还没人能统计出来，你要是愿意，随便找本书看看做个简单的爬虫难度不大，

　　想知道除了规则外哪些技术门槛很高大多人做不到也学不会，

　　不可能有最好的，

　　可以试试爬虫框架，

0

2022-01-08

关键词采集器

0 个评论

要回复文章请先登录或注册