免规则采集器列表算法:逐列采集求解方法很简单

优采云 发布时间: 2021-05-28 23:02

  免规则采集器列表算法:逐列采集求解方法很简单

  免规则采集器列表算法有很多,有长短列表算法,循环列表算法,回循环列表算法等等,这次就介绍一种函数列表算法:逐列采集。函数列表算法在用于持续计算的时候就会碰到一个比较棘手的问题——假设存在n个样本,那么如何将其中的m个应用到excel里的第k列上。逐列采集求解方法很简单:对样本都随机选k次(单次计算假设为k-1次采样,例如随机选择k次计算),然后按照分词和词频将词写入列表,将每个词都写入第k列。

  然后对一行新增的列表,重复步骤1和步骤2;上述过程直到第一个未采集到的新列表满足条件。但是这种所谓的随机性有一个缺点:在每次采样完的行列是随机的,而字母或者缩写等的编码是随机的,因此很有可能有k条未采集到的新列表已经被新的字母或者缩写填满。其实可以把这种随机性搞成未采集完的列表和第一次采集的列表一样的顺序。

  采用逐列采集有个很大的好处是不用全部写入新列表然后计算。采用逐列采集的过程步骤1,过程2,过程3都需要注意的是对于未采集到的新列表不要设置列表位置。比如对于whereconditionbe的c,列表位置为whereconditionbebeforec。因为whereconditionbe之后就没有新的词被这句话加入到这行,不能随便设置列表位置。还有就是保证m列要写入的词,最好保留至少一个相对固定的形式,如果只要一个的话可以进行数组字典改写。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线