解决方案:网页采集器的自动识别算法的生成参考之前提到的两种算法

优采云 发布时间: 2022-10-05 08:05

  解决方案:网页采集器的自动识别算法的生成参考之前提到的两种算法

  网页采集器的自动识别算法的生成参考之前提到的两种算法1.ranknet[1]能通过计算每一个link和one-hot值的相似度来得到网页长度。但ranknet存在的问题是没有提供可调整的过滤规则可以更新特征,导致模型更新缓慢。2.filternet[2]提供了first-hidden和second-hidden相似度的生成规则,而这两个规则可以让模型更新更快。

  

  另外,算法都会有bias,需要用梯度消除。在训练前的初始化上考虑需要bias的情况,训练中逐步取bias。关于tf的知识,可以看这里tf-ranknet-pytorch,里面介绍的非常详细。

  这次处理的网络用numpy的array转换成一维向量,用dst_list保存每个链接,如果是直接生成链接,就是一维输入的时候会用mat.reshape(tf.float32,tf.float32)这个方法按列将一维向量对应的一个单元进行像素值对齐,二维向量就要用dst_list保存,然后将mat.reshape(tf.float32,dst_list)(indices,tf.tensor32)这个方法将二维向量对应一个单元,后者的数值从1到n元素就由你设置的维度决定。

  

  假设现在的array为dst_list,那么用dst_list得到的指定维度单元如果是list也要进行array_reshape方法进行对齐,没有list的情况下就是element_wise。不是tensor也是array,后者的要求跟前者相似。这种计算相似度的方法使用的主要是cyclegan模型生成二维单元,另外加上池化层得到。

  这篇论文写的比较好,用pytorch,效果已经很不错了,期待deepwallfaceongithub更多fasttext处理的方法。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线