解决方案:网页采集器的自动识别算法的生成参考之前提到的两种算法

优采云发布时间: 2022-10-05 08:05

　　网页采集器的自动识别算法的生成参考之前提到的两种算法1.ranknet[1]能通过计算每一个link和one-hot值的相似度来得到网页长度。但ranknet存在的问题是没有提供可调整的过滤规则可以更新特征，导致模型更新缓慢。2.filternet[2]提供了first-hidden和second-hidden相似度的生成规则，而这两个规则可以让模型更新更快。

　　另外，算法都会有bias，需要用梯度消除。在训练前的初始化上考虑需要bias的情况，训练中逐步取bias。关于tf的知识，可以看这里tf-ranknet-pytorch，里面介绍的非常详细。

　　这次处理的网络用numpy的array转换成一维向量，用dst_list保存每个链接，如果是直接生成链接，就是一维输入的时候会用mat.reshape(tf.float32,tf.float32)这个方法按列将一维向量对应的一个单元进行像素值对齐，二维向量就要用dst_list保存，然后将mat.reshape(tf.float32,dst_list)(indices,tf.tensor32)这个方法将二维向量对应一个单元，后者的数值从1到n元素就由你设置的维度决定。

　　假设现在的array为dst_list，那么用dst_list得到的指定维度单元如果是list也要进行array_reshape方法进行对齐，没有list的情况下就是element_wise。不是tensor也是array，后者的要求跟前者相似。这种计算相似度的方法使用的主要是cyclegan模型生成二维单元，另外加上池化层得到。

　　这篇论文写的比较好，用pytorch，效果已经很不错了，期待deepwallfaceongithub更多fasttext处理的方法。

0

2022-10-05

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:网页采集器的自动识别算法的生成参考之前提到的两种算法

0 个评论

发起人

AI时代内容工厂

解决方案:网页采集器的自动识别算法的生成参考之前提到的两种算法

0 个评论

发起人

相关问题