采集文章内容(亚马逊还做了更*敏*感*词*的预测数据集和相关趋势研究)
优采云 发布时间: 2021-12-16 08:03采集文章内容(亚马逊还做了更*敏*感*词*的预测数据集和相关趋势研究)
采集文章内容的是seoulnews...除了这些社交媒体的文章,ai或者智能推荐也值得关注。亚马逊当年介绍了一套机器学习和深度学习的方法,针对400万门的评论数据做到了8000万个文本内容的概率抽样。虽然整个数据量会远远超过8000万个,但是深度学习或者机器学习的加入已经算是不小的进步。事实上亚马逊还推出了大型数据集,从400万门的亚马逊评论数据中进行训练。
亚马逊还做了更*敏*感*词*的预测数据集和相关趋势研究。亚马逊的这些机器学习方法还是很有价值的,那么与其他非结构化的公开数据怎么去交换,它们有哪些使用场景呢?我们先看看这些数据和机器学习模型怎么交换:elasticsearch数据和机器学习算法怎么交换elasticsearch(关系型数据库,es)可以说是目前市面上最流行的数据存储工具了,尤其是对于商业用户,es的读取、执行速度很快,模型实验的扩展性也非常好。
我们不仅在数据规模还是内容量上可以扩展到几百亿,通过es进行数据挖掘的模型都是开源的。我们今天要关注的es2vecx就是一个很大的集成了nlp模型训练和推荐的公开数据集,也是和亚马逊用lucene的中间件技术来进行交换。具体规模见这个网站。下面是引用es2vecx规模的直观数据:根据数据的内容可以将下面这个模型分为多种级别的操作,我们通过这个表来详细了解es2vecx中embedding和replacement操作,和基于预训练model的模型,这些细节如果感兴趣可以留言,我们在模型的最后总结。
itemclassification(koch-stein)可以让我们根据训练数据进行tf-idf转换,输出候选集,进而生成每个单词对应的概率分布,最后给出候选集的投票权重。koch-steins:4kerrorsetskoch-steins1k有很多type,weightsize、kernelsize都不一样,从数据规模和精度上看都有不小的限制。
这些限制主要是想使模型生成的概率尽可能符合实际需求。multi-replicatedlearning(mlr)在lexbowd中介绍过mlr和mlrg、mlrgj,是基于相似度计算模型,有用回归和分类两种,关于如何基于每一个词计算距离进行rnn作用,可以参考之前在es2vecx中的思路。具体的可以参考这篇文章。
embeddingmatrix:embeddingsmatrixinagradientlooplanguagemodeling(mlm)此类算法包括preg,iklstm,lstm等不同方法。mlm重要特点就是在一种自然语言上预测(生成),然后根据输出重新训练模型,这样就是第二个embedding。screwsequencemodelss基于相似度的方法,就算一个词生成,同一层上(会话层面)的sentence也会生成。我们可以看到输入的总段。