算法自动采集列表(天天特价包包2016秋冬斜挎包韩版手提包流苏优采云包女包包)

优采云发布时间: 2021-12-13 08:16

　　背景

　　双十一购物狂欢节又要来了。近日，网上出现了各种关于双十一的热门购物清单。如果你是资深网购司机，你一定知道，通常一个产品会有很多尺寸的标签来展示，比如鞋子，它的产品描述可能是这样的“韩国女孩英式系带马丁靴女磨砂皮革厚底休闲短靴”。如果是包包，那么它的产品描述可能是“Daily Special bag 2016新款秋冬斜挎包韩版手提包流苏优采云包女包单肩包”。

　　每个商品的描述收录很多维度，可能是时间、产地、款式等，如何根据具体维度对数以万计的商品进行分类，往往是电商平台最头疼的问题。这里最大的挑战是如何获取每个产品的尺寸，由哪些标签组成。如果该算法能够自动学习“日本”、“福建”、“韩国”等与位置相关的标签，那么就可以快速构建标签分类系统。本文将利用PAI平台的文本分析功能，实现一个简单的产品标签自动分类系统。

　　数据显示

　　数据是网上直接下载整理的2016年双十一购物清单。产品描述有2000多个，每一行代表一个产品的标签聚合，如下图所示：

　　我们将此数据导入 PAI 进行处理。具体数据上传方式请参考PAI官方文档：/product/30347.html

　　实验说明

　　数据上传完成后，通过拖放PAI组件，可以生成如下实验逻辑图，并且已经标注了每一步的具体功能：

　　以下子模块解释了每个部分的具体功能：

　　1.上传数据和分段词

　　上传数据，shopping_data代表底层数据存储，然后通过分词组件对数据进行切分。分词是NLP的基本操作，这里就不介绍了。

　　2.添加序号栏

　　由于上传的数据只有一个字段，因此通过增加序号列为每个数据添加主键，方便后续计算。处理后的数据如下图所示：

　　3.统计词频

　　显示的是每个产品中出现的各种单词的数量。

　　4.生成词向量

　　使用 word2vector 算法。该算法可以根据每个词在向量维度上的含义进行扩展。这个词向量有两个含义。

　　经过word2vector后，每个词被映射到百维空间，生成结果如下图所示：

　　5.词向量聚类

　　既然已经生成了词向量，那么只需要计算哪些词的向量距离比较近，就可以根据意义对标签词进行分类了。这里使用kmeans算法进行自动分类，聚类结果显示每个词属于哪个cluster cluster：

　　结果验证

　　最后，通过SQL组件，从簇中随机选择一个类别，检查同一类别的标签是否自动分类。在这里，选择了第 10 组集群。

　　看看第10组的结果：

　　通过搜索结果中的“日本”、“*敏*感*词*”、“韩国”、“云南”、“新疆”、“台湾”等词，我们可以发现系统自动对一些地理相关的标签进行了分类，但混入“男士内衣”、“坚果”等明显与类别不一致的标签很可能是训练样本数量不足造成的。如果训练样本足够大，标签聚类结果会很准确的。

　　其他

　　本文中的案例已经集成到PAI首页的模板中，请注册使用PAI：/product/learn，在模板中点击create使用，包括逻辑和数据：

　　原文链接

　　更多技术干货请关注云栖社区知乎机构编号：阿里云云栖社区-知乎

0

2021-12-13

算法自动采集列表

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

算法自动采集列表(天天特价包包2016秋冬斜挎包韩版手提包流苏优采云包女包包)

0 个评论

发起人

AI时代内容工厂

算法 自动采集列表(天天特价包包2016秋冬斜挎包韩版手提包流苏优采云包女包包)

0 个评论

发起人

相关问题

算法自动采集列表(天天特价包包2016秋冬斜挎包韩版手提包流苏优采云包女包包)