算法 自动采集列表(天天特价包包2016秋冬斜挎包韩版手提包流苏优采云包女包包)
优采云 发布时间: 2021-12-13 08:16算法 自动采集列表(天天特价包包2016秋冬斜挎包韩版手提包流苏优采云包女包包)
背景
双十一购物狂欢节又要来了。近日,网上出现了各种关于双十一的热门购物清单。如果你是资深网购司机,你一定知道,通常一个产品会有很多尺寸的标签来展示,比如鞋子,它的产品描述可能是这样的“韩国女孩英式系带马丁靴女磨砂皮革厚底休闲短靴”。如果是包包,那么它的产品描述可能是“Daily Special bag 2016新款秋冬斜挎包韩版手提包流苏优采云包女包单肩包”。
每个商品的描述收录很多维度,可能是时间、产地、款式等,如何根据具体维度对数以万计的商品进行分类,往往是电商平台最头疼的问题。这里最大的挑战是如何获取每个产品的尺寸,由哪些标签组成。如果该算法能够自动学习“日本”、“福建”、“韩国”等与位置相关的标签,那么就可以快速构建标签分类系统。本文将利用PAI平台的文本分析功能,实现一个简单的产品标签自动分类系统。
数据显示
数据是网上直接下载整理的2016年双十一购物清单。产品描述有2000多个,每一行代表一个产品的标签聚合,如下图所示:
我们将此数据导入 PAI 进行处理。具体数据上传方式请参考PAI官方文档:/product/30347.html
实验说明
数据上传完成后,通过拖放PAI组件,可以生成如下实验逻辑图,并且已经标注了每一步的具体功能:
以下子模块解释了每个部分的具体功能:
1.上传数据和分段词
上传数据,shopping_data代表底层数据存储,然后通过分词组件对数据进行切分。分词是NLP的基本操作,这里就不介绍了。
2.添加序号栏
由于上传的数据只有一个字段,因此通过增加序号列为每个数据添加主键,方便后续计算。处理后的数据如下图所示:
3.统计词频
显示的是每个产品中出现的各种单词的数量。
4.生成词向量
使用 word2vector 算法。该算法可以根据每个词在向量维度上的含义进行扩展。这个词向量有两个含义。
经过word2vector后,每个词被映射到百维空间,生成结果如下图所示:
5.词向量聚类
既然已经生成了词向量,那么只需要计算哪些词的向量距离比较近,就可以根据意义对标签词进行分类了。这里使用kmeans算法进行自动分类,聚类结果显示每个词属于哪个cluster cluster:
结果验证
最后,通过SQL组件,从簇中随机选择一个类别,检查同一类别的标签是否自动分类。在这里,选择了第 10 组集群。
看看第10组的结果:
通过搜索结果中的“日本”、“*敏*感*词*”、“韩国”、“云南”、“新疆”、“台湾”等词,我们可以发现系统自动对一些地理相关的标签进行了分类,但混入“男士内衣”、“坚果”等明显与类别不一致的标签很可能是训练样本数量不足造成的。如果训练样本足够大,标签聚类结果会很准确的。
其他
本文中的案例已经集成到PAI首页的模板中,请注册使用PAI:/product/learn,在模板中点击create使用,包括逻辑和数据:
原文链接
更多技术干货请关注云栖社区知乎机构编号:阿里云云栖社区-知乎