关键词自动采集生成内容系统-无需任何打理(Google发布的深度学习框架TensorFlow,我们的工作生活当中)
优采云 发布时间: 2022-03-29 19:18关键词自动采集生成内容系统-无需任何打理(Google发布的深度学习框架TensorFlow,我们的工作生活当中)
介绍:
随着人工智能的迅速崛起,谷歌发布的深度学习框架TensorFlow在短短两年内就成为了最受欢迎的深度学习项目。
TensorFlow在图像处理、音频处理、自然语言处理、推荐系统等场景中有丰富的应用。虽然开源时间不长,但 TensorFlow 正在悄悄地渗入我们的工作生活。
研究背景:
某新闻公司通过接入极光智能推荐系统,为其APP添加智能推荐模块,为用户定制感兴趣的新闻。极光机器学习云可以快速准确地提取每条新闻的主题,将新闻按主题分类,借助极光自有的用户标签,实时向用户推荐个性化新闻。
通过TensorFlow深度学习框架,在自然语言处理方向,极光通过机器学习算法实现了文章标题、摘要和关键词的自动生成。
研究计划:
自动文本摘要模型一直是深度学习的研究热点。有一些通用算法,例如 TFIDF 和 TextRank,其基本原理是直接从文本中提取重要句子。还有一些更复杂的算法,比如重新生成新句子,但效果并不好。目前常用的模型是seq2seq,它是基于Encoder-Decoder的结构。首先将原创文本中的句子编码成固定大小的向量,然后通过*敏*感*词*部分逐字符生成目标句子。
TensorFlow,即Tensor and Flow,也就是说Tensor和Flow是TensorFlow的基本要素。Tensor表示数据,Flow表示流动、计算和映射,这也体现了数据是有方向的流动、计算和映射。TensorFlow 的结构由会话、图、节点(操作)和边(张量)组成。它使用图来表示计算任务。这些图位于称为会话(Session)的上下文中。),它的状态由变量(Variable)维护,可以通过feed和fetch为任意操作(任意操作)赋值或从中获取数据。
在这个文章中,我们将使用基于Tensorflow的Seq2seq+Attention模型来训练一个新闻标题自动生成模型。增加了Attention分配机制,使Decoder在生成新的目标句时,能够在之前的Encoder编码阶段获取每个字符隐藏层的信息向量,从而提高生成目标序列的准确率。
数据处理:
样本数据为企业新闻客户端2016年11月的新闻,超过10M的语料数据,包括新闻头条和新闻文本信息。由于Encoder编码阶段处理的信息会直接影响整个模型的效果,所以新闻数据的预处理需要非常细致。应替换新闻中的特殊字符、日期、英文、数字和链接。
文本预处理之后,就是训练样本的准备。这里的Source序列是新闻的文本内容,要预测的Target目标序列是新闻标题。为了保证效果,文字部分不宜过长。这里将分词后的文本设置为不超过100个单词,不足用PAD字符填充,标题设置为不超过20个单词。生成训练样本时,定义create_vocabulary()方法创建字典,data_to_id()方法将训练样本(train_data.txt)转换成对应的词ID。
训练样本的数据格式如下:
算法分析:
Seq2Seq 是一种基于输入序列预测未知序列的模型。该模型由两部分组成:Encoder 编码阶段和 Decoder 解码阶段。在模型编码阶段,Encoder的RNN每次都会输入一个字符表示的向量,将输入序列编码成一个固定长度的向量;解码阶段的RNN会逐个字符解码,比如预测X。在训练阶段,将强制上一次解码的输出作为下一次解码的输入,即在下一步预测Y时将X作为输入。
当编码阶段的输入序列过长时,解码阶段的 LSTM 模型将无法解码最早的输入序列。Attention注意力分配机制,在解码阶段解码的每一步,都会有一个输入,输入序列所有隐藏层信息的加权求和可以很好的解决这个问题。
将分词后的新闻文本数据拆分为训练样本和测试样本,共四个文件:train_data.txt、train_title.txt、test_data.txt、test_title.txt。新闻正文内容及其对应的新闻标题需要分别存储在两个文件中,每个新闻样本一个文件。
证据效果:
运行脚本,训练好的模型会被保存,一些预测的Text Summarizaions如下:
总结:
随着互联网的飞速发展,网络中的新闻资源呈指数级增长。通过深度学习自动生成的标题往往能够非常直观地反映新闻的主题内容,方便读者快速浏览新闻,准确选择感兴趣的内容。节省时间和成本,并能带来良好的效果。给读者一种体验感。
智能推荐已成为不可阻挡的趋势。随着人工智能的发展,算法推荐必将成为内容领域的主流之一。极光即将推出一整套智能推荐引擎。该模型引入极光用户标签,结合基于Tensorflow的基于LSTM主题分类的个性化推荐和非个性化推荐,既能很好地解决用户冷启动问题,又能满足企业的个性化和实时性需求用户智能推荐。