关键词自动采集生成内容系统(基于关键词的文本自动生成模型(一句话自动撰写))
优采云 发布时间: 2021-11-30 02:10关键词自动采集生成内容系统(基于关键词的文本自动生成模型(一句话自动撰写))
在自然语言处理中,另一个重要的应用领域是文本的自动书写。关键词、关键短语和自动摘要提取都属于该领域的应用。但是,这些应用程序是从多到少生成的。这里我们介绍另一个应用:从少到多的生成,包括句子重复、从关键词生成、主题生成文章、或段落等。
基于关键词的自动文本生成模型
本章第一节介绍了一些基于关键词生成一段文本的处理技术。主要通过应用关键词抽取、同义词识别等技术实现。下面对实现过程进行解释和介绍。
场景
在投放搜索引擎广告时,我们需要为该广告写一个句子描述。一般来说,模型的输入是一些关键词。比如我们要投放的广告是鲜花广告,假设广告的关键词是:“鲜花”和“便宜”。对于这个输入,我们希望生成一定数量的候选单句广告描述。
对于这种情况,您还可以输入一个句子。比如我之前手动写过一个例子:“这个周末,小白花只要99元,而且还免费,而且免费!”。有必要在此句子的基础上重现一定数量的表达不同但含义相似的句子。这里介绍一种基于关键词的文本(一句话)自动生成模型。
原则
模型处理流程如图1所示。
图1 完成候选句子的提取后,需要根据候选句子的个数来判断后续的操作。如果选择的候选句子大于或等于所需数量,则根据句子相似度从低到高选择指定数量的句子。否则,必须复制该句子。这里采用同义词替换和根据指定模板重写的方案。
完成
计算候选句的代码如下:
Map result = new HashMap();
if (type == 0) {//输入为关键词
result = getKeyWordsSentence(keyWordsList);
}else {
result = getWordSimSentence(sentence);
}
//得到候选集数量大于等于要求的数量则对结果进行裁剪
if (result.size() >= number) {
result = sub(result, number);
}else {
//得到候选集数量小于要求的数量则对结果进行添加
result = add(result, number);
}
实现句子相似度过滤计算的代码如下。
for (String sen : sentenceList) {
//对待识别语句进行分词处理
List wordsList1 = parse(sentence);
List wordsList2 = parse(sen);
//首先判断两个语句是不是满足目标变换
boolean isPatternSim = isPatternSimSentence(wordsList1, wordsList2);
if (!isPatternSim) {//不满足目标变换
//首先计算两个语句的bi-gram相似度
double tmp = getBigramSim(wordsList1, wordsList2);
//这里的筛选条件是相似度小于阈值,因为bi-gram的相似度越小,代表两者越相似
if (threshold > tmp) {
result.put(sen,tmp);
}
}else {
result.put(sen,0.0);
}
}
扩张
本节处理的场景是:从文本到文本的生成。该场景一般主要涉及文本摘要、句子压缩、文本复制、句子融合等文本处理技术。其中,本节涉及两个方面的技术:文本摘要和句子重写。上面提到的文本摘要主要涉及:关键词抽取、词组抽取、句子抽取等。句子复制根据实现方式的不同,大致可以分为以下几种类型。
基于统计模型和语义分析生成模型的重写方法。这种方法是根据语料库中的数据进行统计,得到大量的转换概率分布,然后根据已知的先验知识替换输入的语料库。这种方法的句子是根据分析结果生成的。从某种意义上说,生成是在分析的指导下实现的。因此,重写的句子可能具有良好的句子结构。但是它所依赖的语料库非常庞大,需要人工标注大量数据。对于这些问题,新的深度学习技术可以解决部分问题。同时,深度学习结合知识图谱可以更好地利用人类知识,最大限度地减少训练样本的数据需求。RNN模型实现文本自动生成
6.1. 第2节介绍了一些基于短文本输入获取长文本的处理技术。这里主要使用RNN网络,利用其处理序列数据的能力实现文本序列数据的自动填充。下面是对其实现细节的解释和介绍。
场景
在做广告的过程中,我们可能会遇到这样的场景:一个句子生成一个描述文本,文本长度在200到300字之间。输入也可能是某个主题关键词。
这时候我们就需要一种算法,可以根据少量的文本输入生成大量的文本。这是一个算法:RNN算法。在5.第3节中,我们介绍了这个算法,用于实现拼音到汉字的转换。其实这两个场景的模式是一样的,其他的文本信息都是根据给定的文本信息生成的。区别在于前者是生成当前元素对应的汉字,这里是生成当前元素对应的下一个汉字。
原则
正如在 5. 部分 3 中一样,我们在这里仍然使用 Simple RNN 模型。所以整个计算流程图如图3所示。
图 3
代码
实现特征训练计算的代码如下:
public double train(List x, List y) {
alreadyTrain = true;
double minError = Double.MAX_VALUE;
for (int i = 0; i < totalTrain; i++) {
//定义更新数组
double[][] weightLayer0_update = new double[weightLayer0.length][weightLayer0[0].length];
double[][] weightLayer1_update = new double[weightLayer1.length][weightLayer1[0].length];
double[][] weightLayerh_update = new double[weightLayerh.length][weightLayerh[0].length];
List hiddenLayerInput = new ArrayList();
List outputLayerDelta = new ArrayList();
double[] hiddenLayerInitial = new double[hiddenLayers];
//对于初始的隐含层变量赋值为0
Arrays.fill(hiddenLayerInitial, 0.0);
hiddenLayerInput.add(hiddenLayerInitial);
double overallError = 0.0;
//前向网络计算预测误差
overallError = propagateNetWork(x, y, hiddenLayerInput,
outputLayerDelta, overallError);
if (overallError < minError) {
minError = overallError;
}else {
continue;
}
first2HiddenLayer = Arrays.copyOf(hiddenLayerInput.get(hiddenLayerInput.size()-1), hiddenLayerInput.get(hiddenLayerInput.size()-1).length);
double[] hidden2InputDelta = new double[weightLayerh_update.length];
//后向网络调整权值矩阵
hidden2InputDelta = backwardNetWork(x, hiddenLayerInput,
outputLayerDelta, hidden2InputDelta,weightLayer0_update, weightLayer1_update, weightLayerh_update);
weightLayer0 = matrixAdd(weightLayer0, matrixPlus(weightLayer0_update, alpha));
weightLayer1 = matrixAdd(weightLayer1, matrixPlus(weightLayer1_update, alpha));
weightLayerh = matrixAdd(weightLayerh, matrixPlus(weightLayerh_update, alpha));
}
return -1.0;
}
实现预测计算的代码如下:
public double[] predict(double[] x) {
if (!alreadyTrain) {
new IllegalAccessError("model has not been trained, so can not to be predicted!!!");
}
double[] x2FirstLayer = matrixDot(x, weightLayer0);
double[] firstLayer2Hidden = matrixDot(first2HiddenLayer, weightLayerh);
if (x2FirstLayer.length != firstLayer2Hidden.length) {
new IllegalArgumentException("the x2FirstLayer length is not equal with firstLayer2Hidden length!");
}
for (int i = 0; i < x2FirstLayer.length; i++) {
firstLayer2Hidden[i] += x2FirstLayer[i];
}
firstLayer2Hidden = sigmoid(firstLayer2Hidden);
double[] hiddenLayer2Out = matrixDot(firstLayer2Hidden, weightLayer1);
hiddenLayer2Out = sigmoid(hiddenLayer2Out);
return hiddenLayer2Out;
}
扩张
文本生成根据输入方式的不同可以分为以下几种类型:
文本到文本生成。即输入是文本,输出也是文本。图片转文字。也就是说,输入是图像,输出是文本。数据到文本。也就是说,输入是数据,输出是文本。其他。即输入形式不是以上三种,输出的也是文本。因为这类输入比较难概括,所以归为other。
其中,第三类2、最近发展非常快,尤其是随着深度学习、知识图谱等前沿技术的发展。基于图像生成文本描述的实验结果正在不断刷新。基于GAN(Adversarial Neural Network)的图像文本生成技术实现了非常大的图谱,不仅可以根据图片生成非常好的描述,还可以根据文本输入生成对应的图片。
从数据生成文本,目前主要应用于新闻写作领域。中文和英文都有很大的进步。英文版以美联社为代表,中文版以腾讯为代表。当然,这两者都不是单纯的以数据作为输入,而是综合了以上四种情况的新闻写作。
从技术上来说,目前主流的实现方式有两种:一种是基于符号的,以知识图谱表示。这种方法使用了更多的人类先验知识,对文本的处理收录更多的语义。元素。另一种是基于统计(connection),即在大量文本的基础上学习不同文本之间的组合规则,然后根据输入推断出可能的组合作为输出。随着深度学习和知识图谱的结合,两者之间存在明显的融合现象,应该是实现未来技术突破的重要节点。