智能写作v2.0
优采云 发布时间: 2020-08-12 07:45第四,输出一个在线Flash短片,用q版人物形象模仿传统的午间新闻广播方式,来向用户播放内容。
- 文学作品创作思路
举一个撰写「关于饮食习惯」的文学作品的反例。
首先介绍一种量化小吃的思路,下图是一个小吃辣味网路,每个节点代表一种菜品,颜色代表所归属食物种类。节点大小反映了一种菜品在菜谱中的普遍性。如果两种调料有明显数目鲜味的化合物共享,则表示它们之间有关联,链接的粗细代表两种调料之间共享化合物的数目。
美食鲜味网路
回到我们的文学作品的建立思路,首先,采集微博文本内容;
其次,提取出用户饮食习惯等数据,主要使用动词、词性标明和依存复句剖析等NLP技术。那么怎么抽取出用户饮食习惯呢?主要是由三个条件组成的规则:
一条微博里富含成语“吃”;
与“吃”相关的复句关系为动宾关系;
“吃”的不定式为名词;
就可以判定发生饮食行为,进而提取出“吃”的不定式就是相关的食物,从而产生饮食习惯数据。
最后,重新组织语言,把用户的饮食习惯数据书写下来。
- 情感弧线
emotional arcs
此项技术可以帮助我们剖析故事的主要高潮和低潮。
作者使用了三种主要方式进行《哈利·波特》的情感弧线剖析:奇异值分解(singular value decomposition);以 Ward 的方式形成故事的分层降维;以及自组织映射机器学习方法来降维情感弧线。情感弧线是通过使用 和 labMT 数据集剖析滑动10000字窗口的情绪而打造的。
另外 网站还提供了许多其他书籍、故事、电影剧本以及Twitter的交互可视化情感弧线。- 新型书籍的手动生成
在没有人工参与的情况下,自动生成整本维基教科书;
这部份是来源于Wikibook-bot的一项技术,是由以色列内盖夫本古里安大学的沙哈尔阿德马蒂Shahar Admati 及其朋友开发的;
主要的流程如下:
首先,准备一组现有的维基教科书,用作训练数据集,数量级在6000本以上。
其次,进行数据清洗,规则是:
1 关注浏览量超过 1000 次的教科书;
2 涵盖超过十个章节
第三,生成标题,该标题用以描述某种概念。
第四,文章清洗,规则类似于pagerank的原理,文章通常通过超链接指向其他文章,在网路上采集出通过点击超链接三次以内得到的所有文章作为优质的文章。每本人工维基教科书都有自己的网路结构,其决定诱因包括,引用该文的文章链接数目、指向其他文章的链接数目、所收录文章的页面排行列表等。
第五,文章分类,对所有维基百科文章进行分类;
第六,每一个类别主题对应的文章的再度清洗,该算法会查看每一篇给定主题筛选下来的文章,接着判定假如将其添加到维基教科书中是否会使该书的网路结构与人工创作的书籍更相像。如果不相像,那么该文章就会排除在外。
第七,将每一个类别主题对应的文章组织成章节。主要依靠聚类算法,结合由整组文章组成的网路,找出怎样将其界定为连贯的集群。
第八,确定文章在每位章节中的出现次序。使用的是枚举,然后排序的思路,通过给文章成对分组,对所有文章枚举所有组合,然后使用网路模型来估算排序逻辑,最终估算出更为理想的文章顺序以及章节次序。
感兴趣可以详尽阅读论文:
- 主要涉及的NLP技术
NLP
自然语言处理
为了实现写作类的应用,需要对文本进行大量的处理,NLP是一种使机器能否象我们平时那样阅读和理解语言的技术。常常会结合知识图谱来使用,以提高产品疗效。
我们须要把握NLP的常见任务及算法。
- 主要的NLP任务
文本分类、情感剖析、分词、依存复句剖析、实体辨识等;
- 深度学习算法
目前深度学习有以下典型的算法,可以一一详尽了解把握;
参考地址
- GPT2这儿要举一个反例,在大受欢迎的 reddit 社区中,一个名为 SubSimulatorGPT2 的子讨论小组愈发引人注目:其内容完全由人工智能聊天机器人模仿各类讨论小组的风格生成后发布。SubSimulatorGPT2
早期的SubredditSimulator()的机器人使用马尔科夫链,这是一种成熟的生成序列的技术。
- 马尔可夫链和N-gram马尔科夫链的假定(第一性原理)。基于马尔可夫链的模型假设语句中的每位词组仅取决于其后面的几个词组。因此,给定任意语句的机率为组成该语句的所有n-gram(n个词组的序列)的组合机率。下图说明了该概念:
以Python 语言为例,采用字典(Dictionary)的数据结构。
d = {key1 : value1, key2 : value2 }
键名是当前的词组,键值是一个列表List,存储当前词组的下一个词组。
d = {word1 : [word2,word3], word2 : [word3,word4,word5] }
具体的事例,有如此两句话:
I like to eat orangesYou eat apples
我们希望通过马尔科夫链来学习以上数据,经过估算,模型为:
{'START': ['i','you'],'i': ['like'],'like': ['to'],'to': ['eat'],'you': ['eat'],'eat': ['apples','oranges'],'END': ['apples','oranges']}
我们不需要估算下一个词组出现的机率,因为假如它们出现的机率较大,那么她们会在选定下个词组的列表中出现好几次。采用适当的数据结构,问题也得到了简化的处理。
- 词嵌入和神经语言模型
词嵌入是现今NLP中任何人都必学的第一项技术:将词投射到多维空间中。它的优势在于,具有相像用法/含义的词组会获得相像的向量(按正弦相似度评判)。因此,涉及相像词组的词组向量的矩阵加法趋向给出相像的结果。
何为余弦相似度?在NLP的任务里,会对生成两个词向量进行相似度的估算,常常采用余弦相似度公式估算。余弦相似度用向量空间中两个向量倾角的正弦值作为评判两个个体间差别的大小。余弦值越接近1,就表明倾角越接近0度,也就是两个向量越相像,这就叫"余弦相似性"。
这是基于神经网路的语言模型的基础。有趣的是,神经模型不估算出现次数来确定机率,而是学习可以为任何输入估算出它们的参数(权重矩阵和误差)。这样,甚至可以为我们未曾见过的n个句型以后的下一个词组估算一个合理的机率分布。下图是一个最简单的神经网路:MLP (multilayer perceptron) 多层感知器。
- 递归神经网络
随着递归神经网络(RNN)的出现,特别是长短期记忆(LSTM)的出现,语言生成方面获得了更大进步。与之前提及的最简单的神经网路不同,RNN的上下文除了限于n个词组;它甚至没有理论上的限制。
RNN的主要改进在于保留了内部状态。因此,RNN可以不停地逐条读取词组,从而更新其内部状态以反映当前上下文,而不是只看固定的窗口(n个词组)。
使用RNN的文本生成以自回归方法遵守与马尔可夫链相像的原理。RNN对第一个词组进行取样,将其送到神经网路以获取下一个词组的机率,然后再对下一个词组进行取样,依此类推,直到语句结束为止。如下图所示,依次学习The、boys、that、came词组的过程。
Internal State类似于脑部(黑箱),记录了所有复杂的文本信息。
- 注意力机制
在形成下一个输出之前,先回顾所有以前的词组。计算注意力本质上是指估算过去词组的某种分布,然后将这种词组的向量与接收到的注意力成比列地进行聚合。下图说明了该概念。
注意机制让RNN可以回顾以前词组的输出,而不必定所有内容压缩为隐藏状态。中间输出之前的压缩RNN块与不注意时的块相同。
- Transformer
Transformer是一种神经网路构架,于2017年推出,旨在解决RNN的缺点。它的关键思想是完全借助注意力,以至根本不需要内部状态或循环。下图是Transformer的简化的描述。实际的构架十分复杂,您可以在查阅相关文章找到更详尽的解释 。
- GPT模型
回到前文所提及的GPT2,GPT全称Generative Pre-Training,出自2018年OpenAI的论文《Improving Language Understandingby Generative Pre-Training》,论文地址:
~amuham01/LING530/papers/radford2018improving.pdf
GPT是一种半监督学习方法,它致力于用大量无标明数据使模型学习“常识”,以减轻标明信息不足的问题。详细可以阅读论文深入了解。
- 人工智能辅助写作
一些相关产品。Grammarly在线写作网站
Grammarly是一款全手动英语写作工具, 可以实时检测句型,一边写一边改,语法问题和更改意见会以标明的方式显示在文档的两侧,方便用户去一一查看,而且在每条批注下边就会配有详尽的解释,告诉用户那里错了,为什么要这样更改。
百度创作脑部
百度人工智能写作辅助平台“创作脑部”,智能助手可以为人类创作者提供纠错、提取信息等各类辅助工作。
GET智能写作
一站式智能写作服务平台。全网热点追踪、推荐海量素材、提升原创质量。
- 算法新闻、机器人记者目前在这个领域领先的有美国的2家公司:
自动化洞察力公司 Automated Insights
叙述科学公司 Narrative Science
我们先来了解下算法新闻的导论。
- 算法新闻导论美国的初期创业公司,如今的佼佼者
早在2007年,美国的「自动化洞察力」Automated Insights公司创立;
2009年,美国西北大学研制的StatsMonkey「统计猴子」系统就撰写了一篇关于美国职业棒球大联盟西决的新闻稿件;
2010年,「叙述科学」公司Narrative Science创立;
由机器人记者主导的新闻行业正在迅速崛起
在2014年,美联社与Automated Insight公司达成协议,成为机器人记者的初期的采用者。
2014年3月,第一条完全由计算机程序生产的新闻报导形成。作为首家“聘用”机器人记者的主流媒体,《洛杉矶时报(LA Times)》在水灾发生后3分钟就发布了首列相关新闻。
在这一年,机器人写稿技术研制公司Automated Insight全年生产了10亿条新闻。
在2015年,新华社推出可以批量编撰新闻的写作机器人「快笔小新」;
同年9月,腾讯财经发布写作机器人「Dreamwriter」;
1年后,中国湖北广播电视台长江云新闻客户端就派出人代会机器人记者“云朵”进行专访。
第一财经也发布写作机器人「DT稿王」
同年,国外挪威新闻社NTB启动机器人,开始着手制做自动化篮球新闻报导项目;
自动化新闻早已通过手动新闻写作和发行步入新闻编辑室
2017年1月,南方都市报社写作机器人「小南」正式上岗,推出第一篇共300余字的春运报导。
……
以上为算法新闻导论。
我们须要晓得「机器人记者」并不是真正的职业记者,而是一种新闻报导软件,拥有手动撰写新闻故事的功能。相类似的概念有算法新闻、自动新闻。
媒体通常还会形象地,描述机器人记者在媒体单位“上班”,机器人具备“真人记者”所有的采编功能,不会出错,不用休息,所写的文章不仅时效性强,质量也高,工作效率比“真人记者”高出好几倍。
- 经典产品「机器人记者」
由日本表述科学公司Narrative Science发明的写作软件;这个软件拥有手动撰写新闻故事的功能。
基于选题和新闻热点追踪,通过平台授权,结构化采集、处理、分类、分析原创数据素材,快速抓取,生成新闻关键词或线索,然后,利用文本剖析和信息抽取技术,以模板和规则知识库的形式,自动生成完整的新闻报导。
尤其在体育比赛,金融经济,财报数据等方面作用突出。
- 2018年数据新闻创新奖《搜索侦察机》
记者彼得奥尔德乌斯Peter Aldhous,开发了这个项目,他使用了机器学习——特别是「随机森林random forest」算法,从大量的客机飞行数据中,建立了一个模型,可以按照以下数据:
飞机的拐弯速度
飞行速度
飞行高度
每条飞行路径周围的圆形区域
飞行持续时间
识别出可能是“隐藏身分的侦察机”。
- 各大报社、杂志社的应用
国内有人民日报「小端」、光明日报「小明」、今日头条「张小明」、南方都市报「小南」等等。近期新华智云的更新是业内比较大的动作。
新华智云
作为新华社和阿里巴巴集团共同投资创立的大数据人工智能科技公司,于2019年发布了“媒体脑部3.0”。以区块链技术和AI初审为明显特点,为内容工作者提供“策、采、编、发、审、存”全流程赋能,为媒体机构、宣传部门、企业单位各种融媒体中心提供方便、高效、智能的数据中台和内容生产平台。
新华社「快笔小新」
「快笔小新」的写稿流程由数据采集、数据剖析、生成稿件、编发四个环节组成,这一机器人适用于体育比赛、经济行情、证券信息等快讯、简讯类稿件的写作。
腾讯「DREAMWRITER」
腾讯在2015年9月推出了一个叫 Dreamwriter 自动化新闻写作机器人。最开始,这项技术主要用在财经领域,现在它在体育比赛的快速报导中也有太成功的应用案例了。
2016年里约奥运会期间,Dreamwriter 就手动撰写了3000多篇实时战报,是亚运媒体报导团的“效率之王”。
在“2017腾讯媒体+峰会”现场,Dreamwriter 平均单篇成文速率仅为0.5秒,一眨眼的时间就写了14篇稿件。
国外的应用主要如下:
《卫报》
使用机器人辅助写作,并发表了一篇名为《Political donations plunge to $16.7m – down from average $25m a year》
《华盛顿邮报》
Heliograf机器人记者,在报导2016年夏天奥运会和2016年补选时证明了它的有用性;
还帮助《华盛顿邮报》在一年一度的全球大奖中获得了「巧妙使用机器人奖Excellence in Use of Bots」
《 Guardian》
2014年,英国《 Guardian》进行了纸质测试计划,安排“机器人”统计剖析社交网络上的共享热点和注意力加热,然后内容过滤、编辑排版和复印,最后制做一份报纸。
《*敏*感*词*日报》
应用于金融投资研究报告片断的节选,网站会提醒读者那一段节选是由机器人完成的,哪些是由人类完成的。主要节选类似于以下的文字:
第二季度的*敏*感*词*节余8.3亿美元,这意味着在第一季度降低1.4亿美元以后,第二季度又消耗了8000万美元
Q2 cash balance expectation of $830m implies ~$80m of cash burn in Q2 after a $140m reduction in cash balance in Q1
这句话实际上只收录了三个数据点,并使用特定的句型合并在一起,而且不收录任何巧合的成份。
《洛杉矶时报》
《洛杉矶时报》靠「机器人写手」,第一时间报导了美国加州2014年3月18日当地时间清晨发生4.4级水灾;还应用于对*敏*感*词*时间错误归类的剖析。
《纽约时报》
《纽约时报》对美国国会议长的图象辨识;还应用机器人编辑Blossom预测什么文章有可能会在社交网站上导致传播,相应地给版面责任编辑提出建议;
《*敏*感*词*》
2011年,开始使用表述科学公司 Narrative Science 的手动写稿程序来撰写新闻;
彭博社
应用机器人系统Cyborg,帮助记者在每位季度进行大量的文章撰写,数量达到数千篇,包括各公司的财报文章等。机器人可以在财报出现的一瞬间就对其进行详尽的分析,并且提供收录那些相关事实和数据的实时新闻报导,速度十分迅速。
美联社
从2014年7月开始使用语言大师 Wordsmith 软件,利用自动化技术来写公司财务报表。几毫秒的时间,软件能够写出一篇路透社风格的完整报导。
- 技术进展
从早些年的以摘选稿件中诗句为主,过渡到现今全流程的方法。- 人形机器人
结合硬件,还有人形机器人版本的机器人记者的出现,例如中国智能机器人佳佳作为新华社特约记者越洋专访了日本知名科技观察家凯文·凯利。这是全球首次由*敏*感*词*真智能机器人作为记者与人进行交互对话,专家觉得具有标志性意义。
- 新媒体与人工智能写作
按照英国新媒体艺术理论家马诺维奇(Lev Manovich)在《新媒体语言》一书中对新媒体技术所下的定义:
所有现存媒体通过笔记本转换成数字化的数据、照片、动态形象、声音、形状空间和文本,且都可以估算,构成一套笔记本数据的,这就是新媒体。
这是一个艺术与科技跨界结合的领域,我们可以关注国内的大牛:
MIT的Nick Montfort院士
国际上被公认为作家和通过估算探求语言的人
他撰写了大量互动小说文章,发布在博客Grand Text Auto上,同时也开发了许多数字诗和文本*敏*感*词*。他近来的着作是「The Future」和「The Truelist」,有兴趣可以去了解下他的研究。
下面给你们介绍典型的案例。
- 互动小说与新型文学作品的创作
2016年,人工智能创作的小说在美国「星新一文学奖」上被评委称为「情节无纰漏」。人工智能应用于文学创作领域,为文学作品带来了新鲜血液,与文学作品的结合还平添了作品的互动性,与游戏、电影形成了跨界交融。互动故事平台
加拿大温哥华的互动故事平台Wattpad
其产品包括匹配创作者和读者的机器写作,识别故事“趋势”,根据主题进行创意写作等;还开发了视频讲故事的应用「Raccoon」;