干货:懒癌福音!论文“太长不想读”?人工智能新软件可生成一句话摘要
优采云 发布时间: 2022-10-27 10:32干货:懒癌福音!论文“太长不想读”?人工智能新软件可生成一句话摘要
TLDR 软件为科学搜索引擎 Semantic Scholar 上的计算机科学论文生成一个句子摘要。
论文太长看不懂怎么办?一个软件可以做到。
据《自然》报道,科学搜索引擎的创建者推出了自动生成研究论文的一句话摘要的软件,他们说这有助于科学家更快地浏览论文。
该免费工具被创建它的团队称为 TLDRs(“too long to read”的缩写),最近已在科学搜索引擎 Semantic Scholar 上推出。“语义学者”是由艾伦人工智能研究所(AI2)创建的搜索引擎。
AI2 Semantic Scholars 组经理 Dan Weld 表示,目前,TLDR 软件仅用于 Semantic Scholars 涵盖的 1000 万篇计算机科学论文,并且在软件经过微调后——预计在 12 月左右,其他学科的论文也应该通过 软件自动生成一句话总结。
初步测试表明,与查看标题和一般论文摘要相比,TLDR 软件可以帮助读者更快地对搜索结果进行排序,尤其是在手机上。“人们似乎真的很喜欢这个工具,”韦尔德说。
Weld 受到同事在 Twitter 上分享的一些标记为 文章 的短句的启发,创建了 TLDR 软件。与其他语言生成软件一样,该工具使用基于大量文本的深度神经网络学习。研究团队创建了数万篇与其标题相匹配的研究论文,这样网络就可以学习生成简洁的句子。然后,研究人员对软件进行了微调,以训练一个新的数据集来匹配论文和摘要,其中收录数千篇计算机科学论文,其中一些是由他们的作者撰写的,另一些是由论文的作者撰写的。本科生写的。该团队采集了培训示例,以提高该软件在其他 16 个研究领域的性能,其中生物医学可能是第一个。
一篇描述 TLDR 软件的论文于 4 月 1 日首次发表在预印本平台 arXiv 上,并在 11 月经过同行评审后发表。研究人员已将代码免费提供,并且有一个可以使用该软件的演示网站,任何人都可以尝试该工具。
“我预测这个工具在不久的将来会成为学术搜索的标准功能。事实上,考虑到需求,我很惊讶它花了这么长时间才投入实际使用,”华盛顿大学信息科学家 Jevin West 说, 谁应该 该工具已经过 Nature 的要求测试。“这个工具并不完美,但它绝对是朝着正确方向迈出的一步。”
总结:使用心得:文章相似度检测工具靠谱吗?
这些天做 SEO 最难的不是技术,而是 网站 内容。拥有高质量的 文章 对 SEO 排名有很大帮助。很多人认为原创文章是优质的文章,所以文章原创度数检测工具很多,还有一些采集的软件结合不同的 文章 段落脱离上下文。这种操作方式真的对网站SEO没有帮助,完全不靠谱。
公司内发外链的同事曾表示,使用原创度数检测工具的文章收录情况并不好。一开始我以为是外链发布平台。用了几次后,测试的文章收录确实不太理想,排名也没有上升。经过研究,发现文章原创度数工具检测原理不可靠,原创文章被别人盗用的风险,大致如下:
第一:文章原创度数检测工具只能检测前几十个单词。
目前我用过的文章检测工具只能检测出一个文章的前几十个汉字。即便如此,检测速度还是很慢。比如我们的文章有800个汉字,检测工具只能检测到50个汉字,那么我们需要把这个文章分成16段分别进行检测。如果 文章 字数很大,就需要分成更多的段落,这个工作原理简直太不科学了,因为:
1.操作太复杂
如果把文章分成几个小段单独检测,不用于记忆和比较,过程繁琐,操作时间长,如果采集在一个段中检测,那么写一个平均 文章 可能比自己写一个要花更多的时间,随着时间的推移你可能会厌倦 SEO 工作,这不仅仅是收获。
2.检测速度慢
无论是一段测试,还是整个文章测试,这些文章检测工具的响应速度都无法超过百度。把文章放到百度上搜索一下,基本都是秒出结果。百度拥有强大的数据计算能力,这些检测工具的检测结果也来自百度,所以可以直接在百度中搜索文章要检测的内容。
其次,原创文章可能会被相似度检测工具本身采集使用。
我辛辛苦苦写的原创文章,被其他网站检测工具检测到后第一个发表在他们采集上,但真正的作者却成了伪原创,这有多烦人。当然,以上只是个别网站的行为,部分网站完全有可能被黑客利用。因此,仅仅为了检测 文章 的相似性而冒这个险是完全没有价值的。我们之前检测到的文章收录不好,可能是我们太信任这个工具了。
建议大家在写文章时,用自己的语言表达你想表达的信息,突出主题,有效解决读者的实际需求,让用户理解文章的内容一目了然,切忌夸张。,这样一般不会出现和网上一样的文章内容,不仅提升了用户体验,也方便了蜘蛛爬取和收录。
最后,不要依赖检测工具,因为原创文章不等于高质量文章。
我们追求原创文章的原因是默认了原创这样的高质量。在当今的超智能搜索引擎中,如果我们使用检测工具发布垃圾原创文章,最好只是采集。以前网上有一些同义词替换,标点符号用空格替换,文章是通过改变文章的内容顺序的方法写的。检测工具上的结果是文章的相似度为30%。下面,高质量的原创文章是可以发布的,但其实现在发布这样的文章,基本不会是收录,因为搜索引擎已经可以完全识别出这种欺骗性文章,搜索引擎的出发点永远是用户体验,
综上所述,文章原创度数检测工具是一种不可靠的SEO方法。当然,科学的SEO不仅要高品质文章,还要多关注行业动态,与时俱进,比如最近很火的百度MIP,推荐每个人都需要一些时间来学习,有数百个好处,没有坏处。