事实:庄羽提议郭敬明成立反剽窃基金，AI：反剽窃，不行；剽窃，行！

优采云发布时间: 2022-11-24 17:52

　　郭敬明终于道歉了。

　　2020年12月31日0时，郭敬明在微博就抄袭庄羽小说《花落多少梦》中的作品《圈内圈外》致歉。

　　同时，郭敬明还表示，将补偿庄宇女士《梦里花落几多》的所有版权收入。“如果庄宇老师不愿意接受，我会把钱捐给公益慈善组织。”

　　郭敬明道歉后，庄宇也迅速回应：时隔15年，收到郭敬明的道歉。正如郭敬明先生所说，这确实是一个迟来的道歉。我接受郭敬明先生的道歉。

　　除了接受郭敬明的道歉，庄羽还提出，将小说《圈内》出版后获得的线上线下所有版权费和所有利润，与《梦里花落多少花》的收入合并，形成一个反剽窃基金，帮助原创作者捍卫自己的权利。

　　至于具体的维权方式，虽然庄羽没有表态，但可以想象，可能只是在发现别人抄袭自己之后，用来支持原创者维护自己的权益。

　　从目前的网络文学量来看，原作者最需要——也是最难的一点——就是及时发现自己被抄袭了。

　　如果仅仅依靠人力，无论反抄袭基金有多大，也很难及时发现抄袭行为。

　　那么，我们可以依靠人工智能吗？

　　AI反抄袭不易

　　说到反抄袭和反抄袭，我们的第一反应一般是论文自动查抄袭系统。无数数学在“减重”（降低重复率）的路上被论文抄袭检查系统反复按在地上摩擦。

　　传统的论文抄袭检查系统不能称为当前意义上的人工智能。例如著名的知网论文查询，是以重复连续13个字符为原则的，通常以句子为单位，即如果有超过13个连续重复包括十三个字符，则该句子的概率被判断为重复率比较高。

" />

　　然而，这种僵化的制度有明显的缺陷。简单地改变同义词和词序就可以在很大程度上避免这种重复检查。

　　这就涉及到NLP领域中一个非常有趣的领域——文本语义相似度计算。

　　例如，智能客服如何理解人类对相同问题的相同表述？

　　理解这些类似的问题对人工智能来说并不容易。从传统的特征工程方法到现在的深度学习方法，都没有很好地解决这个问题。

　　Kaggle也有一些关于这个问题的比赛，主要针对搜索引擎和QA系统。这也说明，AI很难准确判断单个句子的相似度分析，更不用说整篇文章甚至整本书的相似度的抄袭了。判断。

　　更何况，即使未来人工智能解决了文本语义相似性问题，如果抄袭者只是抄袭文学作品中的故事结构和情节，人工智能将更加难以判断。这个难度甚至超过了AI对语义的理解。理解已经上升到AI对人类复杂的社会和情感关系的理解。

　　当然，如果是直截了当的抄袭，你连重写都懒得写，那么最简单的抄袭检测系统就可以检测出来了，比如下面这个。

　　反抄袭不好，但AI抄袭很好

　　人工智能是一把双刃剑。这句话很适合抄袭和反抄袭。

　　虽然刚才说了AI抄袭目前可能做的不是很好，但是AI很擅长抄袭。

　　随便百度一下，就能找到一些可以用AI编辑稿件的工具。他们声称可以通过AI识别别人的原创文章，然后通过改写生成“

" target="_blank">伪原创”文章。

　　针对上面这句话，文摘菌找了一个AI智能改写工具的网络版试了一下。顺便看了下工具的介绍，罗列了几个熟悉的NLP技术：情感分析、信息分类、实体识别。

" />

　　这样看，效果好像还可以，但是还是很容易看出是改写的。比如第三句只是把“title”改成了“claim”。

　　或许这种改写工具很难应对严格的学术审查，但微信公众号原创验证等反抄袭机制呢？

　　让我们试试看。

　　先选一篇原创文章做文摘，然后改写。

　　之后我们会将改写后的文章复制到后台发送，看看是否能通过原版验证。

　　点击发送后，微信公众号后台不会弹出原验证失败的选项，可以直接发送。

　　显然，至少这个工具可以成功抄袭微信公众号的文章而不被原有的验证机制发现。

　　这样看来，AI是不是真的有点不厚道，反抄袭不好，但抄袭很好？

　　你们有什么感想？

　　大家点击“在看”会更好看！

　　横空出世:巨头、明星创企接连押注！生成式AI蹿红，能绘出以假乱真的照片

　　编译 | 曹玉北

　　编辑| 潘肯

　　智东西网10月11日消息，据CNBC报道，在过去的一年里，生成式人工智能（generative AI）发展较好。此前，谷歌、微软、Meta 等 AI（人工智能）领域的软件巨头已经在企业内部推广这项技术，让生成式人工智能融入到他们的产品中。

　　美国 Next View Ventures 的风险投资家戴维·贝塞尔 (David Bessel) 表示：“在过去的三个月里，‘生成式人工智能’这个词从无人问津变成了流行语。”

　　这项技术激发了许多人离职创办新公司，想象人工智能可以为新一代科技巨头提供动力的未来。

　　1. 生成式人工智能正在创造，而不仅仅是分析

　　人工智能领域在过去五年左右的时间里一直在蓬勃发展，但其中大部分进展都与分析和理解现有数据有关。AI模型的效率也快速提升，达到了足以识别手机拍摄的照片中是否有猫的程度，而且识别结果的准确率也很高。AI模型还可以每天为谷歌搜索引擎提供数十亿条搜索结果。

　　但是生成式 AI 可以产生以前从未做过的全新事物。换句话说，生成式人工智能正在创造，而不仅仅是分析。

　　美国生成式 AI 公司 Craiyon 的创始人 Boris Dayma 表示：“即使对我来说，令人印象深刻的部分是它可以创造新事物，而不仅仅是理解现有的旧图像，生成式 AI 可以创造出与已经存在的完全不同的新事物。以前做过。”

　　图像生成功能使用机器学习的一个分支深度学习。自 2012 年发表关于图像分类的里程碑式论文以来，深度学习重新点燃了业界对其的兴趣，并推动了人工智能的大部分进步。

　　深度学习使用在大型数据集上训练的模型，直到程序理解数据中的关系。这些模型可用于翻译文本或识别图片中是否有狗等应用。

　　图像*敏*感*词*通过改变这个过程来工作。例如，图像*敏*感*词*的工作不是将英语翻译成法语，而是将英语短语翻译成图像。它的工作通常有两个主要部分，第一个是对初始短语的处理，第二个是将数据转换成图像。

　　2、生成式AI产品频频上市，带动新兴技术浪潮

　　生成式 AI 基于一种称为 GAN（生成式对抗网络）的方法。GAN 以生成现实中不存在的人的图片而闻名。

　　从本质上讲，GAN 的工作原理是让两个 AI 模型相互对抗，以更好地创建与目标匹配的图像。

　　比 GAN 更新的一种方法是使用 Transformer。这种方法首次在 2017 年的 Google 论文中提出，是一种新兴技术，可以利用在更大数据集上花费的数百万美元进行培训。

　　谷歌论文《Attention is all you need》李牧（AWS AI首席科学家）

　　DALL-E是第一个引起广泛关注的图像*敏*感*词*，由美国初创公司OpenAI于2021年推出，今年发布了更强大的版本DALL-E 2。

　　“DALL-E 2的出现，意味着我们已经跨过了恐怖谷时期。” 专注于生成 AI 的开发人员 Christian Cantrell 说。

　　另一个常用的基于 AI 的图像*敏*感*词*是 Craiyon（原名：Dall-E Mini），用户可以直接在网络浏览器上搜索和使用。

　　据 Daima 称，自 2021 年 7 月推出以来，Craiyon 每天生成约 1000 万张图像，增加了多达 10 亿张以前不存在的图像。在今年早些时候 Craiyon 的使用量激增之后，运行 Craiyon 平台成为了 Daima 的全职工作。Daima 表示他将继续接受广告以保持网站对用户免费。毕竟网站的服务器成本很高。.

" />

　　Craiyon官网

　　Craiyon 如此受欢迎，以至于仅一个专门用于在 Craiyon 上寻找最奇怪、最具创意的图片的 Twitter 帐户就拥有超过 100 万的关注者。该帐户定期发布荒谬情景的图片，例如意大利水龙头拧出意大利面酱，或在越南战争中战斗的爪牙。

　　还值得一提的是广受欢迎的 Stable Diffusion，它于 8 月正式面向公众发布。目前，它的代码在 GitHub 上可用，可以直接在计算机上运行，而不仅仅是在云端或通过编程接口，这激发了许多用户开始调整 Stable Diffusion 的程序代码，或直接在其之上构建，以得到您满意的产品。

　　此构建调整包括通过插件将 Stable Diffusion 集成到 Adobe Photoshop 中，允许用户生成背景和图像的其他部分，然后使用图层和其他 Photoshop 工具直接在应用程序内操作它们。这种方法将生成式 AI 从生成成品图像的东西转变为可供专业人士使用的工具。

　　“我想见见这些创意人员，我希望他们将生成式 AI 应用到他们的工作流程中，”该插件的开发人员 Cantrell 说。

　　在 Adobe 工作了 20 年的 Cantrell 今年离开 Adobe 专注于生*敏*感*词*工智能，此前他表示该插件已经被下载了数万次。创意人员告诉他，他们以他无法想象的方式使用他开发的工具，从制作哥斯拉*敏*感*词*到制作一张艺术家可以想象的任何姿势的蜘蛛侠照片。

　　“通常人们都是从灵感开始的，对吧？所以我最初的计划是，我必须先处理空白画布，”坎特雷尔说。你画一幅画，告诉我们你的想法，我们会给你一些东西。”

　　关于使用生成式 AI 的新兴技术如何构建这些提示点或从单词字符串中生成图像，一个名为 Lexica 的搜索引擎对 Stable Diffusion 图像和可用于生成它们的确切字符串进行了编目。Reddit 和 Discord 上已经出现了指南，其中收录

输入人们想要的图像的提示。

　　3. 生成式人工智能具有万亿美元的潜力

　　红杉资本是AI行业经验丰富的风险投资公司，早期押注苹果、谷歌等公司。在红杉资本官网的一篇博文中提到：“生成式人工智能有潜力产生数万亿美元的经济价值。” 红杉资本预测，生成式人工智能可以改变每一个需要人类创作原创作品的行业，从游戏到广告再到法律。

　　在文章的转折点，红杉也在文中指出，文章部分由生成文本的生成AI GPT-3所写。

　　一些投资者认为生成式人工智能具有潜在的变革性，就像智能手机和早期的网络一样。这种转变极大地扩大了技术使用者的整体潜在市场，适用人群不断扩大。

　　Cantrell 认为生成式机器学习类似于一种更基础的技术：数据库，最早由甲骨文等公司在 1970 年*敏*感*词*创。作为一种在行和列中存储和组织离散信息的方式，如巨大的 Excel 电子表格，数据库已被重新用于存储从 Web 到移动设备的计算应用程序中的各种类型的数据。

　　“几乎我们在生活中使用过的每一个应用程序都是建立在数据库之上的，”坎特雷尔说。“没有人关心数据库是如何工作的，人们只知道如何使用它。”

　　美国风投公司Compound VC执行合伙人迈克尔·登普西（Michael Dempsey）表示，封闭在实验室的技术进入主流市场非常罕见。这些技术吸引了风险投资者的大量关注。他们喜欢在有潜力的领域*敏*感*词*。尽管如此，他还是警告说，生*敏*感*词*工智能的这个阶段最终可能会成为炒作高峰期的“好奇心阶段”。在此期间成立的生成式人工智能公司可能会失败，因为它们没有专注于企业和消费者愿意付费的特定用途。

　　该领域的其他人认为，今天开创这些技术的初创公司最终可能会挑战目前主导 AI 领域的谷歌、Meta 和微软等软件巨头，为下一代科技巨头铺平道路。

　　美国聊天机器人技术服务商 Hugging Face 的 CEO Clement Delangue 表示：“将会有一批价值数万亿美元的公司，整整一代的初创企业都将以这种新的技术方式发展。生成式 AI 将成为像 GitHub 这样的开发者平台，托管预训练模型，包括 Craiyon 和 Stable Diffusion 模型，目标是让程序员更容易构建 AI 技术。”

　　今年早些时候，在从包括加拿大和欧洲家族办公室公司 Lux Capital 和红杉资本在内的投资者那里筹集资金后，Hugging Face 的估值为 20 亿美元；从微软和 Khosla Ventures 获得超过 10 亿美元的资金。

　　与此同时，据《*敏*感*词*》报道，Stable Diffusion 的制造商 Stability AI 正在洽谈以高达 10 亿美元的估值筹集风险资本。Stability AI 的代表拒绝置评。

　　4、微软和谷歌进入市场，推出视频生成技术

　　Meta 和谷歌聘请了生成式人工智能领域的一些最聪明的人才，将这一尖端技术融入到他们的产品中。9 月，Meta 宣布了一项名为“制作视频”的 AI 程序，该程序通过生成视频而不仅仅是图像，使生成 AI 更进一步。

　　“这是相当惊人的进步，”Meta 首席执行官马克扎克伯格在他的 Facebook 页面上的一篇帖子中说。“生成视频比生成照片要困难得多，因为除了让每个像素都正确之外，系统还必须预测它们将如何随时间变化。”

　　上周三（10 月 5 日），谷歌还宣布并发布了一个名为 Phenaki 的程序的代码，该程序还可以将文本转换为时长几分钟的视频。

" />

　　科技热潮还可能提振 AMD、英伟达和英特尔等芯片公司，这些公司提供先进的图形处理器，非常适合训练和部署 AI 模型。在上周的一次会议上，英伟达首席执行官黄仁勋强调生*敏*感*词*工智能是英伟达最新芯片的一个关键用途，并表示此类项目可能很快会彻底改变通信方式。

　　生成 AI 的盈利用途目前很少见，主要围绕免费或低成本实验，例如一些作者已经尝试使用图像*敏*感*词*为文章生成图像。

　　生成式 AI 已经在 Nvidia 生效，它使用模型在虚拟游戏世界中生*敏*感*词*、动物、车辆或家具的 3D 图像。

　　5. 道德和所有权问题成为短期挑战

　　最终，每个开发生成式 AI 的人都将不得不应对图像*敏*感*词*带来的一些伦理问题。

　　首先是就业问题。虽然许多程序需要强大的图形处理器，但计算机生成的内容仍然比专业插图画家的作品便宜得多，后者每小时可能花费数百美元。

　　这可能会给艺术家、视频制作人和其他从事创造性工作的人带来麻烦，例如为宣传视频或其他营销材料设计图像，这些工作很快就会被这些计算机程序取代。

　　Compound VC 的 Dempsey 说：“事实证明，机器学习模型可以比人类好几个数量级，更快，成本也低几个数量级。”

　　在经过海量图像训练的生*敏*感*词*工智能领域，对于技术生成的收录

原作者风格的图像，原图像的创作者是否拥有版权主张，法庭上仍存在争论。

　　一位艺术家凭借名为 MidJourney 的生成式 AI 创作的图像赢得了科罗拉多州的一场艺术比赛。他在获胜后接受采访时说，他从生成的数百张图片中选择了一张，然后在 Photoshop 中对图片进行了微调。

　　艺术家在科罗拉多艺术比赛中赢得绘画

　　此外，Stable Diffusion 生成的一些图像似乎带有水印，这意味着原创

数据集的一部分是受版权保护的。

　　上个月，美国摄影平台 Getty Images 禁止用户将 AI 生成的图像上传到其库存图像数据库，担心与版权相关的法律问题。

　　Image Generator 还可用于创建商标角色或对象的新图像，例如小黄人、漫威角色或权力的游戏宝座。

　　随着图像生成软件变得越来越复杂，它生成的图像或视频可能会显示虚假信息，从而诱使用户相信它从未存在过。

　　开发人员还必须应对这样一种可能性，即基于大量数据训练的模型可能收录

数据中固有的性别、种族或文化偏见，从而导致最终输出显示此类偏见。对此，模型共享网站Hugging Face发布了道德通讯等文件，并与人工智能领域的领导者进行了会谈。“我们在这些模型中看到的是短期挑战之一，因为生成 AI 是概率性的，当在大型数据集上训练时，它们往往会编码很多偏差，”DeLange 说，举个例子，输入“软件工程师”，生成式AI会默认将其绘制为“白人”。

　　Hugging Face 推出道德通讯

　　结语：生成式AI的潜力还没有被充分激发

　　内容生产从传统的PGC（Expert Generated Content）和UGC（User Generated Content）阶段进入新的生成时代。根据美国信息技术研究和分析机构Gartner发布的《2021年预测：人工智能对人类和社会的影响》，到2023年，20%的内容将由生成式AI创造。到 2025 年，生成式人工智能将生成所有数据的 10%，高于目前的不到 1%。

　　生成式AI的出现，意味着AI开始在真实内容中承担新的角色，从“观察和预测”扩展到“直接生成和决策”。

　　在目前的具体应用中，以多模态形式呈现的数字人和虚拟偶像是生成式人工智能的应用方向。数字主播的大部分声音、表情和动作，也是通过身后的大模型实时生成和呈现的。

0

2022-11-24

伪原创相似度查询

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

事实:庄羽提议郭敬明成立反剽窃基金，AI：反剽窃，不行；剽窃，行！

0 个评论

发起人