张立羽博士：Magi不依赖任何“知识库”

　　感谢您的关注，请允许我补充三个常见的误解：

　　Magi 不依赖任何“知识库”，它是一种从纯文本中自动构建最可靠知识图谱的技术。我们希望 Magi 可以帮助知识工程的规模化，让各种知识图谱不要过多依赖人工维护的数据库，如维基百科；我们的初衷不是做一个日常使用的网络搜索引擎，而是在互联网公共文本中应用Magi的提取。技术学习知识，并通过引入交叉验证和源质量机制来获得额外的统计数据，以进一步改进提取技术本身。甚至可以说，这个看似搜索引擎只是半监管周期的副产品……我忙不过来，为天气、日历、股票等锦上添花…… . 希望各位爬虫不要停止爬取我们的网页。是的，网页上显示的结果数量是有限的。您可以直接联系我们进行数据合作……而且Magi一直在自动学习。你今天赶上的明天可能已经过时；另外，我想对以下答案之一实名，请至少在评论之前了解其他人在做什么，“中间结果”，“聚合搜索”，“无监督=聚类”，“为下游提供转移学习=使用pre-trained models”等言论从技术角度来看很明显是不负责任和误导的。

　　首先感谢@张立羽博士一直以来的关注。四年没在网上写过东西了，很紧张……写的琐碎，还请见谅。

　　本文只涉及技术层面的 Magi 演进。我不想在知乎谈论业务。如果您有兴趣，请参阅 Magi 项目及其愿景或媒体报道。

　　过去几年，Magi的产品形态发生了很大变化（请分别看Magi系统和搜索引擎），技术进步主要体现在以下几点：

　　能够彻底提取重叠和交错的知识，不使用HTML特性；不预设谓语/动词，实现真正的“开放式”信息抽取；配合自有网络搜索引擎评估源质量，信息源和字段未设置白名单；实时性大幅提升，热点新闻发布几分钟内即可搜索到结构化知识；没有pre-NER和依赖解析链接来减少父文本信息的丢失；技术栈完全独立于语言，可以实现低资源和跨语言传输。我买了这么讨厌的域名。

　　接下来分三部分来介绍，最后再说明一下自己做的不够好。由于我们无法详细介绍所有的技术原理和实现细节，为了避免被贴上吹牛的标签，我会尽量给出相应的证明：即如何通过公版来验证相应的特性，同时让看不懂技术的朋友们也可以直观的体验和理解。

　　搜索示例

　　它是如何工作的（灵魂手绘凑合看...）一、利用率和通用性

　　本节主要介绍以下两点：

　　1.可以在不使用HTML特征的情况下彻底提取重叠知识；

　　2.不预设谓语/动词，实现真正意义上的“开放式”信息抽取；

　　比如，通过阅读《美国总统特朗普的女婿库什纳担任白宫高级顾问一职》，人类至少可以看出以下关系：

　　美国->总统=特朗普，特朗普->女婿=库什纳，库什纳->职位=白宫高级顾问，白宫高级顾问∈职位，白宫高级顾问⊆高级顾问，白宫高级法律顾问⊆顾问，...

　　这对人类来说不算什么，但是计算机很难获得上述能力。让我们先回顾一下历史：Hendrickx 等人。（2009)设计了信息关系抽取领域的经典任务SemEval-2010 Task 8，规定了两个名词之间的9种语义关系，可以抽象为19类分类问题（2x9关系+1无关） )，例如“Member-采集” 这种关系表示一个实体是一个集合的成员。

　　事实上，几乎所有的信息抽取系统都需要显式或隐式地预设这样的语义关系，这些语义关系以关键动词列表或隐式期望谓词的形式体*敏*感*词*融领域最常见的应用为例，具体产品只需要在公告中找出客户关心的信息，如“A投资B”、“C本季度收益[\d\. ,]+元""等关系可以提取关键信息；很多情况下，此类产品的候选实体{A, B, C, ...}都有预设库，也可以使用正则表达式对数字和其他信号。对于各个细分领域的行业应用，这样做可以在满足需求的同时大大降低问题的复杂度。

　　但是，我们认为上述方案只是即兴的和足够的。想一想，如果一个医疗领域的AI，在阅读文献的同时，阅读网友在各个健康论坛和问答平台的讨论，肯定能利用更多的背景资料给出更好的建议；一个金融信息抽取模型，如果你同时阅读各个行业的行业新闻，绝对可以避免很多常识性错误。把它变小，一个现实而残酷的问题是，子行业的结构化训练数据太少，而且策展成本高且速度慢，其专业性使得像图像分类这样的众包标注变得困难。两个注释者之一理解或简单语言习惯的差异可能导致训练不收敛或简单学习。

　　Magi 希望通过提高信息的利用率来带来改变。具体来说，Magi 不再依赖预设的规则和字段，“毫无问题”地学习和理解互联网上的文本信息，同时尽可能多地找到所有信息（穷尽），而不是只选择最好的（最有希望的））。对于我们人类来说，当面对一个陌生的文章时，即使覆盖了大量专有名词和术语，我们仍然可以通过语法和语言习惯，根据上下文判断覆盖内容之间的大致逻辑关系。同样地，Magi 通过一系列预训练任务和扰动来淡化与特定实体或领域相关的概念，转而学习“人们可能会关注内容中的哪些信息？”，并在两者之间刻意偏向后者准确率和召回率。增加“意外但有意义的噪音”的机会，以提供后续的半监督过程。我们花了四年时间为 Magi 设计特殊的特征表达、网络模型、训练任务和系统平台（下面将讨论），并投入大量精力逐步构建专有的特殊训练/预训练数据。 Magi 通过终身学习不断聚合和纠正错误，为人类用户和其他人工智能提供分析、可搜索和可追溯的知识系统。普通用户可以随时体验公版，以文本形式检索和查看知识，而程序可以选择通过DSL或矢量化方式访问Magi更广泛的结构化网络。

　　同时，我们不再使用 HTML 标签特性，直接处理纯文本。众所周知，HTML 标签信息可以提供额外的语义信号，使信息提取更加清晰。 Crestan 等人的一项调查。（2011)显示大约75%的页面有表格。排除用于导航和排版的表格，还有12%的表格具有语义价值，只有通过HTML表格挖掘才能获得大量有意义的数据但研究也表明，互联网上易于处理的信息只是沧海一粟，事实上，大部分信息并不以半结构化的形式存在，比如很多公司的内部文件和论文正文。，社交平台内容。Magi想要提高信息的利用率，但它注定要跳出HTML的舒适区。这种能力是我们Magi for Enterprise服务的普遍先决条件。

　　搜索“systemic lupus erythematosus”，可以看到我们已经学会了多级推导（参见“标签”部分）和重叠的三元关系（参见“属性”部分，点击省略号展开）从相同的来源）。而且，每个源网页中都没有有意义的表格等有用的HTML标签，这证明我们完全使用纯文本作为模型的输入内容。需要指出的是，Magi 的学习是不断自动进行的。有些知识可能会被系统判断为不可靠而被淘汰，也可能学到新的知识（或噪音），所以我们不能保证您在尝试搜索时看到的结果是否仍然可以作为证据。以下截图于2019年9月6日11:38截取，以上示例为随机抽取，整体质量中等（红色、*敏*感*词*、绿色代表Magi给出的可信评级等级），我们永远不会做它用于显示任何人工干预：

　　红黄绿颜色代表Magi二、coverage给出的可信度和及时性

　　本节主要介绍以下两点：

　　3.与自己的网络搜索引擎合作，对来源进行质量评估，没有信息来源和领域的白名单；

　　4.大大提高了实时性，在热点新闻发布后几分钟内即可搜索到结构化知识；

　　用户最终能到达的信息=模型信息的利用率x输入信息的覆盖率。上面提到的通用性是在模型和算法层面提取属性，真正提供有价值的服务，还需要数据支持。公版致力于从互联网信息中寻找有价值的数据，让原本埋藏在线路中的知识有机会进入各种知识图谱，同时作为背景知识进行迁移学习，提升定制化服务垂直场。

　　但是，互联网语料的质量参差不齐，抄袭拼接、自动生成、恶意篡改等行为会造成大量的事实错误，甚至可能使模型在不断的学习和调整过程中变得越来越差。对于这类问题，最简单也是最常用的解决方案是建立可信来源白名单机制，比如只学习权威媒体和专业提供商的内容，而忽略类似社交平台或自媒体的UGC来源。白名单机制确实可以避免很多麻烦，但也会丢失很多有价值的信息，尤其是在一些边缘、亚文化、非权威的领域。 Magi 最重要的目标之一是规模化，因此白名单机制是不可接受的。

　　为此，我们投入了大量的时间和精力，从零开始开发了一套网络搜索引擎（不使用任何开源解决方案，另见铁杆用户问答）。一方面是为了补充展示，更重要的是为Magi提供所需的统计数据。对于任何知识，Magi 都会综合各种不同的信号进行评估，主要包括：

　　清晰度：源文本中表达的信息的清晰度和客观性。清晰度不仅包括文本本身的语义准确性，还包括Magi提取模型认知的激活强度（可以粗略理解为AI认为正确的概率）。在语义层面，一般关注语气是否中性平和，上下文是否否定，文本是否与练习题的疑问句相似等，再加上更多难以描述清楚却又难以描述的信号。已经被模型掌握了，比如整个文章是troll吗？提取出的模型的激活强度可以直观的理解为Magi对自己读到的信息有一定的把握。当然，AI会犯错，Magi也不例外。一般来说，当上下文冗长复杂、表达晦涩、主题和参考不明确时，Magi 更容易出错，并且会产生一些误报。幸运的是，学习过程是连续的，当 Magi 从其他地方学习到更可靠的信息时，这些错误会被过滤或修复。

　　可信度：可以交叉验证的来源的数量、质量和相关性。在学术领域，一篇论文被引用的次数越多，其影响力就越大；在网络搜索中，一个 URL 的反向链接越多，它就越重要。关于知识，我们认为某个事实表达的上下文越多，其正确性和传播性就越强。值得注意的是，网络上存在大量的转载、抄袭和重复，所以我们进一步将其定义为：对于某个事实，在不同语境和表达方式中提到的高质量来源越多，它就越能被考虑。可靠的。我们使用类似于 Gyöngyi 等人的 TrustRank 机制。 (2004)) 跟踪每个源的质量。知名作者的文字和牛皮癣广告页面上的内容不会一概而论。不同的语境和表达方式反映了内容的思考和提炼。在展开的来源卡片中，我们使用术语“%d group context”，因为我们会聚合过于相似的来源，而这种相似性不仅仅是字面上的重复，而是上下文表达的接近程度。

　　普遍性：信息的普遍性，例如随时间的变化以及是否收录恶意或非法内容。任何做过搜索引擎或爬虫的人都必须知道，互联网上没有可信的日期。你只能确定某些内容一定在这次爬取之前已经出现过，但是页面上写的“一小时前发布”很可能是我骗你的。因此，Magi 不仅会尝试从内容中检测信息产生的时间，还会针对具有多种可能性的知识追踪起止时间和热点（例如工作变动和总统变动），并过滤一些噪音因此。普遍性自然也包括信息是否适合展示。由于人工智能本身几乎没有预先存在的常识和法律知识，当面对互联网上的混合信息时，它能够提取出与预期相去甚远的信息，甚至获得有害信息的可能性很小。 Magi 的数据积累速度很快，领域的范围让我们很难进行人工审核。目前，我们已经整合了多种方式来减少可能带来不良信息的内容源被用于学习的可能性，并将继续改进以确保 Magi 能够在其运营领域与相关部门合作，并遵守相关法律法规。为用户提供服务。

　　以上三个“C”是Magi衡量知识工程规模和准确性的量化标准，是提高信息覆盖率的基石。当然，只有覆盖面是不够的，及时性也很重要。一方面，及时性体现在上述对现有知识的时间跟踪上。另一方面，Magi 必须能够保持持续学习，并用尽可能少的时间来掌握新生成的知识和数据。为了以尽可能低的成本实现这个目标，我们没有使用臃肿的无头浏览器，而是（再次）从头开发了一个可扩展的基于流的分布式爬虫系统，支持最少，而 JavaScript 避免了很多无意义的性能开销和安全风险，它显着降低了 TCO。该系统作为共享数据池，还服务于Magi的知识提取、网页搜索、数据统计等组件。最后，Magi 不再周期性地触发批量更新，整个系统继续在线学习、聚合、更新和纠正错误，每一秒都在变化。事实上，热点新闻中的Magi信息一般在5分钟内即可获知。

　　下面的例子是小米MIX Alpha发布会的几张截图。这次小米在保密方面做得很好。一直没有剧透价格，所以更适合作为时效的例子：第一张截图是手机发布之后。 , Magi 从快速报告中学到了我们期望的知识；第二张截图又是10分钟后，可以看到积累了更多的源上下文，进一步提高了信息的可信度；第三张截图是在晚上，麦琪掌握了很多小米MIX Alpha的信息，我们关注的价格项目已经有了一定的可信度（绿色！）。

　　2019 年 9 月 24 日 16:45

　　2019 年 9 月 24 日 16:56

　　2019年9月24日21:52三、可塑性与国际化

　　本节主要介绍以下两点：

　　5.没有pre-NER和依赖解析等链接，减少父文本信息的丢失；

　　6. 技术栈完全独立于语言，实现低资源和跨语言转移。

　　如果想让程序实现Magi的能力，你的第一反应可能是依靠依赖解析等方法，或者抽象为序列标注，然后具体问题具体分析。之前我们也无一例外地选择了类似的解决方案，但是在达到一定的规模之后，很多问题开始出现。根本原因是链接的增加提高了抽象能力，同时丢失了有效信息。

　　不用担心 ResNet。我这里说的“链接”应该比较相似：举最简单的例子，当面对复杂的任务时，经典的做法是将segment、embed、NER、SRL、Dependency analysis等方法串联起来形成一个越来越窄的“沙漏”，其中后面的环节更接近最终的需求。这就带来了三个问题：第一，最明显的是误差的不可逆放大。后链接永远无法弥补前链接的错误。例如，一旦分词错误，依存分析算法再好也无法恢复；其次，比错误放大更隐蔽的是母文本信息的丢失。比如在Magi面临的任务中，上下文中的每个词可能同时扮演多个角色，每个角色出现的概率取决于另一个角色所形成的关系是否成立，如果划分链接过早，您将失去提取所有有效信息的机会；第三，链接越低，训练数据越少，采集整理成本越高，难以定制和服务垂直领域。当然，随着芝麻街小伙伴（ELMo、BERT、ERNIE）的走红，各种端到端的自然语言处理方案已经浮出水面，但实际上“链接”的概念并没有消失。 “链接”被特征表达、训练目标、内部网络结构等因素整体稀释为每一层的参数。

　　我们为 Magi 的提取模型设计了一个专用的注意力网络结构和几个支持预训练任务。具体来说，网络结构主要解决依赖复杂和搜索空间爆炸的问题，使得在长文本下高效、详尽地提取知识成为可能。预训练任务是对上述“链接”问题的新尝试。主要目标是淡化实体、谓词和域的约束，充分利用各种不同的训练数据，降低不断在线学习和修正过程中模型更新的成本。同时，模型的迁移能力也是我们关注的重点，包括跨语言和低资源情况。由于技术栈本身是完全独立于语言的，所以在设计预训练任务时，我们会专门“引导”并期望模型在相对较浅的层次上对语言有足够的抽象能力。为了验证这个设计，我们测试了零资源的情况：使用多语言语料预训练部分网络然后锁定权重，将输出作为特征结合中文样本训练最终的提取任务这个中文单语言模型在英文、日文和韩文的小规模基准测试中仍然取得了很高的准确率和不理想的召回率。值得指出的是，虽然日语与汉语共享部分字素，但词序却有显着差异（汉语是主语、谓语，日语是主语谓语）。其实网上能查到的外文网页的结构化知识，可以理解为这种类比。

　　为了节省算力，避免质量波动，后来只收录收录但不再学习外文网页

　　对于结构化样本稀缺的子行业应用，借助我们提供的图形化桌面软件 Ireul Studio，业务用户可以轻松标记和训练具有特定需求的模型。这个工具的界面类似于AutoML的实体识别训练界面，非常直观易用。只需注意标记的目标不仅仅是一个实体，而是一个完整的关系。在训练过程中，Magi 会同时使用积累的海量知识和专有的预训练数据，因此微调只需要少量样本即可服务于细分的垂直领域。

　　四、不足与展望

　　我们不能只谈论优点。以上的变化，其实也带来了新的麻烦，有的甚至比之前更难。一个典型的例子是消歧：

　　每组提取的信息都有一个上下文向量。在这个阶段，我们只是在足够相似的背景下合并信息。显然这种方法并不理想，但考虑到持续学习的场景，你需要格外小心。在不断学习的过程中，模型会不断更新，错误的旧数据会被淘汰。存放在数据库中的数据和新学习到的数据会不断合并，容易导致一致性问题，最终影响系统继续运行的能力。消歧太严格会产生很多支离破碎的版本，太松会混淆。老用户可能会发现不再提供多级查询。正是因为精确消歧是前提，我们正在努力完善这部分功能。

　　除了消歧之外，可靠性和及时性的纠葛也是各种信息检索或智能系统面临的难题。上面提到了新闻出来后很快就可以学到新知识，但是如果新知识和现有知识发生冲突，问题就复杂多了：也许是学了噪音，但也许事实已经改变了（比如工作变动，数据更新）。 Magi 的可信度算法同时依赖于质量和时间两个维度，所以会导致学习到很多新的东西，但是对于覆盖旧的事实不够自信，导致更新滞后。这涉及到很多经验参数，我们还在摸索中。

　　另一方面，我们认为模型和任务设计更复杂，但我们仍然对工程不满意。最明显的是，目前还无法在计算图的框架内实现我们需要的几个中间环节。一个宏观概念上可部署的“模型”需要分别训练3到4张图（当然好处是可以部分复用）。两者在freeze和quantize的时候可以放在一起，剩下的runtime是连通的，所以在inference的时候上下文切换和copy开销比较多。很多原因最终让这东西变得更加昂贵，无论是 CPU 还是 GPU，而且最小部署和在线推理也需要 6 个 Tesla T4。在速度和成本方面还有改进的空间。

　　当然，AI会犯错，尤其是我们“实验室里的人工智能，现实生活中的人工智能”——在NLP领域。在开发过程中，我们遇到了太多想笑的错误结果，有的甚至充满了禅意：

　　AI认识隔壁老王（截图为远古开发中的界面）

　　最后，我们会继续追求规模和准确性的突破，让 Magi 有资格成为知识的 ImageNet，直接或间接帮助更多人（和其他 AI）。在通往可解释人工智能的道路上发挥他们微薄的力量。

　　参考文献：Hendrickx, I., Kim, SN, Kozareva, Z., Nakov, P., Ó Séaghdha, D., Padó, S., ... & Szpakowicz, S.（2009 年，六月）。 Semeval -2010 任务 8：名词对之间语义关系的多向分类。在语义评估研讨会论文集：最近的成就和未来方向 (pp. 94-99). Association for Computational Linguistics.Crestan, E., & Pantel, P. (2011, 2 月). 网络规模表普查和分类。第四届 ACM 网络搜索和数据挖掘国际会议论文集 (pp. 545-554). ACM.Gyöngyi, Z., Garcia-Molina, H., & Pedersen, J. (2004, August ). 使用 trustrank 对抗网络垃圾邮件. 在第三十届超大型数据库国际会议论文集 - 第 30 卷 (pp. 576-587). VLDB Endowment.

　　感谢您阅读本文。事实上，这个答案怎么写并不重要。公开版没有广告，也没有钱。这是我们忍住的叹息。这是对长期支持我们的人的一个解释。如果你能感叹“这真是太棒了”，我觉得这几年的努力是值得的！

AI时代内容工厂

张立羽博士：Magi不依赖任何“知识库”

0 个评论

发起人