内部信息源与外部信息源搜索引擎优化方法的异同(三点常见误区:Magi不依赖任何“知识库”,它是一种的误导)
优采云 发布时间: 2021-10-28 17:03内部信息源与外部信息源搜索引擎优化方法的异同(三点常见误区:Magi不依赖任何“知识库”,它是一种的误导)
感谢您的关注,请允许我补充三个常见的误解:
Magi 不依赖任何“知识库”,它是一种从纯文本中自动构建最可靠知识图谱的技术。我们希望 Magi 可以帮助知识工程的规模化,让各种知识图谱不要过多依赖人工维护的数据库,如维基百科;我们的初衷不是做一个日常使用的网络搜索引擎,而是在互联网公共文本中应用Magi的提取。技术学习知识,并通过引入交叉验证和源质量机制来获得额外的统计数据,以进一步改进提取技术本身。甚至可以说,这个看似搜索引擎只是半监管周期的副产品……我忙不过来,为天气、日历、股票等锦上添花…… . 我希望你们所有的爬虫不要停止爬取我们的网页。是的,网页上显示的结果数量是有限的。您可以直接联系我们进行数据合作……而且Magi一直在自动学习。你今天赶上的明天可能已经过时;另外,我想对以下答案之一实名,请至少在评论之前了解其他人在做什么,“中间结果”,“聚合搜索”,“无监督=聚类”,“为下游提供转移学习=使用pre-trained models”等言论,从技术角度来看,显然是不负责任和误导性的。Magi 不断地自动学习。你今天赶上的明天可能已经过时;另外,我想对以下答案之一实名,请至少在评论之前了解其他人在做什么,“中间结果”,“聚合搜索”,“无监督=聚类”,“为下游提供转移学习=使用pre-trained models”等言论,从技术角度来看,显然是不负责任和误导性的。Magi 不断地自动学习。你今天赶上的明天可能已经过时;另外,我想对以下答案之一实名,请至少在评论之前了解其他人在做什么,“中间结果”,“聚合搜索”,“无监督=聚类”,“为下游提供转移学习=使用pre-trained models”等言论,从技术角度来看,显然是不负责任和误导性的。
首先感谢@张立羽博士一直以来的关注。四年没在网上写东西了,心里很紧张…… 写的琐碎,还请见谅。
本文只关注 Magi 在技术层面的演进。不想在知乎谈生意之类的。如果您有兴趣,请参阅 Magi 项目及其愿景或媒体报道。
这几年Magi的产品形态变化很大(请分别看Magi系统和这个搜索引擎),技术进步主要体现在以下几点:
能够在不使用 HTML 特性的情况下彻底提取重叠和交错的知识;无谓语/动词,实现真正意义上的“开放式”信息抽取;拥有自己的网络搜索引擎来评估来源质量,信息来源和领域不列入白名单;实时性显着提升,热点新闻发布后几分钟内即可搜索到结构化知识;没有pre-NER和依赖解析链接,减少了父文本信息的丢失;技术栈完全独立于语言,可以实现低资源和跨语言转移。买了这么生气的域名。
接下来分三部分来介绍,最后再解释一下自己做的不够好。由于我们无法详细介绍所有的技术原理和实现细节,为了避免被贴上吹牛的标签,我会尽量给出相应的证明:即如何通过公版来验证相应的特性,并且同时让看不懂技术的朋友们也可以直观的体验和理解。
搜索示例
它是如何工作的(灵魂手绘凑合看看...)一、 利用率和*敏*感*词*性
本节主要介绍以下两点:
1.可以在不使用HTML特征的情况下穷举重叠和交错的知识;
2. 不预设谓词/动词,实现真正的“开放式”信息抽取;
比如,通过阅读《美国总统特朗普的女婿库什纳担任白宫高级顾问一职》,人类至少可以看出以下关系:
美国 -> 总统 = 特朗普、特朗普 -> 女婿 = 库什纳、库什纳 -> 职位 = 白宫高级顾问、白宫高级顾问 ∈ 职位、白宫高级顾问 ⊆ 高级顾问、白宫高级顾问 ⊆ 顾问, ...
这对人类来说不算什么,但是计算机要获得上述能力是非常困难的。让我们先回顾一下历史:Hendrickx 等人。(2009)设计了信息关系抽取领域的经典任务SemEval-2010 Task 8,它规定了两个名词之间的九种语义关系,可以抽象为一个19类分类问题(2x9关系) +1 是不相关的。例如,“Member-采集”关系意味着一个实体是一个集合的成员。
事实上,几乎所有的信息抽取系统都需要显式或隐式预设这样的语义关系,这些语义关系以关键动词列表或隐式期望谓词的形式体*敏*感*词*融领域最常见的应用为例,具体产品只需要在公告中找出客户关心的信息,如“A投资B”、“C本季度收益[\d\. ,]+元""等关系可以提取关键信息;很多情况下,此类产品的候选实体{A, B, C, ...}都有预设库,也可以使用正则表达式对数字和其他信号,对于各个细分领域的行业应用,这样做可以在满足需求的同时,大大降低问题的复杂度。
然而,我们认为上述方案只是即兴和充分的。想一想,如果一个医疗领域的AI,在阅读文献的同时,阅读网友在各个健康论坛和问答平台的讨论,肯定能利用更多的背景资料给出更好的建议;一个金融信息抽取模型,如果你同时阅读各个行业的行业新闻,绝对可以避免很多常识性错误。把它变小,一个现实而残酷的问题是,子行业的结构化训练数据太少,而且策展成本高且速度慢,其专业性使得像图像分类这样的众包标注变得困难。
Magi 希望通过提高信息的利用率来带来改变。具体来说,Magi 不再依赖预设的规则和字段,“毫无问题”地学习和理解互联网上的文本信息,同时尽可能多地找到所有信息(穷尽),而不是只选择最好的(最有希望的) )。对于我们人类来说,当面对一个不熟悉的文章时,即使覆盖了大量专有名词和术语,我们仍然可以通过语法和语言习惯,根据上下文来判断覆盖内容的粗糙程度。逻辑。同样地,Magi 通过一系列预训练任务和扰动来淡化与特定实体或领域相关的概念,转而学习“人们可能会关注内容中的哪些信息?”,并故意在精确度和召回率之间偏向后者。增加“意外但有意义的噪音”的机会,为后续的半监督过程提供条件。我们花了四年时间为 Magi 设计特殊的特征表达、网络模型、训练任务和系统平台(如下所述),并投入大量精力逐步构建专有的训练/预训练数据。Magi 通过终身学习不断聚合和纠正错误,为人类用户和其他人工智能提供分析、可搜索和可追溯的知识系统。普通用户可以随时体验公版,以文本的形式检索和查看知识,而程序可以选择通过DSL或矢量化的方式访问Magi更广泛的结构化网络。
同时,我们不再使用 HTML 标签特性,直接处理纯文本。众所周知,HTML 标签信息可以提供额外的语义信号,使信息提取更加清晰。Crestan 等人的一项调查。(2011)显示大约75%的页面有表格。排除那些用于导航和排版的表格,还有12%的表格具有语义价值。可见只有通过HTML表格挖掘,才有很多有意义的但研究也表明,互联网上易于处理的信息只是沧海一粟。很多公司的文档,论文的主体,社交平台的内容,Magi想要提高信息的利用率,但它注定要走出 HTML 的舒适区。这种能力是我们 Magi for Enterprise 服务的普遍先决条件。
搜索“systemic lupus erythematosus”,可以看到从相同的来源。而且,每个源网页中都没有有意义的表格等有用的HTML标签,这证明我们完全使用纯文本作为模型的输入内容。需要指出的是,Magi 的学习是不断自动进行的。有些知识可能会被系统判断为不可靠而被淘汰,也可能学到新的知识(或噪音),所以我们不能保证您在尝试搜索时看到的结果是否仍然可以作为证据。以下屏幕截图是在 11 时拍摄的:
红色、*敏*感*词*和绿色代表了 Magi二、 覆盖率和及时性给出的可信评级等级
本节主要介绍以下两点:
3. 与自己的网络搜索引擎合作,评估来源的质量,没有信息来源和领域的白名单;
4. 显着提高实时性,热点新闻发布后几分钟内,即可搜索结构化知识;
用户最终能到达的信息=模型信息的利用率x输入信息的覆盖率。上面提到的通用性是在模型和算法层面提取属性,真正提供有价值的服务,还需要数据支持。公版致力于从互联网信息中寻找有价值的数据,让埋藏在线路中的知识有机会进入各种知识图谱,同时作为背景知识进行迁移学习,提升线上定制化服务垂直场。
然而,互联网语料的质量参差不齐,抄袭拼接、自动生成、恶意篡改等行为会造成大量的事实错误,甚至可能使模型在不断的学习和调整过程中变得越来越差。对于这类问题,最简单也是最常用的解决办法就是建立可信来源的白名单机制,比如只学习权威媒体和专业提供商的内容,而忽略类似社交平台或自媒体@的UGC来源>. 白名单机制确实可以避免很多麻烦,但也会丢失很多有价值的信息,尤其是在一些边缘、亚文化、非权威的领域。Magi 最重要的目标之一是扩展,因此白名单机制是不可接受的。
为此,我们投入了大量的时间和精力,从零开始开发了一套网络搜索引擎(没有使用开源解决方案,另见铁杆用户问答)。一方面是为了补充展示,更重要的是。向 Magi 提供所需的统计数据。对于任何知识,Magi 都会综合各种不同的信号进行评估,主要包括:
清晰度:源文本中表达的信息的清晰度和客观性。清晰度不仅包括文本本身语义的准确性,还包括Magi提取模型认知的激活强度(可以粗略理解为AI认为正确的概率)。在语义层面上,一般侧重于语气是否中性平和、上下文是否消极、文本是否与练习题的问句相似等,再加上更多难以描述清楚但有内涵的信号。被模型掌握了,比如整个文章是不是巨魔。提取出的模型的激活强度可以直观的理解为Magi对自己读到的信息有一定的把握。当然,人工智能会犯错,魔术师也不例外。一般来说,当上下文冗长复杂、表达晦涩、主题和参考不明确时,Magi 更容易出错,并且会产生一些误报。幸运的是,学习过程是连续的,当 Magi 从其他地方学习到更可靠的信息时,这些错误会被过滤或修复。
可信度:可以交叉验证的来源的数量、质量和相关性。在学术领域,一篇论文的引用次数越多,其影响力就越大;在网络搜索中,一个网址的反向链接越多,其重要性就越高。关于知识,我们认为某个事实表达的上下文越多,其正确性和传播性就越强。值得注意的是,网络上存在大量的转载、抄袭和重复,所以我们进一步将其定义为:对于某个事实,在不同语境和表达方式中提到的高质量来源越多,它就越能被考虑。可靠的。我们使用类似于 Gyöngyi 等人的 TrustRank 机制。(2004)跟踪每个来源的质量。知名作者的文字和牛皮癣广告页面上的内容不会一概而论。不同的语境和表达方式体现了内容的思考和提炼。在展开的源卡中,我们使用了“%d组上下文”这个词,正是因为我们会将过于相似的源进行聚合,而这种相似不仅仅是字面上的重复,而是上下文表达的接近程度。
天主教性:信息的普遍性,例如随时间的变化以及是否收录恶意或非法内容。任何做过搜索引擎或爬虫的人都必须知道,互联网上没有可信的日期。你只能确定某些内容一定在这次爬取之前已经出现过,但是页面上写的“一小时前发布”很可能是我骗你的。因此,Magi 不仅会尝试从内容中检测信息产生的时间,还会针对具有多种可能性的知识追踪起止时间和热点(例如工作变动和总统变动),并过滤一些噪音因此。普遍性自然也包括信息是否适合展示。因为人工智能本身几乎没有预先存在的常识和法律知识,当面对互联网上的混合信息时,小概率会提取出与预期相去甚远的信息,甚至获取有害信息。Magi 的数据积累速度很快,领域的范围让我们很难进行人工审核。目前,我们已经整合了多种方式来减少可能带来不良信息的内容源被用于学习的可能性,并将继续改进以确保 Magi 能够在其运营领域与相关部门合作,并遵守相关法律法规。为用户提供服务。Magi 的数据积累速度很快,领域的范围让我们很难进行人工审核。目前,我们已经整合了多种方式来减少可能带来不良信息的内容源被用于学习的可能性,并将继续改进以确保 Magi 能够在其运营领域与相关部门合作,并遵守相关法律法规。为用户提供服务。Magi 的数据积累速度很快,领域的范围让我们很难进行人工审核。目前,我们已经整合了多种方式来减少可能带来不良信息的内容源被用于学习的可能性,并将继续改进以确保 Magi 能够在其运营领域与相关部门合作,并遵守相关法律法规。为用户提供服务。
以上三个“C”是Magi衡量知识工程规模和准确性的量化标准,是提高信息覆盖率的基石。当然,只有覆盖面是不够的,及时性也很重要。一方面,及时性体现在上述对现有知识的时间跟踪上。另一方面,Magi 必须能够保持持续学习,并用尽可能少的时间来掌握新生成的知识和数据。为了以尽可能低的成本实现这个目标,我们没有使用臃肿的无头浏览器,而是(并且双重)从头开始开发了一个可扩展的基于流的分布式爬虫系统,最小的支持虽然 JavaScript 避免了很多毫无意义的性能开销和安全风险,它显着降低了 TCO。作为共享数据池,该系统还服务于 Magi 的知识提取、网络搜索、数据统计等组件。最后,Magi 不再周期性地触发批量更新,整个系统继续在线学习、聚合、更新和纠正错误,每一秒都在变化。事实上,Magi 可以在 5 分钟内了解热门新闻中的信息。
下面的例子是小米MIX Alpha发布会的几张截图。这次小米在保密方面做得很好。一直没有剧透价格,所以更适合作为时效的例子:第一张截图是手机发布之后。一个快速的报告学到了我们期望的知识;第二张截图又是10分钟后,可以看到积累了更多的源语境,进一步提高了信息的可信度;第三张截图是当天晚上,麦琪掌握了很多小米MIX Alpha的信息,我们关注的价格有一定的可信度(绿色!)。
2019 年 9 月 24 日 16:45
2019 年 9 月 24 日 16:56
2019年9月24日21:52三、 可塑性与国际化
本节主要介绍以下两点:
5. 没有pre-NER、依赖解析等链接,减少父文本信息的丢失;
6. 技术栈完全独立于语言,可以实现低资源跨语言传输。
如果你想让程序实现Magi的能力,你的第一反应可能是依靠依赖解析等方法,或者抽象为序列标注,然后具体问题具体分析。之前我们也无一例外地选择了类似的解决方案,但是到了一定的规模之后,很多问题就开始出现了。根本原因是链接的增加提高了抽象能力,同时丢失了有效信息。
不要担心 ResNet。我这里说的“链接”应该比较相似:举个最简单的例子,当面对复杂的任务时,经典的做法是segment,embed,NER,SRL,以及依赖分析。这些方法串联起来,形成一个越来越窄的“沙漏”,其中后面的环节更接近最终的需求。这就带来了三个问题:第一,最明显的是错误的不可逆放大。后链接永远无法弥补前链接的错误。例如,一旦分词错误,依存分析算法再好也无法恢复;其次,比错误放大更隐蔽的是母文本信息的丢失。比如在Magi面临的任务中,上下文中的每个词都可能同时扮演多个角色,每个角色出现的概率取决于对方角色形成的关系是否建立,如果过早划分链接,就会失去机会提取所有有效信息;第三,链接越低,训练数据越少,采集整理成本越高,难以定制和服务垂直领域。当然,随着芝麻街小伙伴(ELMo、BERT、ERNIE)的走红,各种端到端的自然语言处理方案已经浮出水面,但实际上,“链接”的概念并没有消失。“链接”被特征表达、训练目标、内部网络结构等因素整体稀释为每一层的参数。并且每个角色出现的概率取决于其他角色所形成的关系是否建立,如果过早划分链接,将失去提取所有有效信息的机会;第三,链接越低,训练数据越少,采集整理成本越高,难以定制和服务垂直领域。当然,随着芝麻街小伙伴(ELMo、BERT、ERNIE)的走红,各种端到端的自然语言处理方案已经浮出水面,但实际上,“链接”的概念并没有消失。“链接”被特征表达、训练目标、内部网络结构等因素整体稀释为每一层的参数。并且每个角色出现的概率取决于其他角色所形成的关系是否建立,如果过早划分链接,将失去提取所有有效信息的机会;第三,链接越低,训练数据越少,采集整理成本越高,难以定制和服务垂直领域。当然,随着芝麻街小伙伴(ELMo、BERT、ERNIE)的走红,各种端到端的自然语言处理方案已经浮出水面,但实际上,“链接”的概念并没有消失。“链接”被特征表达、训练目标、内部网络结构等因素整体稀释为每一层的参数。
我们为 Magi 的提取模型设计了一个专用的注意力网络结构和几个支持预训练任务。具体来说,网络结构主要解决依赖复杂和搜索空间爆炸的问题,使得在长文本下提取高效的详尽知识成为可能。预训练任务是对上述“链接”问题的新尝试。主要目标是淡化实体、谓词和域的约束,充分利用各种不同的训练数据,降低不断在线学习和修正过程中模型更新的成本。同时,模型的迁移能力也是我们关注的重点,包括跨语言和低资源情况。由于技术栈本身是完全独立于语言的,在设计预训练任务时,我们会专门“引导”并期望模型在相对较浅的层次上对语言有足够的抽象能力。为了验证这个设计,我们测试了零资源的情况:使用多语言语料预训练部分网络然后锁定权重,将输出作为特征结合中文样本训练最终的提取任务. 这个中文单语言模型在英文、日文和韩文的小规模基准测试中仍然取得了很高的准确率和不理想的召回率。值得指出的是,虽然日语与汉语共享部分字素,但词序却有显着差异(汉语是主语、谓语,日语是主语谓语)。实际上,
为了节省算力,避免质量波动,后来只收录收录索引但不再学习外文网页
对于结构化样本稀缺的子行业应用,借助我们提供的图形化桌面软件 Ireul Studio,企业用户可以轻松标记和训练具有特定需求的模型。这个工具的界面类似于AutoML的实体识别训练界面,非常直观易用。只需注意标记的目标不仅仅是一个实体,而是一个完整的关系。在训练过程中,Magi 会同时使用积累的海量知识和专有的预训练数据,因此只需要少量样本进行微调即可服务于细分的垂直领域。
四、 缺点和前景
我们不能只谈优点。上述变化其实也带来了新的麻烦,有的甚至比之前更加困难。一个典型的例子是消歧:
每组提取的信息都有一个上下文向量。在这个阶段,我们只在足够相似的上下文下合并信息。显然这种方法并不理想,但考虑到持续学习的场景,你需要格外小心。在不断学习的过程中,模型会不断更新,错误的旧数据会被淘汰。存放在数据库中的数据和新学习到的数据会不断合并,容易导致一致性问题,最终影响系统继续运行的能力。消歧太严格会产生很多支离破碎的版本,太松会混淆。老用户可能会发现不再提供多级查询。正是因为精确消歧是前提,
除了消歧之外,可靠性和及时性的纠葛也是各种信息检索或智能系统面临的难题。上面提到了新闻出来后很快就可以学到新知识,但是如果新知识和现有知识发生冲突,问题就复杂多了:也许是学了噪音,但也许事实已经改变了(比如工作变动,数据更新)。Magi 的可信度算法同时依赖于质量和时间两个维度,所以会导致学习到很多新的东西,但是对于覆盖旧的事实不够自信,导致更新滞后。这涉及到很多经验参数,我们还在探索中。
另一方面,我们认为模型和任务设计更复杂,但我们仍然对工程不满意。最明显的是,目前还无法在计算图的框架内实现我们需要的中间环节。一个宏观概念上可部署的“模型”需要分别训练3到4张图(当然好处是可以部分复用)。两者在freeze和quantize的时候可以放在一起,剩下的runtime是连通的,所以在inference的时候上下文切换和copy开销比较多。很多原因最终让这东西变得更加昂贵,无论是 CPU 还是 GPU,而且最小部署和在线推理也需要 6 个 Tesla T4。在速度和成本方面还有改进的余地。
当然,AI会犯错,尤其是我们“实验室里的人工智能,现实生活中的人工智能”——在NLP领域。在开发过程中,我们遇到了太多想笑的错误结果,有的甚至充满了禅意:
AI认识隔壁老王(截图为远古开发界面)
最后,我们会继续追求规模和精度上的突破,让 Magi 有资格成为知识渊博的 ImageNet,直接或间接帮助更多的人(和其他 AI),甚至,我的意思是,甚至,导致可解释的发挥他们微薄的力量在人工智能的道路上。
参考文献:Hendrickx, I., Kim, SN, Kozareva, Z., Nakov, P., Ó Séaghdha, D., Padó, S., ... & Szpakowicz, S.(2009 年,六月)。Semeval-2010 任务 8:名词对之间语义关系的多向分类。在语义评估研讨会论文集:最近的成就和未来方向(第 94-9 页9)。计算语言学协会。Crestan, E., & Pantel, P.(2011 年,2 月)。网络规模表普查和分类。第四届 ACM 网络搜索和数据挖掘国际会议论文集 (pp. 545-554). ACM.Gyöngyi, Z., Garcia-Molina, H., & Pedersen, J. (2004 年,8 月)。使用 trustrank 打击垃圾邮件。在第 30 届超大型数据库国际会议论文集 - 第 30 卷(第 576-58 页7)。VLDB Endowment。
感谢您阅读这里。实际上,这个答案怎么写并不重要。公开版没有广告,也没有钱。这是我们忍住的叹息。这是对长期支持我们的人的一个解释。如果你能感叹“这真是太棒了”,我觉得这几年的努力是值得的!