搜索引擎优化成功案例 加拿大西门菲莎大学教授裴健在第二届北京智源大会

优采云 发布时间: 2021-05-05 02:03

  搜索引擎优化成功案例

加拿大西门菲莎大学教授裴健在第二届北京智源大会

  

  作者|陈大新

  编辑|丛结束

  6月23日,加拿大西蒙弗雷泽大学的裴健教授在第二届北京致远会议上发表了题为“智能搜索:从工具到思维方式和思维方式”的报告。

  

  沛先生最近被选为加拿大工程院院士,现在的科学加拿大皇家学院和加拿大工程院院士。裴老师是国际著名的数据科学,数据挖掘和数据管理专家,专门研究数据策略制定,数据资产管理,数据资源集成以及数据产品设计和开发,以将数据和技术转化为业务能力和收益。他还是许多公司的顾问,提供高端战略咨询和技术咨询服务。他的作品被引用超过97,000次。有关裴健老师的更多信息,请参阅本文。北京致远会议是由致远研究院主办的年度国际高端人工智能学术交流活动。第一次会议于2019年举行,今年是第二次。会议官方网站:裴健老师在演讲中提出了三个核心要点:第一,搜索是智能的。搜索以人为核心以满足人们的信息需求,因此搜索自然收录智能组件。第二,智力就是全部搜索。我们必须使用搜索方法来获得情报。当前,人工智能的许多应用是搜索任务,智能和搜索对等体。第三,智能搜索不仅是纯粹的技术问题,而且还是与人有关的问题。我们必须共同努力,使每个人都不会落伍,让聪明的搜索服务于全人类。演讲结束时,中国人民大学教授,致远首席科学家温继荣与裴健老师进行了精彩的问答环节:智能搜索和智能推荐可能会比我们想象的更深刻地影响我们的日常生活。例如,如果您有一个问题,您对搜索的第一反应是什么?换句话说,您想获取什么信息,您将首次打开头条,微博,知乎之类的应用,然后再去看看对您有什么建议?进行搜索,推荐和数据分析的人员的责任非常重要。如果这方面做得不好,在极端情况下,它可能会改变我们的下一代,甚至改变人们的思维方式,并改变我们对世界的看法。一个人对整个世界的看法更多地取决于他所获得的信息和他的经验。

  如果我们的信息推送和用户检索的信息有问题,例如刚才提到的信息有偏见,例如推荐我看到的内容,那么我将进入信息减法的世界。我可能会失去更多了解世界的机会。通过精彩的演讲和问答环节,我们可以看到一些人文关怀和智能推荐或个性化推荐等技术的哲学反思。人文关怀:*敏*感*词*会不会因为不知道如何使用智能手机或计算机而无法享受智能搜索带来的好处吗?例如,由于无法达到智能搜索的门槛,残疾人,偏远地区和经济欠发达地区的人们会被逐渐抛弃吗?我们应该如何解决这些问题?哲学思考:随着我们越来越依赖智能搜索和个性化推荐,我们是否会失去更多了解世界的可能性?我们会失去原有的“自由意志”的一部分吗?我们已经驯化了这个信息流世界,还是被它驯化了?以下是裴健演讲的文字:今天我的报告的主题是智能搜索:从技术工具到思维。首先,让我们简要回顾一下搜索的基本概念。在搜索中,我们假设用户有信息需求。搜索系统通常无法直接理解用户的信息需求,因此用户会将信息需求转换为搜索系统的查询。搜索系统获取用户的查询并找到相应的结果(可能是某些文档,图片,图像或生成的内容),然后将其返回给用户。用户可以基于是否需要这些信息来生成相应的反馈,并且搜索系统根据用户的反馈确定是否需要增强搜索。这样的过程将继续循环,直到满足用户的信息需求,并且整个搜索过程结束为止。

  

  这个过程听起来完美而简单。但是实际上,搜索并非如此简单,它要比这复杂得多。

  1

  搜索很聪明。在现实生活中,“确定用户信息需求”的假设命题实际上是一个错误的命题。在许多情况下,用户的信息需求在不断变化。更麻烦的是,用户自己可能不知道他们的信息需求是什么。例如,如果我在某个社区听到新的新型肺炎感染病例,我发出了一个关于“新的冠状肺炎感染病例”的询问,那么我想问什么呢?用户可能不知道它。在许多情况下,用户可能会发送查询并首先要求查看搜索引擎返回什么样的信息。用户和搜索引擎之间的交互过程是一个探索过程,并且用户的信息需求在不断变化。在“新的冠状肺炎感染病例”示例中,用户可能想问这个感染病例是否已经得到治疗?感染病例的具体情况是什么?在查看了来自搜索引擎的答案之后,用户可以立即考虑这种感染病例对社区生活的影响,例如旅行和购物吗?您可以看到信息需求在不断变化,我们不能假设用户的信息需求在搜索过程中是恒定的。信息系统必须找到一种方式来理解用户的实际信息需求,并为用户提供探索工具。因此,搜索从一开始就很聪明,因为它使人们处于流程的中心。

  

  下面是一个示例,解释了为什么搜索过程是一个探索性过程。在VLDB-2019会议上,我的研究团队发表了有关社区搜索的文章文章。与许多现有的社区搜索任务不同,我们假设每个网络节点上都有一个数据库。如果网络节点是个人,则数据库可以是该个人过去购买的全部历史记录。如果网络节点是论文的作者,则此数据库是他先前已发表的所有论文的集合。我们担心如何在这样的网络中找到关联?

  

  我们希望社区成员不仅具有紧密的网络连接关系,而且数据库上的模式也非常相似。这样的社会有什么用?例如,在论文作者的数据网络上,用户可能会担心是否可以找到那些使用数据挖掘方法研究面部识别和图像检索的社区?我们的搜索首先形成了查询模式a1。

  

  同时,我们的搜索算法还可为a1提供各种改进,例如b 1、 b 2、至b8。在这些改进中,我们将专门研究每个特定的分支,包括算法特定的分支和问题特定的分支。这些分支机构为用户带来了探索的方向和探索的便利。这种探索可以走得更远。例如,b8可以进一步探索c 1、 c2的两种特定情况。整个过程是一个不断深化,不断实验,不断校正的探索过程。

  2

  情报就是搜索。搜索都是智能的。搜索需要大量的人工智能技术。因此,我们必须使用人工智能技术来了解用户的信息需求。同时,情报非常复杂,情报的每个任务都需要或多或少的搜索技术。什么是智力?智能是关于联系的,我们需要联系不同的数据和不同的知识点;智力与推理有关,我们需要对数据和知识进行推理;智力是关于泛化的,我们有特定的观察,我们希望通过一些特定的观察和特定的例子将其推广到一般法律。智力也需要具体,我们有一些通用的原则,我们需要将其应用于特定病例以改善特定病例的治疗效率和效果。所有这些都需要搜索相应的数据,搜索相应的知识并搜索相应的连接。因此,智力就是搜索,智力不能与搜索分离,智力必须通过搜索来实现。

  

  以下是我们KDD 2016论文中的一个示例,介绍了如何通过搜索实现知识发现。我们可以在WordNet网络上找到一些非常有趣的社会。每个社会都非常相似,并且社会成员之间有着紧密的联系。同时,这两个社会相互对立,相距甚远。

  

  当我们在形容词网络中使用此问题时,我们发现了每个人都在电影中看到的相反的群体,例如Group1和Group2,因此我们将其称为战争团伙。仔细观察一下,每个社区都是一组同义词组,并且Group1和Group2之间存在反义关系。我们使用智能搜索来带给我们新的知识,并且我们可以在单词网络上自动找到同义词和反义词。

  

  刚才我们说搜索是聪明的,而聪明就是搜索。因此,智能与搜索是分不开的。两者紧密集成,搜索和智能是对等的。这里有两个含义。首先,我们需要使用搜索技术来获得更好的人工智能。就像我刚才给出的示例一样,我们可以通过很好的搜索来自动发现知识。同时,我们需要使用大量的智能技术和计算方法来使搜索更加有效。这里的智能不仅是人工智能,而且还包括很多真实的人类智能,因为我们的最终搜索是针对人的。

  

  这里是一个例子。这是我们最近完成的一篇论文。我们正在研究基于Web规模的多语言问答系统。有很多问答系统,并且在许多商业搜索引擎中都有相应的问答功能。当用户提出一个问题(例如说他想知道感冒的症状)时,搜索引擎可以在下面图片的左侧汇总信息卡。该信息卡将列出相应的感冒症状,甚至是治疗方法。这给用户带来了很多便利,并且在一定程度上也是知识的提取和总结。

  

  当搜索引擎给出此类答案时,此答案是否满足用户的信息需求?这个答案的知识正确吗?它有用吗?我们希望从用户那里获得反馈,并且希望用户使用人工智能来帮助机器学习。这里是一个挑战。在许多情况下,用户已经阅读了答案,但不一定给出明确的反馈。了解人类反馈是一个非常复杂的过程。本文系统研究了如何观察和推理用户对搜索引擎给出的问答信息的反馈,如何挖掘用户行为,提取相应的反馈信号,并利用这些信号来完善我们的质量保证体系。

  

  上图是对全球商业搜索引擎数据集进行实验的结果。当我们的系统考虑到用户的真实已知反馈时,总体搜索效果比没有反馈的系统要好得多。同时,我们可以看到一个非常有趣的现象:通过这种智能搜索发现的知识可以在不同领域中转移。

  

  例如,在构建模型的过程中,我们使用了英语数据。在英文数据中,我们提取了相应的问题和答案以及相应的用户反馈。用英语找到的知识可以转移到其他语言,例如德语和法语。迁移的效果非常好。在法国数据集上,我们使用少量的大约5K数据来达到使用50K数据可以实现的效果,而无需跨语言迁移和反馈。换句话说,通过应用用户反馈,我们可以大大减少相应的数据需求。我们确实可以通过智能方法了解用户,并让用户使用人类智能来帮助我们的机器。我们的技术已在线应用于大型商业搜索引擎的多语言服务中。

  3

  智能搜索与人有关。因为搜索的主题是人,所以搜索不仅仅是一个技术问题。最近,《纽约时报》上有一篇非常好的文章文章,主题是Tech is global。正确的? :技术是全球性的,对吗?是的,技术是全球性的。

  

  本文文章讨论了许多先进的美国公司未在其他国家和地区使用相应的技术和平台的事实。其中涉及许多因素,尤其是许多与人相关的因素,例如本地化,可理解性,文化,公平性,隐私保护,模型复杂性,安全性等。如果要做好智能搜索,就必须仔细考虑人为因素。其中,深度学习模型的复杂性是一个重要因素。我们最近刚刚完成了有关KDD2020的论文,以在这方面进行一些探索。模型本身的复杂性是一个非常复杂的问题。在很多情况下,人们可以简单地比较两个模型或其他一些性能指标之间的准确性,但是即使两个模型的性能在测试集上完全相同,也并不意味着两个模型的本质是相同,但这并不意味着它们捕获了相同的客观现实。

  

  对于一个特定示例,上图中的两个模型在相应的数据点上完全相同,但是两个模型实际上相距很远。因此,我们需要一种系统的方法来测量模型的复杂性并测量模型是否适合数据。我们在KDD2020上的论文在这方面提供了一些新方法。与模型和搜索方法非常相关的另一个问题是可解释性。为了使模型赢得所有人的信任,它必须具有良好的可解释性。我们认为,该模型的可解释性必须满足两个原则。首先是准确性:如果我使用一个模型来解释另一个模型,则这两个模型在数学上必须等效。如果它们不相等,则解释可能会成问题。其次,对模型的解释必须是一致的。保持一致意味着什么?如果我有两个非常相似的示例,则它们相应的解释也应非常相似,以使其符合人类的直觉。可解释性问题的核心是将黑盒子变成白盒子。

  

  我们的KDD2018论文通过将深层网络转换为基于内部神经元状态的向量,给出了基于多表位的解释。以这种方式获得的解释是准确的:用数学方法解释的模型等效于原创的深层网络。同时,解释也相同:如果两个点非常接近并且落在相同的多义线上,则它们将遵循对应的相同线性分类器,因此它们的对应解释也将相同。

  

  在今年的ICDE论文中,我们将解释模型推向了云端。过去,解释工具经常需要了解整个模型的参数,甚至是许多相应的训练数据。在今年的ICDE论文中,我们建议将整个模型视为一个黑匣子,然后在不知道模型的参数和训练数据的情况下给出准确而一致的解释。这里的核心思想是:如果我们有多个示例,这些示例属于同一多核糖体,则它们应遵循相同的线性分类器,因此我们可以构建一个线性方程组,并以此为我们提供相应的解释。我们已经谈论了很多有关如何做好智能搜索的事情。但是我们应该充分认识到,智能搜索也在不断改变我们的想法。

  

  人们经常在国*敏*感*词*,使我们变得更聪明。但是在其他方面,我们可能过于依赖智能搜索,而智能搜索将在许多地方变得愚蠢。在这里,信息的准确性和公平性变得非常重要。在这种流行病中,我们都知道虚假信息是一个非常严重的问题。通过社交媒体的传播,许多流言and语和虚假消息已经产生了不良影响。 Twitter最近做了一件非常有趣的事情。他们使用一种简单聪明的方式来处理虚假新闻。他们观察到许多人在社交媒体上看到一个有趣的标题后将其重新发布,但没有阅读文章。因此,当您重新发布尚未看到内容的推文时,Twitter会提示用户尚未阅读本文文章。该技巧将有助于减少虚假新闻的传播。但是这种帮助是有代价的,它要求我们牺牲一定数量的隐私。 Twitter需要知道您所看到的内容,才能知道您是否看到了重新发布的内容。这里存在一个具有挑战性的平衡:我们需要保留哪种隐私以及如何阻止虚假新闻的传播。

  

  我们知道抖音在*敏*感*词*都很成功,并且出现了新一代人类,称为Tik TOK Generation。他们通过智能搜索和推荐技术将人与内容以及内容联系起来。 Tik TOK Generation和此类新媒体在内容创作中具有一些重要特征。其中之一是媒体本身的内容不是那么重要,但媒体的评论和后续行动将更为重要。人们经常访问许多新媒体,而不是看真实的内容,而是阅读随后的评论。随着智能搜索和智能推荐技术的发展,人与人之间的联系,内容与内容之间的联系以及人与内容之间的联系变得更加容易和广泛。许多人以前不需要彼此了解,但是通过这种智能搜索和智能推荐,他们将被连接在一起,形成长期的互动,从而导致了新一代的所谓的热情经济。

  

  与传统的零工经济相比,热情经济具有一系列新特征。例如,热心的经济从业者继续制作新的内容,并继续吸引更多的观众来获得相应的收入,这在许多以前的经济模型中是不可用的。同时,由于智能搜索,智能推荐和平台的连接,受众将大大提高。可以以更低的成本将更多创意产品和服务引入服务市场。这些也给我们带来了许多新的机遇和新的挑战。热情经济完全基于新技术,新软件和新媒体。智能搜索是热情经济的核心技术。通过技术进步,该平台将更有效,内容开发更便捷,企业家精神更快,企业家与受众之间的联系更加紧密,互动也更加便捷。智能搜索已彻底改变了我们的生活。可以说,智能搜索已成为我们无时无刻的需求和工具。智能搜索也将带来许多新挑战。核心挑战之一是我们如何确保智能搜索服务于社会上的每个人,并且没有人因各种限制而被智能搜索抛弃。

  

  例如,*敏*感*词*会因为无法使用智能手机而无法享受智能搜索带来的好处吗?再举一个例子,是否会因为没有达到智能搜索基础设施的门槛而将残疾人,偏远地区和经济欠发达地区的人们抛弃?这些都是我们需要考虑的问题。众所周知,当今医院经常需要使用智能手机进行预约,但是很多*敏*感*词*,特别是70、80、80和90年代的*敏*感*词*,没有使用智能手机,使用起来非常不便。他们如何获得信息渠道并消费这些信息?这些是我们进行智能搜索的方向,需要认真考虑并迅速采取行动。我个人认为,智能搜索不仅是一个技术问题,而且还不仅仅是一个人工智能问题。这是整个社会非常复杂的系统工程。

  问答环节Wen Jirong:对于智能搜索和智能推荐,所谓的智能就是越来越了解您,并以人为中心来了解您。它提供给您的信息越来越接近您过去的兴趣。和经验,但这会使您失去了解这个世界的多样性的可能性吗?从总体框架或整个研究方向来看,还有更深入的想法吗?裴健:智能搜索和智能推荐已经成为下一代人类重要的信息门户,它们也是非常重要的信息渠道。您只能搜索并掌握此入口和出口,它具有塑造人类未来的强大能力。这可能是每个人在开发技术时都没有深思的问题。我们的一点点技术贡献将如何改变人类未来学习,思考,认识和做事的方式?涉及许多问题。例如,我们可以通过适应性来提高我们的教育效率,使人更容易学习。但是,适应性可能会在一定程度上存在缺陷。如果我们过度适应人类的惯性,则可能会使一些最聪明的人失去挑战更高海拔的机会。再举一个例子,智能搜索的受众群体究竟能学到什么?如何确保整个环境的公平?每个人都开始思考,但是没有答案。最后,我还强调说,这不是一个简单的技术问题,对整个社会来说都是一个非常复杂的问题。观众问题:感觉像Google和百度这样的巨头已经形成了垄断,其他搜索引擎或其他新的搜索工具在多年之后却没有长大。对于正在研究智能搜索方向的人们来说,是否有更好的方法在这些大公司中工作?裴健:搜寻仍在不断创新。现在,所有商业搜索引擎最大的头痛是,越来越多的高质量信息不在开放的Internet上,而是在相对封闭的社交媒体上。

  例如,Moments中有许多高质量的信息源,但是一般的搜索引擎找不到这些信息源。如何整合这些信息源以形成更强大的搜索功能?这是一个有趣的研究方向。如今,许多搜索是结合广告和商业模式进行的,这些商业和商业模式都是以业务为导向并且以利润为导向。最近,两位Google前高管成立了一家新公司。该公司制造的搜索引擎Neeva声称将没有广告,它将开放一些社交媒体来扩大搜索范围。这些新的商业模式无论成功与否,都是非常有意义的尝试。从就业和企业家精神的角度来看,智能搜索具有广阔的前景。同时,智能搜索将涉及我们生活的方方面面。例如,如何在物联网环境中进行智能搜索?现有的通用网络搜索未涵盖这些内容,它们将非常有趣。温继荣:搜索引擎在其主要核心功能或形式上已经数十年没有改变。实际上,现在许多事情正在发生变化,例如裴老师提到的热情经济和国内的互联网名人。现在的经济非常有影响力。昨天,我读了一条新闻,说这很有趣。浙江省余姚区的互联网名人可被评为国家级创新型人才。实际上,世界正在迅速变化,并且可能很多时候您认为没有变化的空间,这将开始一个巨大的变化时期。就搜索而言,我觉得就直觉体验而言,它远未达到我们真正想了解的世界。在COVID-19期间,我想我甚至可以举行研讨会来讨论中间的许多问题。人们获得信息时会遇到很多问题。存在虚假信息和信息多样性的问题。这些信息对每个人的影响都是巨大的,您通常可以感觉到整个朋友圈都在转发和讨论消息。特别是人们不能在家面对面交谈。您可以通过控制信息来控制自己的意见和情绪。我认为这很重要。我们人类将在未来迈向更数字化的阶段。我们将从搜索和推荐的角度获取和处理信息。我认为我们已经进入了一个崭新的时期,我们需要探索。

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线