搜索引擎优化高级编程( IEEE特别研发报告的一部分:他们可能是巨人:技术转型的*敏*感*词*)

优采云 发布时间: 2021-10-21 05:39

  搜索引擎优化高级编程(

IEEE特别研发报告的一部分:他们可能是巨人:技术转型的*敏*感*词*)

  

  作品:罗伯特·刘易斯

  以下是IEEE Spectrum专题研究报告的部分内容:他们可能是巨人:技术变革的*敏*感*词*。

  还记得软件代理吗?我们自己的小软件机器人应该在万维网上代表我们。万维网形成了更多的信息,没有帮助的人无法过滤。代理商将了解我们的需求、偏好和兴趣。他们每天晚上搜索新闻和信息,为我们预订商务旅行,甚至为我们的下一份管理报告做初步研究。

  它从未发生过。这些机器人很难制造——事实上,太难了。毕竟,网页是为人类消费而设计的。单词确实有多种含义:关于“银行”的文件是关于省钱还是关于驾驶飞机?我们用来推导意义的线索——页面位置、上下文、图形和其他非文本元素——超出了任何软件代理的知识范围。互联网上一些最好的信息隐藏在数据库中,代理无法访问。

  现在,来自世界各地的研究人员委员会正在从另一个方向解决这个问题。他们想让网络更同质、更像数据、更容易被计算机理解——这样代理就不必那么聪明了。换句话说,如果网页可以收录它们自己的语义——如果我们有一个语义网——软件代理就不需要知道这些词背后的含义。

  但与此同时,互联网继续发展。到 1990 年代末,当时领先的搜索引擎 Altavista 只能索引 30% 的网络。搜索经常错过最突出的文档,搜索结果排名很差。随着时间的推移,谷歌带来了更好的索引引擎和更好的相关性排名。

  谷歌可以与互联网的惊人增长抗衡,但它能否满足用户的期望?今天说搜索引擎的人,其实“找到一些好的文件复合踝关节骨折”很快就会问他或她真的很想知道:“谁是我住的地方附近最好的整形外科医生,他们是否包括在我的医疗保险?”

  基于 html 的 Web 永远不会进行这样的查询。如果我们不能构建智能软件代理来浏览一个简单的网络,我们真的可以将智能构建到组成网络的 30 亿或 100 亿文档中吗?

  对于万维网的发明者蒂姆·伯纳斯-李来说,这听起来像是将山移到穆罕默德身上,但这并非不可能。第一步是在山脚下找到一个支点,然后将其抬起,现在已经开始了。这个支点是可扩展标记语言 (XML)。这种编码系统是一种“类固醇的 html”,它将网页底部可能收录的数十个甚至数百个数据元素隔离开来。目前,HTML 编码主要用于控制网页上文本和图像的外观和排列,因此只标记了少数元素,例如和。例如,使用新的 XML 标记

  , 软件代理可能可以比较不同网站 上的商店,或在电子购物后更新帐户分类帐。

  XML 是 Berners-Lee 及其组织万维网联盟的另一项发明,这并不奇怪。在法国瓦尔邦设有办事处;剑桥,麻;和东京,W3C 拥有 60 多名全职员工,聚集了大约 500 个成员组织。虽然IEEE计算机协会是其中之一,但其余大部分都是大中型公司,例如戴姆勒克莱斯勒[排名第4]“全球研发100强公司”[gm66nd]、惠普和欧洲*敏*感*词*(欧特克)。W3C 还协调来自成员和非成员公司和学术界的其他研究人员和志愿者的工作。

  语义网只是 W3C 多样化议程中的一项。其他是互操作性(例如文件格式)和信任技术,例如数字签名。但是语义网正变得越来越重要——四个利益集团正在研究它的技术。

  相似的目标,更简单的策略

  在 W3C 努力协调各个组织的工作的同时,其他公司正在克服面向人的 Web 的语义缺陷,既不重组 Web 也不等待更智能的代理。迄今为止,Google Inc.(位于加利福尼亚州山景城)不仅跟上了 Internet 的惊人增长,还在其搜索结果中添加了新的文档类别 pdf、Usenet 新闻组和图像文件。英国剑桥和加利福尼亚的帕洛阿尔托研究中心(最近从施乐分拆出来)都以不同的方式使用数学模型来研究长期大脑记忆如何从网页上的文本创建概念图。在 Verity Inc.,研究人员添加了组织*敏*感*词*和地址簿等内容,为凌乱的公司文档添加了额外的结构。

  换句话说,谷歌、Autonomy 和 Verity 等公司正在寻找更好的方法来完成搜索引擎一直试图做的事情:提供网络上关于给定主题的最佳文档。另一方面,语义网的支持者正在超越当前的网络,希望代理等搜索引擎不仅可以提供文档,还可以获取文档内的信息。每个人都同意的一件事是:即使有数十亿的页面和无数的链接,只有十几年历史的互联网仍处于起步阶段。正如 Berners-Lee 所说,下一代网络将与原创网络本身一样具有革命性。

  从文本到概念

  语义 Web 背后的想法是对现有 Web 技术的简单扩展,使文档更接近数据,以便代理可以以复杂的方式与它们交互。

  例如,URI(统一资源标识符)类似于 URL(统一资源定位器),但更笼统:URL(例如)是指向 Web 上实体的链接,而 URI 通常标识一个资源。(所有 URL 都是 uri,反之亦然。)对于 Berners-Lee 来说,图书馆中的人、公司和装订的书籍是资源,而不是“网络搜索”资源。

  XML 建立在第二种基本 Web 技术上:对文档中的元素进行编码。在目前的方案中,以HTML为例,作为文章的标题,作为粗体,作为表格的开头,仅以样式标识文档元素。但是,XML 将某些内容视为单独的数据元素——例如日期、价格、*敏*感*词*编号等。实际上,XML 允许用户标记任何数据元素。

  资源描述框架 (RDF) 是语义网的第三个组件。RDF 使得将一个 URI 与另一个 URI 相关联成为可能。它是关于实体的陈述,通常表达它们之间的关系。例如,RDF 可能表明一个人是另一个人的姐妹,或者新的拍卖出价高于当前的最高出价。计算机无法理解英语等语言中的常见句子,但计算机可以理解基于 rdf 的句子,因为 XML 提供了它们的语法——可以这么说,标记它们的词性。

  将所有其他元素联系在一起的语义 Web 概念是本体——相关 RDF 语句的集合,它们共同指定了数据元素之间的各种关系以及它们之间的逻辑推理方式。谱系学是本体论的一个例子。数据元素包括姓名、家庭关系(如姐妹关系和父母关系)和逻辑规则(如果X是Y的姐妹,Z是Y的女儿,那么X是Z的姑姑等)。

  “句法”、“语义”和“本体”是语言学和哲学的概念。然而,当语义网社区的理论家使用它们时,它们的含义并没有改变。句法是一组规则或模式,根据这些规则或模式,将单词组合成句子。语义是术语的含义——术语如何与真实事物相关。本体是对存在于特定话语宇宙(或哲学家认为的整个宇宙)中的事物类别的枚举。

  这些都是语义网的基石,从中我们可以看到下一个Web的广阔前景。在 Berners-Lee 去年为“科学美国人”撰写的一篇文章文章中,我们可以看到这些未来的场景。在其中一种情况下,您的母亲需要去看医学专家,因此您浏览器调用的软件代理会寻找潜在的供应商、保险范围、位置图和您的日程安排,并建议具体的医生和预约时间。

  Berners-Lee 说:“这在三到五年内不会发生。IEEE Spectrum。” 但到那时,许多会让我们的生活变得更轻松的小事将会发生。”他指出,今天的搜索引擎可能会根据链接医生的其他网页数量对描述医生的网页进行排名。但机构个性化搜索引擎可能会根据您关心的标准对它们进行排名:专业化、位置和保险计划覆盖范围。

  或者考虑一项基本的办公任务、参加现场会议的电子邮件邀请,以及在公司网页上查看会议详细信息的说明。今天,收件人接受邀请,然后将信息剪切粘贴到日历、行程单、发送给旅行社的电子邮件、旅行网站查询等中。

  “考虑另一种选择,”伯纳斯-李建议。“假设浏览器的语义 Web 部分说,'哦,我们有一个类型为会议的实体。' 您可以对此类任何内容执行一项操作,右键单击它并选择“接受约会”。”

  接受会议邀请的语义收录一些非常简单的规则,需要开始时间和结束时间。浏览器在 RDF 中查找规则并将它们转换成日历可以理解的词汇表。另外,在从*敏*感*词*中获取*敏*感*词*后,RDF还可以触发会议主持者*敏*感*词*的转移。在旅行网站上,已经输入了目的地、出发日期和返回日期。Berners-Lee 表示,只要消除所有的剪切和粘贴,就会带来巨大的好处。

  人们使用数百种不同的方式来表示日期和地点。只有当每个人都被识别出来时,软件才能从不同的网页和数据库中获取信息,并将其转换为约会和出发时间等信息。

  Berners-Lee 现在似乎有点尴尬,因为《科学美国人》文章 中的例子过于夸张。在另一个例子中,语义网负责在电话响起时降低收音机的音量,在第三个例子中,语义网负责预订整个商务旅行,包括会议出席、机票预订、酒店和汽车租赁。但负责 W3C 语义网技术工作和这篇文章 的合著者 Eric Miller 一点也不感到羞耻。

  米勒说:“也许网络代理无法预订您今天的整个商务旅行。” “总有一天会的。但我们现在采取的措施是值得的。如果你能在一个小时内完成所有的旅行安排,而不是半天,你可以获得更便宜的酒店价格,因为你的语义网代理已经注意到企业折扣,这是一个很大的帮助。”

  这些年来我一直在寻找

  当今网络搜索界的王者谷歌怀疑网络是否会被重塑,以便计算机可以自行导航。“这将非常困难,”谷歌搜索质量负责人彼得诺维格说。“提价是一种努力,必须得到回报。”Norvig 认为,大多数网页创建者没有动力去完成 XML 所要求的详细标记。他指出,大多数用户“甚至不会使用当今最简单的标记形式、文字处理样式,例如‘title’或‘body’ .' “他们没有添加结构,而是使用了 20 种粗体字体。”

  Norvig 承认 Web 的某些角落可能会使用 XML 编码和语义 Web 智能。他说:“比如汽车行业如果有买家联盟,就可以在电子商务领域腾飞。”

  乔纳森戴尔也在考虑汽车*敏*感*词*。Dale 是 W3C Web Ontology Group 的成员和研究员(W3C 的企业成员)。戴尔解释说,这家位于加利福尼亚州桑尼维尔的公司对供应链管理特别感兴趣。“比如福特自己不生产挡风玻璃,从下单到收到货的时间可以长达9个月。如果供应商做的不好,你可能会遇到真正的问题。如果你能,如果这个时间缩短到一个月,会有实实在在的好处。”

  制造数据、生产计划、交货和采购订单以及库存都涉及许多相同的实体,例如日期、重量和零件号。如果它们是同一本体的一部分,则信息可以在公司运营中跨数据库流动,例如采购和仓储,甚至可以跨公司流动,例如与供应商的*敏*感*词*和运输订单之间的流动。

  语义 Web 愿景的一个早期示例是 Amazon Inc. (Inc.) 创建数据库的 XML 版本的方式。一段时间以来,亚马逊提供了一些基本工具来装备另一个网站来创建一个 HTML 页面,列出亚马逊库存中的书籍,并创建一个购买清单以返回亚马逊网站。该公司现在为另一家公司的开发人员提供类似 rdf 的工具,以将亚马逊的购买与他们自己的购买相结合。因此,例如,公司可以创建一个购物车,其中收录从亚马逊订购的商品及其自己的目录。在越来越多的“Web 服务”术语下,IBM 的 WebSphere、Sun Microsystems 的 Open Net Environment 和 Microsoft 的。Net 提供了一种元开发工具,使亚马逊的工具包成为可能。

  IBM 研究员和 Guha RDF 的发明者之一预测:“在几年内,正如每家公司所拥有的那样,提供有关公司、其产品等的人类可读信息,它将或提供与机器中相同的信息-可读的形式。”

  智能搜索方式

  尽管语义网可能很有价值,但它不会取代常规的 Web 搜索。Palo Alto Research Center (PARC) 用户界面研究组首席科学家 Peter Pirori 指出,Web 查询程序的目标通常不是回答特定问题。Pirolli 说:“75% 的时间,人们都在做我们所谓的意义建构。” 以伯纳斯-李为例,他指出,如果有人被诊断出患有医疗问题,家人做的第一件事就是在线搜索一般信息。“他们只是想了解病情、可能的治疗方法等。”

  帕洛阿尔托研究中心的研究人员认为,网络搜索仍有很大的改进空间。他们称之为“分散/聚集”的一种方法是随机采集文档并将它们聚类成簇,每个簇由一个主题词表示,例如“药物”、“癌症”、“辐射”、“剂量”、“光束” ”。用户选择几个集群,然后软件重新分配和重新组合它们,直到用户得到一个特别想要的集合。据团队经理 Stuart Card 说,“用户可以在大约 15 分钟内获得一个有效的主题领域的心理模型,并且可以对一百万份文档的内容有一个很好的感觉。”

  该方法通过预先计算集合中每个词相对于其他词的值来工作。Card 说:“这个模型是一个贝叶斯网络,与描述人类大脑中长期记忆如何运作的模型相同。”

  当今互联网搜索界的王者谷歌质疑电脑能否自行浏览互联网

  根据这张长期记忆(和其他)的图片,神经元以加权的方式相互连接(由突触表示)。当一个神经活动模式同时收录两个神经元时,这些连接权重会增加。因此,经常连接的神经元可以相互激活。例如,如果您的杂货店将花生酱和面包放在同一个架子上,如果这是您常见的三明治组合,您可能会想到果冻。隐形果冻是一个激活的或相关的概念。如果给概念之间的联系赋予权重,模型也可以在概念空间中描述概念。概念空间是一种思考文档集合(例如万维网)中术语的方式。

  对于 Autonomy,贝叶斯网络是改进搜索的起点。该公司向通用汽车和爱立信等公司销售的技术核心是一种模式匹配引擎,可以区分同一术语的不同含义,并将其“理解”为概念。Autonomy 的系统指出,“工程师”一词有时会与“电”、“电”和“电子”等词一起出现,有时还会与“水泥”、“道路”和“液压”等词一起出现,因此可以将电气工程师与土木工程师分开。在某种程度上,Autonomy 构建了一个没有 XML 和 RDF 的本体。

  Autonomy 还使用其他技术,例如隐式分析,它可以跟踪员工在搜索 Internet 或公司文档和数据库时使用的一系列相关概念。当另一名员工搜索其中一个概念时,会推荐其他概念。或者,一个人认为有用的文档将成为另一个人的建议。甚至这个人也可以成为推荐人:“Jane 似乎在看同一件事,这是她的电子邮件地址。”

  另一家领先的搜索引擎公司是 Verity,其客户包括 Compaq 和 Ernst and Young。据该公司首席技术官 Prabhakar Raghavan 称,它还使用分析和其他技术来利用“社交网络的力量”。在他看来,搜索技术是一种在文档创建后为其增值的手段。“结构就是价值。当你浏览雅虎分类时,雅虎会添加结构。谷歌通过分析链接结构(到其他网站)来对页面进行排名。”

  因此,真实性通过添加更多结构来增加价值。例如,组织*敏*感*词*隐式链接信息片段。“同样,将一些文档归类为产品手册、英文文档或上周修改过的文档也会产生隐式链接,”Raghavan 说。他注意到,谷歌的网页排名方法(如果有其他文档链接到该文档,则该文档排名靠前)在企业中甚至行不通,因为企业中的大部分内容一开始都没有超链接。

  不过,Verity 和谷歌就一个问题达成了一致。与 Norvig 一样,Raghavan 也质疑公司和个人是否会花费大量金钱和精力来标记 XML 并详细构建 RDF。“Tim Berners-Lee 的观点非常好,”Raghavan 说。“如果每个人都遵循标准的标签计划,世界将是一个美好的地方。但历史告诉我们,个人利益与社会利益不一致。”

  具有讽刺意味的是,Verity 和 Autonomy 等语义技术可以降低这些成本。使其搜索工具如此强大的分类算法也可用于自动化 XML 标记。实际上,由于两个人可能不会将同一文档标记为完全相同,因此自动标记可能会更加一致。

  网上有100亿份文件吗?无人知晓这一事实表明,它仍然是一片狂野的边疆。随着网络继续以类似于摩尔定律的速度增长,它将需要来自语义网络和搜索公司的概念映射工具来驯服它。

  进一步的调查

  万维网联盟的语义网主页在。

  2001 年 5 月,Tim Berners-Lee、J. Hendler 和 O. Lassila 在语义网 文章 上发表了《科学美国人》。

  Palo Alto Research Center Inc. 使用分散/聚集方法来帮助人们理解特别感兴趣的文档。

  贝叶斯网络及其与 Web 搜索的关系在 Mark Lager 的“旋转 Web 搜索”中进行了讨论。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线