
内部信息源与外部信息源搜索引擎优化方法的异同
内容分享:SEO搜索引擎优化涉及的内容非常广泛
网站优化 • 优采云 发表了文章 • 0 个评论 • 161 次浏览 • 2022-09-24 19:15
SEO搜索引擎优化涉及的内容范围非常广泛,绝不是在页面上堆放几个关键词那么简单。进行关键字研究以了解学习者对主题内容的需求,网站内容已被扩展以更好地满足学习者的需求。
良好的网站结构和内链有助于提升用户体验,页面优化也让用户更容易掌握关键内容。 网站流量分析和策略改进基于强调用户体验优化的基本原则网站。与相关主题学习网站建立良好的外链关系,有助于相同或相似主题网站的用户更有效地互动,丰富和拓展学习者更有效、更便捷地获取主题知识掌握。可以说,专业学习网站SEO的全过程就是为了让网站更好更强。
可能有人认为专门学习的SEO网站违反了搜索引擎自主选择资源的原则。事实上,合理合法的白帽 SEO 是搜索引擎的“最佳伴侣搜索引擎”。为了给在线学习者提供有效的学习资源,有必要寻找信息来源。基于主题的学习网站旨在对搜索引擎友好、易于收录、内容丰富、主题突出,可以为SEO搜索引擎获取信息源提供便利,满足学习者的信息需求。及时。搜索引擎的有效性和实用价值会得到学习者的信任和肯定。相反,如果一个特定的研究网站是用不容易收录创建的技术构建的,搜索引擎也可能会陷入混乱。
各大SEO搜索引擎从来没有反对过网站SEO。谷歌非常支持白帽搜索引擎优化,专门安排了一批员工在博客、论坛和社交网络上发布信息和回答问题,并积极参与搜索引擎营销行业会议,以各种方式指导站长。搜索引擎SEO优化。
近年来各大门户网站网站对SEO优化人员的需求和肯定都增加了。对此,服务于在线学习的专题学习网站也应以符合SEO要求、体现专题学习策略的方式进行优化构建,更好地发挥其学习价值,而专题学习 设计公司,网站制作公司,全站优化!
最新版本:SEO搜索引擎优化:基础、案例与实战(第2版)
本书系统地介绍了搜索引擎优化(SEO)的方法。全书共分11章,包括SEO概述、搜索引擎概述、SEO准备工作、网站关键词的优化、网站的结构优化、网站@的页面优化>、网站内容优化、网站优化、常用SEO工具、数据监控分析、移动网站SEO。本书内容丰富,实战性强。以数据思维为指导,用成功的实际案例进行讲解。不仅可以让读者了解SEO的基本知识,还可以帮助读者掌握SEO的使用方法,提高网站的排名和排名。流动的方法。
【推荐】
1.根据网站优化实施的思路和核心流程展示,全面介绍有效的SEO实战技术,精选知识内容。 2. 专注实战。没有长篇的理论描述,更多的是写实操技巧。 3. 丰富的例子和练习,易教易学。 4. 大量图标和视频,一目了然,通俗易懂。
【作者】
杨仁、程鹏、姚亚峰(主编)罗世轩、闫涵(副主编)。作者的团队既有长期从事高职电子商务专业网络营销教学的教师,也有具有丰富实践经验的搜索引擎优化人员。 查看全部
内容分享:SEO搜索引擎优化涉及的内容非常广泛
SEO搜索引擎优化涉及的内容范围非常广泛,绝不是在页面上堆放几个关键词那么简单。进行关键字研究以了解学习者对主题内容的需求,网站内容已被扩展以更好地满足学习者的需求。
良好的网站结构和内链有助于提升用户体验,页面优化也让用户更容易掌握关键内容。 网站流量分析和策略改进基于强调用户体验优化的基本原则网站。与相关主题学习网站建立良好的外链关系,有助于相同或相似主题网站的用户更有效地互动,丰富和拓展学习者更有效、更便捷地获取主题知识掌握。可以说,专业学习网站SEO的全过程就是为了让网站更好更强。

可能有人认为专门学习的SEO网站违反了搜索引擎自主选择资源的原则。事实上,合理合法的白帽 SEO 是搜索引擎的“最佳伴侣搜索引擎”。为了给在线学习者提供有效的学习资源,有必要寻找信息来源。基于主题的学习网站旨在对搜索引擎友好、易于收录、内容丰富、主题突出,可以为SEO搜索引擎获取信息源提供便利,满足学习者的信息需求。及时。搜索引擎的有效性和实用价值会得到学习者的信任和肯定。相反,如果一个特定的研究网站是用不容易收录创建的技术构建的,搜索引擎也可能会陷入混乱。
各大SEO搜索引擎从来没有反对过网站SEO。谷歌非常支持白帽搜索引擎优化,专门安排了一批员工在博客、论坛和社交网络上发布信息和回答问题,并积极参与搜索引擎营销行业会议,以各种方式指导站长。搜索引擎SEO优化。
近年来各大门户网站网站对SEO优化人员的需求和肯定都增加了。对此,服务于在线学习的专题学习网站也应以符合SEO要求、体现专题学习策略的方式进行优化构建,更好地发挥其学习价值,而专题学习 设计公司,网站制作公司,全站优化!
最新版本:SEO搜索引擎优化:基础、案例与实战(第2版)
本书系统地介绍了搜索引擎优化(SEO)的方法。全书共分11章,包括SEO概述、搜索引擎概述、SEO准备工作、网站关键词的优化、网站的结构优化、网站@的页面优化>、网站内容优化、网站优化、常用SEO工具、数据监控分析、移动网站SEO。本书内容丰富,实战性强。以数据思维为指导,用成功的实际案例进行讲解。不仅可以让读者了解SEO的基本知识,还可以帮助读者掌握SEO的使用方法,提高网站的排名和排名。流动的方法。

【推荐】
1.根据网站优化实施的思路和核心流程展示,全面介绍有效的SEO实战技术,精选知识内容。 2. 专注实战。没有长篇的理论描述,更多的是写实操技巧。 3. 丰富的例子和练习,易教易学。 4. 大量图标和视频,一目了然,通俗易懂。

【作者】
杨仁、程鹏、姚亚峰(主编)罗世轩、闫涵(副主编)。作者的团队既有长期从事高职电子商务专业网络营销教学的教师,也有具有丰富实践经验的搜索引擎优化人员。
建房产找中介加上大单位销售人员,百度的视频课程
网站优化 • 优采云 发表了文章 • 0 个评论 • 89 次浏览 • 2022-09-02 15:03
内部信息源与外部信息源搜索引擎优化方法的异同百度的视频课程课件/julaolai/523577457.html?frm=real-estate+veteran和正规中介机构合作你所在城市有没有中介机构总部,如果有的话,百度搜索“这家”,联系他们,填写你的销售地址与真实姓名,确定靠谱以后会给你一个官方网站的(这个,很多中介机构进网门槛相对较低,造成机构滥用市场资源)。
有些中介,会自行搜索,去一些专业社区里面发布资源,免费发布的,作用大一些。via建房产找中介加上大单位销售人员。
您好!我们有个大单位的销售人员,合作过一次,但不是很多,可以加微信,详细了解一下。
上海润筑建筑设计有限公司,
对于找中介是大家普遍遇到的问题,给大家谈一下心得体会:1.花钱找个专业公司帮助看房肯定会省心省力,但是大部分中介公司都是提前销售一楼的楼栋,客户在购房成功后才会跟你沟通你报的小区情况2.在网上找一个口碑可靠的,售后服务相对可靠一些,如果你因为个人原因看不了房了,是可以及时跟中介沟通的;3.自己对房产也不是非常了解,也不知道找一个真正的销售是否靠谱,中介不是说靠谱不靠谱,销售看他们的素质,你不要轻易相信的你不懂的信息,要对他们有个基本的了解,比如刚需购房者,必须真正合适你的才是最好的,其次品牌性的的中介公司肯定比小作坊质量好一些,毕竟是国家认证的4.中介费其实现在一直都没有涨到让人无法接受的地步,小几万甚至几万都可以接受,毕竟现在开发商收你中介费基本上都是找中介公司代理你去签约;5.现在金融信贷已经比较普遍,贷款的额度还是很大的,可以通过贷款来解决这个问题,按揭买房必须要找正规中介公司,一旦找到不靠谱的就糟心啦,肯定会拒绝你的,可以一定要亲自过去看看。 查看全部
建房产找中介加上大单位销售人员,百度的视频课程
内部信息源与外部信息源搜索引擎优化方法的异同百度的视频课程课件/julaolai/523577457.html?frm=real-estate+veteran和正规中介机构合作你所在城市有没有中介机构总部,如果有的话,百度搜索“这家”,联系他们,填写你的销售地址与真实姓名,确定靠谱以后会给你一个官方网站的(这个,很多中介机构进网门槛相对较低,造成机构滥用市场资源)。

有些中介,会自行搜索,去一些专业社区里面发布资源,免费发布的,作用大一些。via建房产找中介加上大单位销售人员。
您好!我们有个大单位的销售人员,合作过一次,但不是很多,可以加微信,详细了解一下。

上海润筑建筑设计有限公司,
对于找中介是大家普遍遇到的问题,给大家谈一下心得体会:1.花钱找个专业公司帮助看房肯定会省心省力,但是大部分中介公司都是提前销售一楼的楼栋,客户在购房成功后才会跟你沟通你报的小区情况2.在网上找一个口碑可靠的,售后服务相对可靠一些,如果你因为个人原因看不了房了,是可以及时跟中介沟通的;3.自己对房产也不是非常了解,也不知道找一个真正的销售是否靠谱,中介不是说靠谱不靠谱,销售看他们的素质,你不要轻易相信的你不懂的信息,要对他们有个基本的了解,比如刚需购房者,必须真正合适你的才是最好的,其次品牌性的的中介公司肯定比小作坊质量好一些,毕竟是国家认证的4.中介费其实现在一直都没有涨到让人无法接受的地步,小几万甚至几万都可以接受,毕竟现在开发商收你中介费基本上都是找中介公司代理你去签约;5.现在金融信贷已经比较普遍,贷款的额度还是很大的,可以通过贷款来解决这个问题,按揭买房必须要找正规中介公司,一旦找到不靠谱的就糟心啦,肯定会拒绝你的,可以一定要亲自过去看看。
seo信息优化方法的异同性搜索引擎优化师内部信息源大曝光!
网站优化 • 优采云 发表了文章 • 0 个评论 • 100 次浏览 • 2022-08-21 13:03
内部信息源与外部信息源搜索引擎优化方法的异同性搜索引擎优化师内部信息源大曝光!(seo信息优化网站建设成本要投入多少钱/seo培训机构现在的价格/seo优化客户之间该怎么选择/如何花最少的钱快速提升站点的排名)
odera不可信,作弊太多,相比的话google优化还是可靠的。
我个人认为,国内可信度最高的还是百度。不过全中国只有一家的效果就是非常不好。这个数据没有任何意义,数据说明不了什么。
我来说一个成功的案例吧,我今年春节期间在常州学习的一个微信公众号公开课。然后录制了一整套教学视频。公开课所有嘉宾都会学习一遍教程,然后我听了一遍,只记得好像是有一个叫什么卓越加分点咨询的工作人员,在职位我记得是一个高级seo专家。好像是,我看了一下,好像说3天内来到我们公司工作的学员,就可以获得他们的推荐,会得到他们的佣金。
(老实说他们公司老板真的很豪爽,他们说帮他们招生赚100w)如果真的这么好赚,为什么会在某些行业发现很多机会,而有些行业不赚钱呢?说实话,市场很大,你真的一点机会都没有。分割线---。 查看全部
seo信息优化方法的异同性搜索引擎优化师内部信息源大曝光!
内部信息源与外部信息源搜索引擎优化方法的异同性搜索引擎优化师内部信息源大曝光!(seo信息优化网站建设成本要投入多少钱/seo培训机构现在的价格/seo优化客户之间该怎么选择/如何花最少的钱快速提升站点的排名)

odera不可信,作弊太多,相比的话google优化还是可靠的。
我个人认为,国内可信度最高的还是百度。不过全中国只有一家的效果就是非常不好。这个数据没有任何意义,数据说明不了什么。

我来说一个成功的案例吧,我今年春节期间在常州学习的一个微信公众号公开课。然后录制了一整套教学视频。公开课所有嘉宾都会学习一遍教程,然后我听了一遍,只记得好像是有一个叫什么卓越加分点咨询的工作人员,在职位我记得是一个高级seo专家。好像是,我看了一下,好像说3天内来到我们公司工作的学员,就可以获得他们的推荐,会得到他们的佣金。
(老实说他们公司老板真的很豪爽,他们说帮他们招生赚100w)如果真的这么好赚,为什么会在某些行业发现很多机会,而有些行业不赚钱呢?说实话,市场很大,你真的一点机会都没有。分割线---。
内部信息源与外部信息搜索引擎优化方法的异同
网站优化 • 优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2022-08-13 12:23
内部信息源与外部信息源搜索引擎优化方法的异同我们常用的词汇做seo,就需要首先了解seo需要了解什么知识,就需要了解什么是词汇,什么是我们要了解的其他的词汇。那么我就一一的来介绍下:chinesecentralknowledge是中国的一些基本知识titlewords:因为我们要分析了解很多关键词都是怎么搜的,所以用这个来表示。
有什么好处呢?就是可以我们可以从词汇的深度挖掘来进行采集。我们一般都是通过关键词然后结合我们的产品或者标签来进行一个词汇的搜索。这个是最基本的玩法,比如关键词:内容。我们搜索的词汇都是一些虚拟的相关的内容,其他的类型,比如体育,我们发现有很多的相关的可以进行采集。所以说如果是想做关键词,我们一定要通过这种搜索方式,很多时候通过搜索,是可以发现一些东西。
2.brazilianknowledge(bk):来自香港的一些基本知识whois查询。来自::比如网站是来自怎么样的一个域名,网站的com域名是怎么样的一个是。根据我们的网站去whois我们可以去发现一些信息。也可以根据很多的平台去发现一些联系方式等等。3.redirectlink(rtl):看网站一些引用别人网站的链接,来来源的一些头衔是怎么样的网站。
一般都是可以去发现网站的一些引用的一些渠道。再一个就是百度在做搜索推广的时候也会跟我们的搜索有很多的联系。也是需要关注那些内容来源以及来源方式,百度一般不会被查询到。我们这边就说到了一些,不好意思不排除一些,有些客户实际上会问我一些细节,比如说你能不能去谷歌里面面试,是不是可以就是看你的whois可不可以去认证。
这个是非常的正常的一个,有的时候是确实是这样子的。最后总结下来我们要了解很多的基本知识,然后去分析用户的一些关键词的一些需求,再去去筛选一些网站的相关内容,最后我们确定怎么样的方法的一个优化方式。大家最好都去加一下学习公开课等等,用到seo的一些相关方面,才可以更加有针对性,从而更加的有效果。感谢看到这篇文章的朋友,您能够帮忙转发,添加一下小编的微信,所有的知识在带领大家学习!。 查看全部
内部信息源与外部信息搜索引擎优化方法的异同
内部信息源与外部信息源搜索引擎优化方法的异同我们常用的词汇做seo,就需要首先了解seo需要了解什么知识,就需要了解什么是词汇,什么是我们要了解的其他的词汇。那么我就一一的来介绍下:chinesecentralknowledge是中国的一些基本知识titlewords:因为我们要分析了解很多关键词都是怎么搜的,所以用这个来表示。

有什么好处呢?就是可以我们可以从词汇的深度挖掘来进行采集。我们一般都是通过关键词然后结合我们的产品或者标签来进行一个词汇的搜索。这个是最基本的玩法,比如关键词:内容。我们搜索的词汇都是一些虚拟的相关的内容,其他的类型,比如体育,我们发现有很多的相关的可以进行采集。所以说如果是想做关键词,我们一定要通过这种搜索方式,很多时候通过搜索,是可以发现一些东西。
2.brazilianknowledge(bk):来自香港的一些基本知识whois查询。来自::比如网站是来自怎么样的一个域名,网站的com域名是怎么样的一个是。根据我们的网站去whois我们可以去发现一些信息。也可以根据很多的平台去发现一些联系方式等等。3.redirectlink(rtl):看网站一些引用别人网站的链接,来来源的一些头衔是怎么样的网站。

一般都是可以去发现网站的一些引用的一些渠道。再一个就是百度在做搜索推广的时候也会跟我们的搜索有很多的联系。也是需要关注那些内容来源以及来源方式,百度一般不会被查询到。我们这边就说到了一些,不好意思不排除一些,有些客户实际上会问我一些细节,比如说你能不能去谷歌里面面试,是不是可以就是看你的whois可不可以去认证。
这个是非常的正常的一个,有的时候是确实是这样子的。最后总结下来我们要了解很多的基本知识,然后去分析用户的一些关键词的一些需求,再去去筛选一些网站的相关内容,最后我们确定怎么样的方法的一个优化方式。大家最好都去加一下学习公开课等等,用到seo的一些相关方面,才可以更加有针对性,从而更加的有效果。感谢看到这篇文章的朋友,您能够帮忙转发,添加一下小编的微信,所有的知识在带领大家学习!。
XLNet : 运行机制及和 Bert 的异同比较
网站优化 • 优采云 发表了文章 • 0 个评论 • 103 次浏览 • 2022-07-31 19:37
出品社区:DataFun
注:文末有惊喜,等你呦。
这两天,XLNet 貌似也引起了 NLP 圈的极大关注,从实验数据看,在某些场景下,确实 XLNet 相对 Bert 有很大幅度的提升。就像我们之前说的,感觉 Bert 打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而 XLNet 就是其中比较引人注目的一位。当然,我估计很快我们会看到更多的这个模式下的新工作。未来两年,在两阶段新模式 ( 预训练 + Finetuning ) 下,应该会有更多的好工作涌现出来。根本原因在于:这个模式的潜力还没有被充分挖掘,貌似还有很大的提升空间。当然,这也意味着 NLP 在未来两年会有各种技术或者应用的突破,现在其实是进入 NLP 领域非常好的时机。原因有两个,一个是 NLP 正面临一个技术栈大的改朝换代的时刻,有很多空白等着你去填补,容易出成绩;另外一点,貌似 Bert+Transformer 有统一 NLP 各个应用领域的趋向,这意味着此时进入 NLP 领域,具备学习成本非常低的好处,和之前相比,投入产出比非常合算。这是两个原因。当然,即使如此,想要学好 NLP ,持续的精力投入是必不可少的。有句老话说得好:“永恒的爱大约持续三个月”,这句话其实对于很多对 NLP 感兴趣的同学也成立:“对 NLP 的永恒的热情大约能够持续3到5天”,希望真的有兴趣的同学能坚持一下,起码持续7到8天,凑够一个星期…..
那么 XLNet 和 Bert 比,有什么异同?有什么模型方面的改进?在哪些场景下特别有效?原因又是什么?本文通过论文思想解读及实验结果分析,试图回答上述问题。
首先,XLNet 引入了自回归语言模型以及自编码语言模型的提法,这个思维框架我觉得挺好的,可以先简单说明下。
自回归语言模型 ( Autoregressive LM )
在 ELMO / BERT 出来之前,大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词,这种类型的 LM 被称为自回归语言模型。GPT 就是典型的自回归语言模型。ELMO 尽管看上去利用了上文,也利用了下文,但是本质上仍然是自回归 LM ,这个跟模型具体怎么实现有关系。ELMO 是做了两个方向 ( 从左到右以及从右到左两个方向的语言模型 ) ,但是是分别有两个方向的自回归 LM ,然后把 LSTM 的两个方向的隐节点状态拼接到一起,来体现双向语言模型这个事情的。所以其实是两个自回归语言模型的拼接,本质上仍然是自回归语言模型。
自回归语言模型有优点有缺点,缺点是只能利用上文或者下文的信息,不能同时利用上文和下文的信息,当然,貌似 ELMO 这种双向都做,然后拼接看上去能够解决这个问题,因为融合模式过于简单,所以效果其实并不是太好。它的优点,其实跟下游 NLP 任务有关,比如生成类 NLP 任务,比如文本摘要,机器翻译等,在实际生成内容的时候,就是从左向右的,自回归语言模型天然匹配这个过程。而 Bert 这种 DAE 模式,在生成类 NLP 任务中,就面临训练过程和应用过程不一致的问题,导致生成类的 NLP 任务到目前为止都做不太好。
自编码语言模型 ( Autoencoder LM )
自回归语言模型只能根据上文预测下一个单词,或者反过来,只能根据下文预测前面一个单词。相比而言,Bert 通过在输入 X 中随机 Mask 掉一部分单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被 Mask 掉的单词,如果你对 Denoising Autoencoder 比较熟悉的话,会看出,这确实是典型的 DAE 的思路。那些被 Mask 掉的单词就是在输入侧加入的所谓噪音。类似Bert这种预训练模式,被称为 DAE LM 。
这种 DAE LM 的优缺点正好和自回归 LM 反过来,它能比较自然地融入双向语言模型,同时看到被预测单词的上文和下文,这是好处。缺点是啥呢?主要在输入侧引入 [Mask] 标记,导致预训练阶段和 Fine-tuning 阶段不一致的问题,因为 Fine-tuning 阶段是看不到 [Mask] 标记的。DAE 吗,就要引入噪音,[Mask] 标记就是引入噪音的手段,这个正常。
XLNet 的出发点就是:能否融合自回归 LM 和 DAE LM 两者的优点。就是说如果站在自回归 LM 的角度,如何引入和双向语言模型等价的效果;如果站在 DAE LM 的角度看,它本身是融入双向语言模型的,如何抛掉表面的那个 [Mask] 标记,让预训练和 Fine-tuning 保持一致。当然,XLNet 还讲到了一个 Bert 被 Mask 单词之间相互独立的问题,我相信这个不太重要,原因后面会说。当然,我认为这点不重要的事情,纯粹是个人观点,出错难免,看看就完了,不用较真。
XLNet 做了些什么
上文说过,Bert 这种自编码语言模型的好处是:能够同时利用上文和下文,所以信息利用充分。对于很多 NLP 任务而言,典型的比如阅读理解,在解决问题的时候,是能够同时看到上文和下文的,所以当然应该把下文利用起来。在 Bert 原始论文中,与 GPT1.0 的实验对比分析也可以看出来,BERT 相对 GPT 1.0 的性能提升,主要来自于双向语言模型与单向语言模型的差异。这是 Bert 的好处,很明显,Bert 之后的改进模型,如果不能把双向语言模型用起来,那明显是很吃亏的。当然,GPT 2.0 的作者不信这个邪,坚持沿用 GPT 1.0 单向语言模型的旧瓶,装进去了更高质量更大规模预训练数据的新酒,而它的实验结果也说明了,如果想改善预训练语言模型,走这条扩充预序列模型训练数据的路子,是个多快好但是不省钱的方向。这也进一步说明了,预训练 LM 这条路,还远远没有走完,还有很大的提升空间,比如最简单的提升方法就是加大数据规模,提升数据质量。
但是 Bert 的自编码语言模型也有对应的缺点,就是 XLNet 在文中指出的,第一个预训练阶段因为采取引入 [Mask] 标记来 Mask 掉部分单词的训练模式,而 Fine-tuning 阶段是看不到这种被强行加入的 Mask 标记的,所以两个阶段存在使用模式不一致的情形,这可能会带来一定的性能损失;另外一个是,Bert 在第一个预训练阶段,假设句子中多个单词被 Mask 掉,这些被 Mask 掉的单词之间没有任何关系,是条件独立的,而有时候这些单词之间是有关系的,XLNet 则考虑了这种关系(关于这点原因是否可靠,后面会专门分析)。
上面两点是 XLNet 在第一个预训练阶段,相对 Bert 来说要解决的两个问题。
其实从另外一个角度更好理解 XLNet 的初衷和做法,我觉得这个估计是 XLNet 作者真正的思考出发点,是啥呢?就是说自回归语言模型有个缺点,要么从左到右,要么从右到左,尽管可以类似 ELMO 两个都做,然后再拼接的方式。但是跟 Bert 比,效果明显不足够好(这里面有 RNN 弱于 Transformer 的因素,也有双向语言模型怎么做的因素)。那么,能不能类似 Bert 那样,比较充分地在自回归语言模型中,引入双向语言模型呢?因为 Bert 已经证明了这是非常关键的一点。这一点,想法简单,但是看上去貌似不太好做,因为从左向右的语言模型,如果我们当前根据上文,要预测某个单词 Ti ,那么看上去它没法看到下文的内容。具体怎么做才能让这个模型:看上去仍然是从左向右的输入和预测模式,但是其实内部已经引入了当前单词的下文信息呢?XLNet 在模型方面的主要贡献其实是在这里。
那么 XLNet 是怎么做到这一点的呢?其实思路也比较简洁,可以这么思考:XLNet 仍然遵循两阶段的过程,第一个阶段是语言模型预训练阶段;第二阶段是任务数据 Fine-tuning 阶段。它主要希望改动第一个阶段,就是说不像 Bert 那种带 Mask 符号的 Denoising-autoencoder 的模式,而是采用自回归 LM 的模式。就是说,看上去输入句子 X 仍然是自左向右的输入,看到 Ti 单词的上文 Context_before ,来预测 Ti 这个单词。但是又希望在 Context_before 里,不仅仅看到上文单词,也能看到 Ti 单词后面的下文 Context_after 里的下文单词,这样的话,Bert 里面预训练阶段引入的 Mask 符号就不需要了,于是在预训练阶段,看上去是个标准的从左向右过程,Fine-tuning 当然也是这个过程,于是两个环节就统一起来。当然,这是目标。剩下是怎么做到这一点的问题。
那么,怎么能够在单词 Ti 的上文中 Contenxt_before 中揉入下文 Context_after 的内容呢?你可以想想。XLNet 是这么做的,在预训练阶段,引入 Permutation Language Model 的训练目标。什么意思呢?就是说,比如包含单词 Ti 的当前输入的句子 X ,由顺序的几个单词构成,比如 x1,x2,x3,x4 四个单词顺序构成。我们假设,其中,要预测的单词 Ti 是 x3 ,位置在 Position 3 ,要想让它能够在上文 Context_before 中,也就是 Position 1 或者 Position 2 的位置看到 Position 4 的单词 x4 。可以这么做:假设我们固定住 x3 所在位置,就是它仍然在 Position 3 ,之后随机排列组合句子中的4个单词,在随机排列组合后的各种可能里,再选择一部分作为模型预训练的输入 X 。比如随机排列组合后,抽取出 x4,x2,x3,x1 这一个排列组合作为模型的输入 X 。于是,x3 就能同时看到上文 x2 ,以及下文 x4 的内容了。这就是 XLNet 的基本思想,所以说,看了这个就可以理解上面讲的它的初衷了吧:看上去仍然是个自回归的从左到右的语言模型,但是其实通过对句子中单词排列组合,把一部分 Ti 下文的单词排到 Ti 的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是从左到右在预测后一个单词。
当然,上面讲的仍然是基本思想。难点其实在于具体怎么做才能实现上述思想。首先,需要强调一点,尽管上面讲的是把句子 X 的单词排列组合后,再随机抽取例子作为输入,但是,实际上你是不能这么做的,因为 Fine-tuning 阶段你不可能也去排列组合原始输入。所以,就必须让预训练阶段的输入部分,看上去仍然是 x1,x2,x3,x4 这个输入顺序,但是可以在 Transformer 部分做些工作,来达成我们希望的目标。具体而言,XLNet 采取了 Attention 掩码的机制,你可以理解为,当前的输入句子是 X ,要预测的单词 Ti 是第 i 个单词,前面1到 i-1 个单词,在输入部分观察,并没发生变化,该是谁还是谁。但是在 Transformer 内部,通过 Attention 掩码,从 X 的输入单词里面,也就是 Ti 的上文和下文单词中,随机选择 i-1 个,放到 Ti 的上文位置中,把其它单词的输入通过 Attention 掩码隐藏掉,于是就能够达成我们期望的目标(当然这个所谓放到 Ti 的上文位置,只是一种形象的说法,其实在内部,就是通过 Attention Mask ,把其它没有被选到的单词 Mask 掉,不让它们在预测单词 Ti 的时候发生作用,如此而已。看着就类似于把这些被选中的单词放到了上文 Context_before 的位置了)。具体实现的时候,XLNet 是用“双流自注意力模型”实现的,细节可以参考论文,但是基本思想就如上所述,双流自注意力机制只是实现这个思想的具体方式,理论上,你可以想出其它具体实现方式来实现这个基本思想,也能达成让Ti看到下文单词的目标。
这里简单说下“双流自注意力机制”,一个是内容流自注意力,其实就是标准的 Transformer 的计算过程;主要是引入了 Query 流自注意力,这个是干嘛的呢?其实就是用来代替 Bert 的那个 [Mask] 标记的,因为 XLNet 希望抛掉 [Mask] 标记符号,但是比如知道上文单词 x1,x2 ,要预测单词 x3 ,此时在 x3 对应位置的 Transformer 最高层去预测这个单词,但是输入侧不能看到要预测的单词 x3 ,Bert 其实是直接引入 [Mask] 标记来覆盖掉单词 x3 的内容的,等于说 [Mask] 是个通用的占位符号。而 XLNet 因为要抛掉 [Mask] 标记,但是又不能看到 x3 的输入,于是 Query 流,就直接忽略掉 x3 输入了,只保留这个位置信息,用参数 w 来代表位置的 embedding 编码。其实 XLNet 只是扔了表面的 [Mask] 占位符号,内部还是引入 Query 流来忽略掉被 Mask 的这个单词。和 Bert 比,只是实现方式不同而已。
上面说的 Attention 掩码,我估计你还是没了解它的意思,我再用例子解释一下。Attention Mask 的机制,核心就是说,尽管当前输入看上去仍然是 x1->x2->x3->x4 ,但是我们已经改成随机排列组合的另外一个顺序 x3->x2->x4->x1 了,如果用这个例子用来从左到右训练 LM ,意味着当预测 x2 的时候,它只能看到上文 x3 ;当预测 x4 的时候,只能看到上文 x1 和 x2 ,以此类推……这样,比如对于 x2 来说,就看到了下文 x3 了。这种在输入侧维持表面的 X 句子单词顺序,但是其实在 Transformer 内部,看到的已经是被重新排列组合后的顺序,是通过 Attention 掩码来实现的。如上图所示,输入看上去仍然是 x1,x2,x3,x4 ,可以通过不同的掩码矩阵,让当前单词 Xi 只能看到被排列组合后的顺序 x3->x2->x4->x1 中自己前面的单词。这样就在内部改成了被预测单词同时看到上下文单词,但是输入侧看上去仍然维持原先的单词顺序了。关键要看明白上图右侧那个掩码矩阵,我相信很多人刚开始没看明白,因为我刚开始也没看明白,因为没有标出掩码矩阵的单词坐标,它的坐标是1-2-3-4,就是表面那个 X 的单词顺序,通过掩码矩阵,就能改成你想要的排列组合,并让当前单词看到它该看到的所谓上文,其实是掺杂了上文和下文的内容。这是 attention mask 来实现排列组合的背后的意思。
上面讲的 Permutation Language Model 是 XLNet 的主要理论创新,所以介绍的比较多,从模型角度讲,这个创新还是挺有意思的,因为它开启了自回归语言模型如何引入下文的一个思路,相信对于后续工作会有启发。当然,XLNet 不仅仅做了这些,它还引入了其它的因素,也算是一个当前有效技术的集成体。感觉 XLNet 就是 Bert、GPT 2.0 和 Transformer XL 的综合体变身,首先,它通过 PLM 预训练目标,吸收了 Bert 的双向语言模型;然后,GPT2.0 的核心其实是更多更高质量的预训练数据,这个明显也被 XLNet 吸收进来了;再然后,Transformer XL 的主要思想也被吸收进来,它的主要目标是解决 Transformer 对于长文档 NLP 应用不够友好的问题。
以上是 XLNet 的几个主要改进点,有模型创新方面的,有其它模型引入方面的,也有数据扩充方面的。那么,这些因素各自起到了什么作用呢?在后面我们会谈。在谈不同因素各自作用之前,我们先分析下 XLNet 和 Bert 的异同问题。
与 Bert 的预训练过程的异同问题
尽管看上去,XLNet 在预训练机制引入的 Permutation Language Model 这种新的预训练目标,和 Bert 采用 Mask 标记这种方式,有很大不同。其实你深入思考一下,会发现,两者本质是类似的。区别主要在于:Bert 是直接在输入端显示地通过引入 Mask 标记,在输入侧隐藏掉一部分单词,让这些单词在预测的时候不发挥作用,要求利用上下文中其它单词去预测某个被 Mask 掉的单词;而 XLNet 则抛弃掉输入侧的 Mask 标记,通过 Attention Mask 机制,在 Transformer 内部随机 Mask 掉一部分单词(这个被 Mask 掉的单词比例跟当前单词在句子中的位置有关系,位置越靠前,被 Mask 掉的比例越高,位置越靠后,被 Mask 掉的比例越低),让这些被 Mask 掉的单词在预测某个单词的时候不发生作用。所以,本质上两者并没什么太大的不同,只是 Mask 的位置,Bert 更表面化一些,XLNet 则把这个过程隐藏在了 Transformer 内部而已。这样,就可以抛掉表面的 [Mask] 标记,解决它所说的预训练里带有 [Mask] 标记导致的和 Fine-tuning 过程不一致的问题。至于说 XLNet 说的,Bert 里面被 Mask 掉单词的相互独立问题,也就是说,在预测某个被 Mask 单词的时候,其它被 Mask 单词不起作用,这个问题,你深入思考一下,其实是不重要的,因为 XLNet 在内部 Attention Mask 的时候,也会 Mask 掉一定比例的上下文单词,只要有一部分被 Mask 掉的单词,其实就面临这个问题。而如果训练数据足够大,其实不靠当前这个例子,靠其它例子,也能弥补被 Mask 单词直接的相互关系问题,因为总有其它例子能够学会这些单词的相互依赖关系。
我相信,通过改造 Bert 的预训练过程,其实是可以模拟 XLNet 的 Permutation Language Model 过程的:Bert 目前的做法是,给定输入句子 X ,随机 Mask 掉15%的单词,然后要求利用剩下的85%的单词去预测任意一个被 Mask 掉的单词,被 Mask 掉的单词在这个过程中相互之间没有发挥作用。如果我们把 Bert 的预训练过程改造成:对于输入句子,随机选择其中任意一个单词 Ti ,只把这个单词改成 Mask 标记,假设 Ti 在句子中是第 i 个单词,那么此时随机选择 X 中的任意 i 个单词,只用这 i 个单词去预测被 Mask 掉的单词。当然,这个过程理论上也可以在 Transformer 内采用 attention mask 来实现。如果是这样,其实 Bert 的预训练模式就和 XLNet 是基本等价的了。
或者换个角度思考,假设仍然利用 Bert 目前的 Mask 机制,但是把 Mask 掉15%这个条件极端化,改成,每次一个句子只 Mask 掉一个单词,利用剩下的单词来预测被 Mask 掉的单词。那么,这个过程其实跟 XLNet 的 PLM 也是比较相像的,区别主要在于每次预测被 Mask 掉的单词的时候,利用的上下文更多一些(XLNet 在实现的时候,为了提升效率,其实也是选择每个句子最后末尾的 1/K 单词被预测,假设 K=7 ,意味着一个句子 X ,只有末尾的 1/7 的单词会被预测,这意味着什么呢?意味着至少保留了 6/7 的 Context 单词去预测某个单词,对于最末尾的单词,意味着保留了所有的句子中 X 的其它单词,这其实和上面提到的 Bert 只保留一个被 Mask 单词是一样的)。或者我们站在 Bert 预训练的角度来考虑 XLNet ,如果 XLNet 改成对于句子 X ,只需要预测句子中最后一个单词,而不是最后的 1/K ( 就是假设 K 特别大的情况 ) ,那么其实和 Bert 每个输入句子只 Mask 掉一个单词,两者基本是等价的。
当然,XLNet 这种改造,维持了表面看上去的自回归语言模型的从左向右的模式,这个 Bert 做不到,这个有明显的好处,就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息。所以看上去,XLNet 貌似应该对于生成类型的 NLP 任务,会比 Bert 有明显优势。另外,因为 XLNet 还引入了 Transformer XL 的机制,所以对于长文档输入类型的 NLP 任务,也会比 Bert 有明显优势。
哪些因素在起作用?
如上分析,XLNet 有个好处,但是感觉同时也是个问题,那就是:XLNet 其实同时引入了很多因素在模型里。说是好处,因为实验证明了这样效果确实好,即使是跟 Bert_Large 这种非常强的基准模型比也是,尤其是长文档任务,这个效果提升比较明显;说是问题,是因为其实应该在实验部分充分说明,如果模型起了作用,这些因素各自发挥了多大作用,尤其是在跟 Bert 进行对比的时候,感觉应该把数据规模这个变量磨平进行比较,因为这才是单纯的模型差异导致的性能差异,而不是训练数据量引发的差异。当然,XLNet 最后一组实验是把这个预训练数据规模差异磨平后,和 Bert 比较的,所以信息含量更大些。而前面的几组实验,因为天然存在预训练数据量的差异,所以模型导致的差异到底有多大,看得不太明显。引入了 Transformer-XL 的主要思路:相对位置编码以及分段 RNN 机制。实践已经证明这两点对于长文档任务是很有帮助的。
我们上文提到过,XLNet 起作用的,如果宏观归纳一下,共有三个因素;
1. 与 Bert 采取 De-noising Autoencoder 方式不同的新的预训练目标:Permutation Language Model ( 简称 PLM ) ;这个可以理解为在自回归 LM 模式下,如何采取具体手段,来融入双向语言模型。这个是 XLNet 在模型角度比较大的贡献,确实也打开了 NLP 中两阶段模式潮流的一个新思路。
2. 引入了 Transformer-XL 的主要思路:相对位置编码以及分段 RNN 机制。实践已经证明这两点对于长文档任务是很有帮助的;
加大增加了预训练阶段使用的数据规模;Bert 使用的预训练数据是 BooksCorpus 和英文 Wiki 数据,大小 13G 。XLNet 除了使用这些数据外,另外引入了 Giga5,ClueWeb 以及 Common Crawl 数据,并排掉了其中的一些低质量数据,大小分别是 16G,19G 和 78G 。可以看出,在预训练阶段极大扩充了数据规模,并对质量进行了筛选过滤。这个明显走的是 GPT2.0 的路线。
所以实验部分需要仔细分析,提升到底是上述哪个因素或者是哪几个因素导致的性能提升?
我们把实验分成几个部分来分析。
首先,给人最大的印象是:XLNet 对于阅读理解类任务,相对 Bert ,性能有极大幅度地提升。下面是论文报道的实验结果:
其中,RACE 和 SQuAD 2.0 是文档长度较长的阅读理解任务,任务难度也相对高。可以看出,在这两个任务中,XLNet 相对 Bert_Large ,确实有大幅性能提升 ( Race 提升13.5%,SQuAD 2.0 F1 指标提升8.6 ) 。在 Squad1.1 上提升尽管稍微小些,F1 提升3.9%,但是因为基准高,所以提升也比较明显。
说 XLNet 在阅读理解,尤其是长文档的阅读理解中,性能大幅超过 Bert ,这个是没疑问的。但是,因为 XLNet 融入了上文说的三个因素,所以不确定每个因素在其中起的作用有多大,而对于长文档,Transformer XL 的引入肯定起了比较大的作用,Bert 天然在这种类型任务中有缺点,其它两类因素的作用不清楚。感觉这里应该增加一个基准,就是 Bert 用与 XLNet 相同大小的预训练数据做,这样抹平数据量差异,更好比较模型差异带来的效果差异。当然,我觉得即使是这样,XLNet 应该仍然是比 Bert 效果好的,只是可能不会差距这么大,因为 XLNet 的长文档优势肯定会起作用。
下面我们看下其它类型的 NLP 任务。
GLUE 是个综合的 NLP 任务集合,包含各种类型的任务,因为 ensemble 模式里面包含了各种花式的 trick ,所以重点看上面一组实验,这里比较单纯。从实验数据看,XLNet 相对 Bert 也有性能提升,当然不像阅读理解提升那么大,而且性能提升比较大的集中在 RTE ,MNLI 和 COLA 数据集合,其它任务提升效果还好。而我一直觉得,RTE 在 GLUE 里,是个神奇的存在,如果没有它,很多论文的效果可能没法看,这个是闲话,先不讲了,后面我会单说。
当然,仍然不确定这种性能提升主要来自于 XLNet 的哪个因素,或者哪几个因素各自的贡献,尤其是如果 Bert 加大预训练数据规模后,两者性能差异有多大。感觉这里 Transformer XL 的因素可能发挥的作用不会太大,其它两个因素在起作用,但是作用未知,这里感觉应该补充其它实验。
上面是文本分类任务和信息检索任务,可以看出,相对 Bert,XLNet 效果有提升,但是幅度不算大。仍然是上面的考虑,起作用的三个因素,到底哪个发挥多大作用,从数据方面看不太出来。
下面一组实验可以仔细分析一下,这组实验是排除掉上述第三个数据规模因素的实验的对比,就是说 XLNet 用的是和 Bert 相同规模的预训练数据,所以与 Bert 对比更具备模型方面的可比较性,而没有数据规模的影响。实验结果如下:
如果仔细分析实验数据,实验结果说明:
因为和 Bert 比较,XLNet 使用相同的预训练数据。所以两者的性能差异来自于:Permutation Language Model 预训练目标以及 Transformer XL 的长文档因素。而从中可以看出,DAE+Transformer XL 体现的是长文档因素的差异,和 Bert 比,Race 提升1个点,SQuAD F1 提升3个点,MNLI 提升0.5个点,SST-2 性能稍微下降。这是 Transformer XL 因素解决长文档因素带来的收益,很明显,长文档阅读理解任务提升比较明显,其它任务提升不太明显。
而通过 XLNet 进一步和 DAE+Transformer XL 及 Bert 比,这一点应该拆解出 Permutation Language Model 和 Mask 的方式差异。可以看出:XLNet 相对 DAE+Transformer XL 来说,Race 进一步提升1个点左右;SQuAD 进一步提升1.8个点左右,NMLI 提升1个点左右,SST-B 提升不到1个点。虽然不精准,但是大致是能说明问题的,这个应该大致是 PLM 带来的模型收益。可以看出,PLM 还是普遍有效的,但是提升幅度并非特别巨大。
如果我们结合前面 Race 和 SQuAD 的实验结果看(上面两组实验是三个因素的作用,后面是排除掉数据量差异的结果,所以两者的差距,很可能就是第三个因素:数据规模导致的差异,当然,因为一个是 Bert_base ,一个是 Bert_Large ,所以不具备完全可比性,但是大致估计不会偏离真实结论太远),Race 数据集合三因素同时具备的 XLNet ,超过 Bert 绝对值大约9个多百分点,Transformer 因素 +PLM 因素估计贡献大约在2到4个点之间,那么意味着预训练数据量导致的差异大概在4到5个点左右;类似的,可以看出,SQuAD 2.0 中,预训练数据量导致的差异大约在2到3个点左右,也就是说,估计训练数据量带来的提升,在阅读理解任务中大约占比30%到40%左右。
如果从实验结果归纳一下的话,可以看出:XLNet 综合而言,效果是优于 Bert 的,尤其是在长文档类型任务,效果提升明显。如果进一步拆解的话,因为对比实验不足,只能做个粗略的结论:预训练数据量的提升,大概带来30%左右的性能提升,其它两个模型因素带来剩余的大约70%的性能提升。当然,这个主要指的是 XLNet 性能提升比较明显的阅读理解类任务而言。对于其它类型任务,感觉 Transformer XL 的因素贡献估计不会太大,主要应该是其它两个因素在起作用。
对 NLP 应用任务的影响
XLNet 其实本质上还是 ELMO/GPT/Bert 这一系列两阶段模型的进一步延伸。在将自回归 LM 方向引入双向语言模型方面,感觉打开了一个新思路,这点还是非常对人有启发的。当然,如果深入思考,其实和 Bert 并没有太大的不同。
如果让我推论下 XLNet 的出现,对后续 NLP 工作的影响,我觉得跟 Bert 比,最直接的影响应该有两个,一个是对于 Bert 长文档的应用,因为 Transformer 天然对长文档任务处理有弱点,所以 XLNet 对于长文档 NLP 任务相比 Bert 应该有直接且比较明显的性能提升作用,它在论文中也证明了这点。所以,以后长文档类型的 NLP 应用,XLNet 明显跟 Bert 比占优势。当然,你说我把 Transformer XL 的因素引入 Bert ,然后继续在 Bert 上做改进,明显这也是可以的。
第二点,对于生成类的 NLP 任务,到目前为止,尽管出了一些改进模型,但是从效果看,Bert 仍然不能很好地处理。而因为 XLNet 的预训练模式天然符合下游任务序列生成结果,所以按理说能够直接通过引入 XLNet 来改进生成类 NLP 任务的效果。所以,这点估计是 XLNet 会明显占优势的一个领域。
可以预计的是,很快我们就会看到 XLNet 在文本摘要,机器翻译,信息检索…..等符合上述 XLNet 应用领域特点和优势领域的应用结果,以及在这些任务上的进一步改进模型。当然,这个有点比手速的意思,有意者请尽快动手把结果扔出来。
又给你了一个拼手速的机会,加油吧,少年!
作者介绍:
张俊林,中国中文信息学会理事,中科院软件所博士。目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届优秀图书奖)、《大数据日知录:架构与算法》的作者。 查看全部
XLNet : 运行机制及和 Bert 的异同比较
出品社区:DataFun
注:文末有惊喜,等你呦。
这两天,XLNet 貌似也引起了 NLP 圈的极大关注,从实验数据看,在某些场景下,确实 XLNet 相对 Bert 有很大幅度的提升。就像我们之前说的,感觉 Bert 打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而 XLNet 就是其中比较引人注目的一位。当然,我估计很快我们会看到更多的这个模式下的新工作。未来两年,在两阶段新模式 ( 预训练 + Finetuning ) 下,应该会有更多的好工作涌现出来。根本原因在于:这个模式的潜力还没有被充分挖掘,貌似还有很大的提升空间。当然,这也意味着 NLP 在未来两年会有各种技术或者应用的突破,现在其实是进入 NLP 领域非常好的时机。原因有两个,一个是 NLP 正面临一个技术栈大的改朝换代的时刻,有很多空白等着你去填补,容易出成绩;另外一点,貌似 Bert+Transformer 有统一 NLP 各个应用领域的趋向,这意味着此时进入 NLP 领域,具备学习成本非常低的好处,和之前相比,投入产出比非常合算。这是两个原因。当然,即使如此,想要学好 NLP ,持续的精力投入是必不可少的。有句老话说得好:“永恒的爱大约持续三个月”,这句话其实对于很多对 NLP 感兴趣的同学也成立:“对 NLP 的永恒的热情大约能够持续3到5天”,希望真的有兴趣的同学能坚持一下,起码持续7到8天,凑够一个星期…..
那么 XLNet 和 Bert 比,有什么异同?有什么模型方面的改进?在哪些场景下特别有效?原因又是什么?本文通过论文思想解读及实验结果分析,试图回答上述问题。
首先,XLNet 引入了自回归语言模型以及自编码语言模型的提法,这个思维框架我觉得挺好的,可以先简单说明下。
自回归语言模型 ( Autoregressive LM )
在 ELMO / BERT 出来之前,大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词,这种类型的 LM 被称为自回归语言模型。GPT 就是典型的自回归语言模型。ELMO 尽管看上去利用了上文,也利用了下文,但是本质上仍然是自回归 LM ,这个跟模型具体怎么实现有关系。ELMO 是做了两个方向 ( 从左到右以及从右到左两个方向的语言模型 ) ,但是是分别有两个方向的自回归 LM ,然后把 LSTM 的两个方向的隐节点状态拼接到一起,来体现双向语言模型这个事情的。所以其实是两个自回归语言模型的拼接,本质上仍然是自回归语言模型。
自回归语言模型有优点有缺点,缺点是只能利用上文或者下文的信息,不能同时利用上文和下文的信息,当然,貌似 ELMO 这种双向都做,然后拼接看上去能够解决这个问题,因为融合模式过于简单,所以效果其实并不是太好。它的优点,其实跟下游 NLP 任务有关,比如生成类 NLP 任务,比如文本摘要,机器翻译等,在实际生成内容的时候,就是从左向右的,自回归语言模型天然匹配这个过程。而 Bert 这种 DAE 模式,在生成类 NLP 任务中,就面临训练过程和应用过程不一致的问题,导致生成类的 NLP 任务到目前为止都做不太好。
自编码语言模型 ( Autoencoder LM )
自回归语言模型只能根据上文预测下一个单词,或者反过来,只能根据下文预测前面一个单词。相比而言,Bert 通过在输入 X 中随机 Mask 掉一部分单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被 Mask 掉的单词,如果你对 Denoising Autoencoder 比较熟悉的话,会看出,这确实是典型的 DAE 的思路。那些被 Mask 掉的单词就是在输入侧加入的所谓噪音。类似Bert这种预训练模式,被称为 DAE LM 。
这种 DAE LM 的优缺点正好和自回归 LM 反过来,它能比较自然地融入双向语言模型,同时看到被预测单词的上文和下文,这是好处。缺点是啥呢?主要在输入侧引入 [Mask] 标记,导致预训练阶段和 Fine-tuning 阶段不一致的问题,因为 Fine-tuning 阶段是看不到 [Mask] 标记的。DAE 吗,就要引入噪音,[Mask] 标记就是引入噪音的手段,这个正常。
XLNet 的出发点就是:能否融合自回归 LM 和 DAE LM 两者的优点。就是说如果站在自回归 LM 的角度,如何引入和双向语言模型等价的效果;如果站在 DAE LM 的角度看,它本身是融入双向语言模型的,如何抛掉表面的那个 [Mask] 标记,让预训练和 Fine-tuning 保持一致。当然,XLNet 还讲到了一个 Bert 被 Mask 单词之间相互独立的问题,我相信这个不太重要,原因后面会说。当然,我认为这点不重要的事情,纯粹是个人观点,出错难免,看看就完了,不用较真。
XLNet 做了些什么
上文说过,Bert 这种自编码语言模型的好处是:能够同时利用上文和下文,所以信息利用充分。对于很多 NLP 任务而言,典型的比如阅读理解,在解决问题的时候,是能够同时看到上文和下文的,所以当然应该把下文利用起来。在 Bert 原始论文中,与 GPT1.0 的实验对比分析也可以看出来,BERT 相对 GPT 1.0 的性能提升,主要来自于双向语言模型与单向语言模型的差异。这是 Bert 的好处,很明显,Bert 之后的改进模型,如果不能把双向语言模型用起来,那明显是很吃亏的。当然,GPT 2.0 的作者不信这个邪,坚持沿用 GPT 1.0 单向语言模型的旧瓶,装进去了更高质量更大规模预训练数据的新酒,而它的实验结果也说明了,如果想改善预训练语言模型,走这条扩充预序列模型训练数据的路子,是个多快好但是不省钱的方向。这也进一步说明了,预训练 LM 这条路,还远远没有走完,还有很大的提升空间,比如最简单的提升方法就是加大数据规模,提升数据质量。
但是 Bert 的自编码语言模型也有对应的缺点,就是 XLNet 在文中指出的,第一个预训练阶段因为采取引入 [Mask] 标记来 Mask 掉部分单词的训练模式,而 Fine-tuning 阶段是看不到这种被强行加入的 Mask 标记的,所以两个阶段存在使用模式不一致的情形,这可能会带来一定的性能损失;另外一个是,Bert 在第一个预训练阶段,假设句子中多个单词被 Mask 掉,这些被 Mask 掉的单词之间没有任何关系,是条件独立的,而有时候这些单词之间是有关系的,XLNet 则考虑了这种关系(关于这点原因是否可靠,后面会专门分析)。
上面两点是 XLNet 在第一个预训练阶段,相对 Bert 来说要解决的两个问题。
其实从另外一个角度更好理解 XLNet 的初衷和做法,我觉得这个估计是 XLNet 作者真正的思考出发点,是啥呢?就是说自回归语言模型有个缺点,要么从左到右,要么从右到左,尽管可以类似 ELMO 两个都做,然后再拼接的方式。但是跟 Bert 比,效果明显不足够好(这里面有 RNN 弱于 Transformer 的因素,也有双向语言模型怎么做的因素)。那么,能不能类似 Bert 那样,比较充分地在自回归语言模型中,引入双向语言模型呢?因为 Bert 已经证明了这是非常关键的一点。这一点,想法简单,但是看上去貌似不太好做,因为从左向右的语言模型,如果我们当前根据上文,要预测某个单词 Ti ,那么看上去它没法看到下文的内容。具体怎么做才能让这个模型:看上去仍然是从左向右的输入和预测模式,但是其实内部已经引入了当前单词的下文信息呢?XLNet 在模型方面的主要贡献其实是在这里。
那么 XLNet 是怎么做到这一点的呢?其实思路也比较简洁,可以这么思考:XLNet 仍然遵循两阶段的过程,第一个阶段是语言模型预训练阶段;第二阶段是任务数据 Fine-tuning 阶段。它主要希望改动第一个阶段,就是说不像 Bert 那种带 Mask 符号的 Denoising-autoencoder 的模式,而是采用自回归 LM 的模式。就是说,看上去输入句子 X 仍然是自左向右的输入,看到 Ti 单词的上文 Context_before ,来预测 Ti 这个单词。但是又希望在 Context_before 里,不仅仅看到上文单词,也能看到 Ti 单词后面的下文 Context_after 里的下文单词,这样的话,Bert 里面预训练阶段引入的 Mask 符号就不需要了,于是在预训练阶段,看上去是个标准的从左向右过程,Fine-tuning 当然也是这个过程,于是两个环节就统一起来。当然,这是目标。剩下是怎么做到这一点的问题。
那么,怎么能够在单词 Ti 的上文中 Contenxt_before 中揉入下文 Context_after 的内容呢?你可以想想。XLNet 是这么做的,在预训练阶段,引入 Permutation Language Model 的训练目标。什么意思呢?就是说,比如包含单词 Ti 的当前输入的句子 X ,由顺序的几个单词构成,比如 x1,x2,x3,x4 四个单词顺序构成。我们假设,其中,要预测的单词 Ti 是 x3 ,位置在 Position 3 ,要想让它能够在上文 Context_before 中,也就是 Position 1 或者 Position 2 的位置看到 Position 4 的单词 x4 。可以这么做:假设我们固定住 x3 所在位置,就是它仍然在 Position 3 ,之后随机排列组合句子中的4个单词,在随机排列组合后的各种可能里,再选择一部分作为模型预训练的输入 X 。比如随机排列组合后,抽取出 x4,x2,x3,x1 这一个排列组合作为模型的输入 X 。于是,x3 就能同时看到上文 x2 ,以及下文 x4 的内容了。这就是 XLNet 的基本思想,所以说,看了这个就可以理解上面讲的它的初衷了吧:看上去仍然是个自回归的从左到右的语言模型,但是其实通过对句子中单词排列组合,把一部分 Ti 下文的单词排到 Ti 的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是从左到右在预测后一个单词。
当然,上面讲的仍然是基本思想。难点其实在于具体怎么做才能实现上述思想。首先,需要强调一点,尽管上面讲的是把句子 X 的单词排列组合后,再随机抽取例子作为输入,但是,实际上你是不能这么做的,因为 Fine-tuning 阶段你不可能也去排列组合原始输入。所以,就必须让预训练阶段的输入部分,看上去仍然是 x1,x2,x3,x4 这个输入顺序,但是可以在 Transformer 部分做些工作,来达成我们希望的目标。具体而言,XLNet 采取了 Attention 掩码的机制,你可以理解为,当前的输入句子是 X ,要预测的单词 Ti 是第 i 个单词,前面1到 i-1 个单词,在输入部分观察,并没发生变化,该是谁还是谁。但是在 Transformer 内部,通过 Attention 掩码,从 X 的输入单词里面,也就是 Ti 的上文和下文单词中,随机选择 i-1 个,放到 Ti 的上文位置中,把其它单词的输入通过 Attention 掩码隐藏掉,于是就能够达成我们期望的目标(当然这个所谓放到 Ti 的上文位置,只是一种形象的说法,其实在内部,就是通过 Attention Mask ,把其它没有被选到的单词 Mask 掉,不让它们在预测单词 Ti 的时候发生作用,如此而已。看着就类似于把这些被选中的单词放到了上文 Context_before 的位置了)。具体实现的时候,XLNet 是用“双流自注意力模型”实现的,细节可以参考论文,但是基本思想就如上所述,双流自注意力机制只是实现这个思想的具体方式,理论上,你可以想出其它具体实现方式来实现这个基本思想,也能达成让Ti看到下文单词的目标。

这里简单说下“双流自注意力机制”,一个是内容流自注意力,其实就是标准的 Transformer 的计算过程;主要是引入了 Query 流自注意力,这个是干嘛的呢?其实就是用来代替 Bert 的那个 [Mask] 标记的,因为 XLNet 希望抛掉 [Mask] 标记符号,但是比如知道上文单词 x1,x2 ,要预测单词 x3 ,此时在 x3 对应位置的 Transformer 最高层去预测这个单词,但是输入侧不能看到要预测的单词 x3 ,Bert 其实是直接引入 [Mask] 标记来覆盖掉单词 x3 的内容的,等于说 [Mask] 是个通用的占位符号。而 XLNet 因为要抛掉 [Mask] 标记,但是又不能看到 x3 的输入,于是 Query 流,就直接忽略掉 x3 输入了,只保留这个位置信息,用参数 w 来代表位置的 embedding 编码。其实 XLNet 只是扔了表面的 [Mask] 占位符号,内部还是引入 Query 流来忽略掉被 Mask 的这个单词。和 Bert 比,只是实现方式不同而已。
上面说的 Attention 掩码,我估计你还是没了解它的意思,我再用例子解释一下。Attention Mask 的机制,核心就是说,尽管当前输入看上去仍然是 x1->x2->x3->x4 ,但是我们已经改成随机排列组合的另外一个顺序 x3->x2->x4->x1 了,如果用这个例子用来从左到右训练 LM ,意味着当预测 x2 的时候,它只能看到上文 x3 ;当预测 x4 的时候,只能看到上文 x1 和 x2 ,以此类推……这样,比如对于 x2 来说,就看到了下文 x3 了。这种在输入侧维持表面的 X 句子单词顺序,但是其实在 Transformer 内部,看到的已经是被重新排列组合后的顺序,是通过 Attention 掩码来实现的。如上图所示,输入看上去仍然是 x1,x2,x3,x4 ,可以通过不同的掩码矩阵,让当前单词 Xi 只能看到被排列组合后的顺序 x3->x2->x4->x1 中自己前面的单词。这样就在内部改成了被预测单词同时看到上下文单词,但是输入侧看上去仍然维持原先的单词顺序了。关键要看明白上图右侧那个掩码矩阵,我相信很多人刚开始没看明白,因为我刚开始也没看明白,因为没有标出掩码矩阵的单词坐标,它的坐标是1-2-3-4,就是表面那个 X 的单词顺序,通过掩码矩阵,就能改成你想要的排列组合,并让当前单词看到它该看到的所谓上文,其实是掺杂了上文和下文的内容。这是 attention mask 来实现排列组合的背后的意思。
上面讲的 Permutation Language Model 是 XLNet 的主要理论创新,所以介绍的比较多,从模型角度讲,这个创新还是挺有意思的,因为它开启了自回归语言模型如何引入下文的一个思路,相信对于后续工作会有启发。当然,XLNet 不仅仅做了这些,它还引入了其它的因素,也算是一个当前有效技术的集成体。感觉 XLNet 就是 Bert、GPT 2.0 和 Transformer XL 的综合体变身,首先,它通过 PLM 预训练目标,吸收了 Bert 的双向语言模型;然后,GPT2.0 的核心其实是更多更高质量的预训练数据,这个明显也被 XLNet 吸收进来了;再然后,Transformer XL 的主要思想也被吸收进来,它的主要目标是解决 Transformer 对于长文档 NLP 应用不够友好的问题。
以上是 XLNet 的几个主要改进点,有模型创新方面的,有其它模型引入方面的,也有数据扩充方面的。那么,这些因素各自起到了什么作用呢?在后面我们会谈。在谈不同因素各自作用之前,我们先分析下 XLNet 和 Bert 的异同问题。
与 Bert 的预训练过程的异同问题
尽管看上去,XLNet 在预训练机制引入的 Permutation Language Model 这种新的预训练目标,和 Bert 采用 Mask 标记这种方式,有很大不同。其实你深入思考一下,会发现,两者本质是类似的。区别主要在于:Bert 是直接在输入端显示地通过引入 Mask 标记,在输入侧隐藏掉一部分单词,让这些单词在预测的时候不发挥作用,要求利用上下文中其它单词去预测某个被 Mask 掉的单词;而 XLNet 则抛弃掉输入侧的 Mask 标记,通过 Attention Mask 机制,在 Transformer 内部随机 Mask 掉一部分单词(这个被 Mask 掉的单词比例跟当前单词在句子中的位置有关系,位置越靠前,被 Mask 掉的比例越高,位置越靠后,被 Mask 掉的比例越低),让这些被 Mask 掉的单词在预测某个单词的时候不发生作用。所以,本质上两者并没什么太大的不同,只是 Mask 的位置,Bert 更表面化一些,XLNet 则把这个过程隐藏在了 Transformer 内部而已。这样,就可以抛掉表面的 [Mask] 标记,解决它所说的预训练里带有 [Mask] 标记导致的和 Fine-tuning 过程不一致的问题。至于说 XLNet 说的,Bert 里面被 Mask 掉单词的相互独立问题,也就是说,在预测某个被 Mask 单词的时候,其它被 Mask 单词不起作用,这个问题,你深入思考一下,其实是不重要的,因为 XLNet 在内部 Attention Mask 的时候,也会 Mask 掉一定比例的上下文单词,只要有一部分被 Mask 掉的单词,其实就面临这个问题。而如果训练数据足够大,其实不靠当前这个例子,靠其它例子,也能弥补被 Mask 单词直接的相互关系问题,因为总有其它例子能够学会这些单词的相互依赖关系。
我相信,通过改造 Bert 的预训练过程,其实是可以模拟 XLNet 的 Permutation Language Model 过程的:Bert 目前的做法是,给定输入句子 X ,随机 Mask 掉15%的单词,然后要求利用剩下的85%的单词去预测任意一个被 Mask 掉的单词,被 Mask 掉的单词在这个过程中相互之间没有发挥作用。如果我们把 Bert 的预训练过程改造成:对于输入句子,随机选择其中任意一个单词 Ti ,只把这个单词改成 Mask 标记,假设 Ti 在句子中是第 i 个单词,那么此时随机选择 X 中的任意 i 个单词,只用这 i 个单词去预测被 Mask 掉的单词。当然,这个过程理论上也可以在 Transformer 内采用 attention mask 来实现。如果是这样,其实 Bert 的预训练模式就和 XLNet 是基本等价的了。
或者换个角度思考,假设仍然利用 Bert 目前的 Mask 机制,但是把 Mask 掉15%这个条件极端化,改成,每次一个句子只 Mask 掉一个单词,利用剩下的单词来预测被 Mask 掉的单词。那么,这个过程其实跟 XLNet 的 PLM 也是比较相像的,区别主要在于每次预测被 Mask 掉的单词的时候,利用的上下文更多一些(XLNet 在实现的时候,为了提升效率,其实也是选择每个句子最后末尾的 1/K 单词被预测,假设 K=7 ,意味着一个句子 X ,只有末尾的 1/7 的单词会被预测,这意味着什么呢?意味着至少保留了 6/7 的 Context 单词去预测某个单词,对于最末尾的单词,意味着保留了所有的句子中 X 的其它单词,这其实和上面提到的 Bert 只保留一个被 Mask 单词是一样的)。或者我们站在 Bert 预训练的角度来考虑 XLNet ,如果 XLNet 改成对于句子 X ,只需要预测句子中最后一个单词,而不是最后的 1/K ( 就是假设 K 特别大的情况 ) ,那么其实和 Bert 每个输入句子只 Mask 掉一个单词,两者基本是等价的。
当然,XLNet 这种改造,维持了表面看上去的自回归语言模型的从左向右的模式,这个 Bert 做不到,这个有明显的好处,就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息。所以看上去,XLNet 貌似应该对于生成类型的 NLP 任务,会比 Bert 有明显优势。另外,因为 XLNet 还引入了 Transformer XL 的机制,所以对于长文档输入类型的 NLP 任务,也会比 Bert 有明显优势。
哪些因素在起作用?
如上分析,XLNet 有个好处,但是感觉同时也是个问题,那就是:XLNet 其实同时引入了很多因素在模型里。说是好处,因为实验证明了这样效果确实好,即使是跟 Bert_Large 这种非常强的基准模型比也是,尤其是长文档任务,这个效果提升比较明显;说是问题,是因为其实应该在实验部分充分说明,如果模型起了作用,这些因素各自发挥了多大作用,尤其是在跟 Bert 进行对比的时候,感觉应该把数据规模这个变量磨平进行比较,因为这才是单纯的模型差异导致的性能差异,而不是训练数据量引发的差异。当然,XLNet 最后一组实验是把这个预训练数据规模差异磨平后,和 Bert 比较的,所以信息含量更大些。而前面的几组实验,因为天然存在预训练数据量的差异,所以模型导致的差异到底有多大,看得不太明显。引入了 Transformer-XL 的主要思路:相对位置编码以及分段 RNN 机制。实践已经证明这两点对于长文档任务是很有帮助的。
我们上文提到过,XLNet 起作用的,如果宏观归纳一下,共有三个因素;
1. 与 Bert 采取 De-noising Autoencoder 方式不同的新的预训练目标:Permutation Language Model ( 简称 PLM ) ;这个可以理解为在自回归 LM 模式下,如何采取具体手段,来融入双向语言模型。这个是 XLNet 在模型角度比较大的贡献,确实也打开了 NLP 中两阶段模式潮流的一个新思路。
2. 引入了 Transformer-XL 的主要思路:相对位置编码以及分段 RNN 机制。实践已经证明这两点对于长文档任务是很有帮助的;
加大增加了预训练阶段使用的数据规模;Bert 使用的预训练数据是 BooksCorpus 和英文 Wiki 数据,大小 13G 。XLNet 除了使用这些数据外,另外引入了 Giga5,ClueWeb 以及 Common Crawl 数据,并排掉了其中的一些低质量数据,大小分别是 16G,19G 和 78G 。可以看出,在预训练阶段极大扩充了数据规模,并对质量进行了筛选过滤。这个明显走的是 GPT2.0 的路线。
所以实验部分需要仔细分析,提升到底是上述哪个因素或者是哪几个因素导致的性能提升?
我们把实验分成几个部分来分析。
首先,给人最大的印象是:XLNet 对于阅读理解类任务,相对 Bert ,性能有极大幅度地提升。下面是论文报道的实验结果:
其中,RACE 和 SQuAD 2.0 是文档长度较长的阅读理解任务,任务难度也相对高。可以看出,在这两个任务中,XLNet 相对 Bert_Large ,确实有大幅性能提升 ( Race 提升13.5%,SQuAD 2.0 F1 指标提升8.6 ) 。在 Squad1.1 上提升尽管稍微小些,F1 提升3.9%,但是因为基准高,所以提升也比较明显。

说 XLNet 在阅读理解,尤其是长文档的阅读理解中,性能大幅超过 Bert ,这个是没疑问的。但是,因为 XLNet 融入了上文说的三个因素,所以不确定每个因素在其中起的作用有多大,而对于长文档,Transformer XL 的引入肯定起了比较大的作用,Bert 天然在这种类型任务中有缺点,其它两类因素的作用不清楚。感觉这里应该增加一个基准,就是 Bert 用与 XLNet 相同大小的预训练数据做,这样抹平数据量差异,更好比较模型差异带来的效果差异。当然,我觉得即使是这样,XLNet 应该仍然是比 Bert 效果好的,只是可能不会差距这么大,因为 XLNet 的长文档优势肯定会起作用。
下面我们看下其它类型的 NLP 任务。
GLUE 是个综合的 NLP 任务集合,包含各种类型的任务,因为 ensemble 模式里面包含了各种花式的 trick ,所以重点看上面一组实验,这里比较单纯。从实验数据看,XLNet 相对 Bert 也有性能提升,当然不像阅读理解提升那么大,而且性能提升比较大的集中在 RTE ,MNLI 和 COLA 数据集合,其它任务提升效果还好。而我一直觉得,RTE 在 GLUE 里,是个神奇的存在,如果没有它,很多论文的效果可能没法看,这个是闲话,先不讲了,后面我会单说。
当然,仍然不确定这种性能提升主要来自于 XLNet 的哪个因素,或者哪几个因素各自的贡献,尤其是如果 Bert 加大预训练数据规模后,两者性能差异有多大。感觉这里 Transformer XL 的因素可能发挥的作用不会太大,其它两个因素在起作用,但是作用未知,这里感觉应该补充其它实验。
上面是文本分类任务和信息检索任务,可以看出,相对 Bert,XLNet 效果有提升,但是幅度不算大。仍然是上面的考虑,起作用的三个因素,到底哪个发挥多大作用,从数据方面看不太出来。
下面一组实验可以仔细分析一下,这组实验是排除掉上述第三个数据规模因素的实验的对比,就是说 XLNet 用的是和 Bert 相同规模的预训练数据,所以与 Bert 对比更具备模型方面的可比较性,而没有数据规模的影响。实验结果如下:
如果仔细分析实验数据,实验结果说明:
因为和 Bert 比较,XLNet 使用相同的预训练数据。所以两者的性能差异来自于:Permutation Language Model 预训练目标以及 Transformer XL 的长文档因素。而从中可以看出,DAE+Transformer XL 体现的是长文档因素的差异,和 Bert 比,Race 提升1个点,SQuAD F1 提升3个点,MNLI 提升0.5个点,SST-2 性能稍微下降。这是 Transformer XL 因素解决长文档因素带来的收益,很明显,长文档阅读理解任务提升比较明显,其它任务提升不太明显。
而通过 XLNet 进一步和 DAE+Transformer XL 及 Bert 比,这一点应该拆解出 Permutation Language Model 和 Mask 的方式差异。可以看出:XLNet 相对 DAE+Transformer XL 来说,Race 进一步提升1个点左右;SQuAD 进一步提升1.8个点左右,NMLI 提升1个点左右,SST-B 提升不到1个点。虽然不精准,但是大致是能说明问题的,这个应该大致是 PLM 带来的模型收益。可以看出,PLM 还是普遍有效的,但是提升幅度并非特别巨大。
如果我们结合前面 Race 和 SQuAD 的实验结果看(上面两组实验是三个因素的作用,后面是排除掉数据量差异的结果,所以两者的差距,很可能就是第三个因素:数据规模导致的差异,当然,因为一个是 Bert_base ,一个是 Bert_Large ,所以不具备完全可比性,但是大致估计不会偏离真实结论太远),Race 数据集合三因素同时具备的 XLNet ,超过 Bert 绝对值大约9个多百分点,Transformer 因素 +PLM 因素估计贡献大约在2到4个点之间,那么意味着预训练数据量导致的差异大概在4到5个点左右;类似的,可以看出,SQuAD 2.0 中,预训练数据量导致的差异大约在2到3个点左右,也就是说,估计训练数据量带来的提升,在阅读理解任务中大约占比30%到40%左右。
如果从实验结果归纳一下的话,可以看出:XLNet 综合而言,效果是优于 Bert 的,尤其是在长文档类型任务,效果提升明显。如果进一步拆解的话,因为对比实验不足,只能做个粗略的结论:预训练数据量的提升,大概带来30%左右的性能提升,其它两个模型因素带来剩余的大约70%的性能提升。当然,这个主要指的是 XLNet 性能提升比较明显的阅读理解类任务而言。对于其它类型任务,感觉 Transformer XL 的因素贡献估计不会太大,主要应该是其它两个因素在起作用。
对 NLP 应用任务的影响
XLNet 其实本质上还是 ELMO/GPT/Bert 这一系列两阶段模型的进一步延伸。在将自回归 LM 方向引入双向语言模型方面,感觉打开了一个新思路,这点还是非常对人有启发的。当然,如果深入思考,其实和 Bert 并没有太大的不同。
如果让我推论下 XLNet 的出现,对后续 NLP 工作的影响,我觉得跟 Bert 比,最直接的影响应该有两个,一个是对于 Bert 长文档的应用,因为 Transformer 天然对长文档任务处理有弱点,所以 XLNet 对于长文档 NLP 任务相比 Bert 应该有直接且比较明显的性能提升作用,它在论文中也证明了这点。所以,以后长文档类型的 NLP 应用,XLNet 明显跟 Bert 比占优势。当然,你说我把 Transformer XL 的因素引入 Bert ,然后继续在 Bert 上做改进,明显这也是可以的。
第二点,对于生成类的 NLP 任务,到目前为止,尽管出了一些改进模型,但是从效果看,Bert 仍然不能很好地处理。而因为 XLNet 的预训练模式天然符合下游任务序列生成结果,所以按理说能够直接通过引入 XLNet 来改进生成类 NLP 任务的效果。所以,这点估计是 XLNet 会明显占优势的一个领域。
可以预计的是,很快我们就会看到 XLNet 在文本摘要,机器翻译,信息检索…..等符合上述 XLNet 应用领域特点和优势领域的应用结果,以及在这些任务上的进一步改进模型。当然,这个有点比手速的意思,有意者请尽快动手把结果扔出来。
又给你了一个拼手速的机会,加油吧,少年!
作者介绍:
张俊林,中国中文信息学会理事,中科院软件所博士。目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届优秀图书奖)、《大数据日知录:架构与算法》的作者。
内部信息源与外部源搜索引擎优化方法的异同
网站优化 • 优采云 发表了文章 • 0 个评论 • 85 次浏览 • 2022-07-26 19:08
内部信息源与外部信息源搜索引擎优化方法的异同对我们的整体优化计划有着非常重要的影响,下面我们就来对它们分别做一个分析。本文分为三步说明信息源与外部信息源搜索引擎优化方法的异同。第一步:确定作为参考的信息源对搜索引擎优化有没有重要的影响一般来说,由于搜索引擎受谷歌seo规则影响,它主要是取决于谷歌seo规则的适应性,如果谷歌seo规则适应度低,谷歌就不会采用或者没有可采用的检索方式来告诉你在搜索引擎上只能取这些信息(即不能采用中文来进行检索),而与之相比较,在seo模型中的其他模块,如网站托管、搜索引擎优化等模块都是对网站的整体优化起到推动作用的,都可以来使得网站的整体形象与质量更高一些。
因此,我们在优化一个网站的时候,一般而言,优化思路总是以指导给谷歌seo规则适当的引导为目标来进行整体优化的。第二步:由某个页面或全部页面,快速搜寻到公司的网址如果您在某一个页面或所有页面上,均可以轻松的找到我们的网址,那么这样的信息源就是比较好的搜索引擎优化方法。第三步:找到与产品相关性较高的网址(至少是与其产品相关)大多数的搜索引擎优化方法都不允许从谷歌搜索引擎结果中直接寻找企业网址,就算你已经在谷歌优化很久了。
因此,您必须在为公司的网站提供关于你公司产品的信息时,找到与该产品相关性较高的网址,以方便将来提供该产品的相关信息(根据搜索引擎优化规则,如果你的公司曾经在其他百度搜索引擎有过相关网址,那么就请使用自己的百度网址导航站以方便其他的搜索引擎在搜索这个搜索时得到更精确、更有价值的信息)。另外,我们也需要在谷歌搜索引擎检索网站时,不能仅仅以谷歌的网址导航来搜索,还要结合谷歌seo的标准与谷歌的算法是否按照相关性来进行排名。
寻找对公司网站影响最大的主要权威,名人甚至明星网站上。大家可以通过搜索您网站的标题来搜索对该网站有效的关键词,看看哪些词汇让我们的企业搜索引擎排名上升。特别提醒:如果你的网站的搜索引擎排名不怎么样,我们尽量不要在百度平台进行长期的优化;而在国内做seo优化对于谷歌的利用率要高得多,如果我们必须去谷歌优化而不可能使用百度,那么我们可以考虑通过加速搜索引擎优化方法来提高我们的谷歌排名。
以上只是给大家一个参考,真正实施的时候还是需要根据实际情况来定。——本文由千禾网络成都分公司根据多年的互联网优化经验所写。专注于网站seo的专业团队,积累了丰富的谷歌seo优化经验。我们希望更多的有能力的公司都能利用我们的资源为网站和搜索引擎做好推广。 查看全部
内部信息源与外部源搜索引擎优化方法的异同
内部信息源与外部信息源搜索引擎优化方法的异同对我们的整体优化计划有着非常重要的影响,下面我们就来对它们分别做一个分析。本文分为三步说明信息源与外部信息源搜索引擎优化方法的异同。第一步:确定作为参考的信息源对搜索引擎优化有没有重要的影响一般来说,由于搜索引擎受谷歌seo规则影响,它主要是取决于谷歌seo规则的适应性,如果谷歌seo规则适应度低,谷歌就不会采用或者没有可采用的检索方式来告诉你在搜索引擎上只能取这些信息(即不能采用中文来进行检索),而与之相比较,在seo模型中的其他模块,如网站托管、搜索引擎优化等模块都是对网站的整体优化起到推动作用的,都可以来使得网站的整体形象与质量更高一些。

因此,我们在优化一个网站的时候,一般而言,优化思路总是以指导给谷歌seo规则适当的引导为目标来进行整体优化的。第二步:由某个页面或全部页面,快速搜寻到公司的网址如果您在某一个页面或所有页面上,均可以轻松的找到我们的网址,那么这样的信息源就是比较好的搜索引擎优化方法。第三步:找到与产品相关性较高的网址(至少是与其产品相关)大多数的搜索引擎优化方法都不允许从谷歌搜索引擎结果中直接寻找企业网址,就算你已经在谷歌优化很久了。
因此,您必须在为公司的网站提供关于你公司产品的信息时,找到与该产品相关性较高的网址,以方便将来提供该产品的相关信息(根据搜索引擎优化规则,如果你的公司曾经在其他百度搜索引擎有过相关网址,那么就请使用自己的百度网址导航站以方便其他的搜索引擎在搜索这个搜索时得到更精确、更有价值的信息)。另外,我们也需要在谷歌搜索引擎检索网站时,不能仅仅以谷歌的网址导航来搜索,还要结合谷歌seo的标准与谷歌的算法是否按照相关性来进行排名。

寻找对公司网站影响最大的主要权威,名人甚至明星网站上。大家可以通过搜索您网站的标题来搜索对该网站有效的关键词,看看哪些词汇让我们的企业搜索引擎排名上升。特别提醒:如果你的网站的搜索引擎排名不怎么样,我们尽量不要在百度平台进行长期的优化;而在国内做seo优化对于谷歌的利用率要高得多,如果我们必须去谷歌优化而不可能使用百度,那么我们可以考虑通过加速搜索引擎优化方法来提高我们的谷歌排名。
以上只是给大家一个参考,真正实施的时候还是需要根据实际情况来定。——本文由千禾网络成都分公司根据多年的互联网优化经验所写。专注于网站seo的专业团队,积累了丰富的谷歌seo优化经验。我们希望更多的有能力的公司都能利用我们的资源为网站和搜索引擎做好推广。
是谁给你的自信,让你上网搜索一下就觉得“我啥都懂”的?
网站优化 • 优采云 发表了文章 • 0 个评论 • 83 次浏览 • 2022-06-30 22:26
现在,只要求助于万能的互联网,很多问题都可以轻松地找到答案。不过,这样便捷的手段也可能带来一些负面作用。发表在《实验心理学杂志:综合版》(Journal of Experimental Psychology: General)的一项研究[1]就发现,在使用互联网搜索之后,人们可能会产生“掌握知识”的错觉,从而对自己的能力产生过高的估计。
依赖互联网,对我们的记忆是好是坏?图片来源:
互联网:
史上最好记忆搭档
在一个相互合作的团队当中,人们对信息的处理方式会与单枪匹马时有所不同。合作者们会共同组成交互记忆系统(transactive memory systems)——每个人都只需要掌握一部分知识或技能,然后彼此互相依赖,在需要时进行信息交换即可。在这样的系统中,人们需要拥有两种记忆:内部记忆(“我知道些什么”)和外部记忆(“谁知道什么”)。拥有这两种记忆,人们就能够在团队中贡献自己的力量,并且高效地获取外部信息来解决问题。
而随着科技的发展,交互记忆系统也加入了新的成员。除了人与人之外,人与互联网等外部信息来源之间也可以建立类似的关系。互联网上的信息非常丰富,检索起来也异常便捷,这使得它一跃成为了人类最全能的记忆交互搭档。
不仅如此,互联网还是个“甘于奉献不求回报”的队友。和它一起工作时,人们可以不用给自己分配任何内部记忆的任务,只需要记住搜索方法,剩下的任务就都可以交给互联网了。这些特性也使得人们越来越依赖互联网强大的工作能力,减少了自己储存知识的过程。互联网上的信息检索正在改变人们的思维方式,我们所记住的只是找到信息的方法,而对知识本身的记忆则随之减少[2]。
好搭档带来的
认识偏差
除了改变人们的记忆方式之外,便捷的互联网工具也可能让我们对自己的知识储备产生认识上的偏差。有学者指出,使用互联网查找答案会使人产生一种“我也拥有这些知识”的错觉。
试想,当你想要了解一个学术问题的答案时,去图书馆寻找可能是一个相对漫长而痛苦的过程。这个漫长的过程时刻提醒着你“我并不知道这个问题的答案,所以我要寻找”。而在网上,只要输入关键词,你想要的答案可能立即就会呈现在你眼前。这样轻松获得详尽答案的过程并不是一个“自然”的过程,人们可能会因此将搜索到的知识与自己的内部记忆“合并”,产生自己懂得这些知识的错觉。
为了验证这一设想,耶鲁大学的心理学研究者设计了一系列实验。
首先,研究者找来202名被试,把他们分成了“有网组”和“无网组”。两组被试都要回答一组自然科学类小问题(例如“打火机是如何工作的”),不同的是“有网组”可以上网检索帮助答题,而“无网组”只能靠自己既有的知识进行回答。在答题之后,研究者又给出了一些其他不相干领域的题目,要求被试预测自己回答这些问题的表现。
实验结果发现,使用了互联网的被试在不相干的领域也表现出了显著高于“无网组”的自信。有意思的是,即使研究者给“无网组”被试看过“有网组”被试可以查到的资料之后,上述差异依然存在。由此看来,上网搜索似乎确实让人们产生了自己“更有学问”的错觉。
你的许多信息, 是不是已经存在云端了?然后你就忘了。图片来源:
为了确保结果可靠,研究者们又改变评估方式重新进行了实验,并特意提醒被试在预测答题能力时“不要考虑任何外部资源”。而这一次的实验结果依然相同:“有网组”被试依然相信自己拥有更多的知识,可以更好地回答各种问题。
错觉从何而来?
那么,产生这种现象的原因究竟是什么?是人们真的产生了对知识储备的错觉,还是有其他影响因素?对此,研究者提出了若干种假设。
首先,研究者提出,互联网的运用或许并不是影响了人们对知识储备的认识,而是带来了全面的自信心提升。不过,后续的研究发现,在知识性问题以外的方面,两组被试对答题能力的预测并没有差别。对于那些不能在互联网上找到答案的问题,被试的自我认知并没有发生膨胀。
此后,研究者将注意力转移到了“主动寻找答案”这个过程上。在实验中,“有网组”被试可以主动地上网搜索,而“无网组”一直被动地接受材料,这或许就是造成差异的原因。于是,研究者又重新设计了实验:他们让“无网组”被试也上网获取答案,但他们不需要自己搜索,而是可以直接获取包含答案的网站链接。实验结果显示,“有网组”被试对自己知识储备的评价再一次超过了“无网组”。在此之后,研究者又对实验中的搜索引擎动了手脚——一组被试所用的搜索引擎会将结果完全屏蔽,而另一组只能搜到近一周公布的信息。结果发现,即使是在搜索中遇到困难的被试,他们对自身知识的评价也会显著高于没有经过检索的人。
至此,研究者已经对1712名被试进行了一系列实验,他们终于得出了自己的结论——在使用互联网时,人们主动搜索信息的过程会使他们高估了自己的知识储备和答题能力。
我们如何理解
这项漫长的研究?
不能否认,我们已将互联网当作亲密无间的“记忆伙伴”,而这项研究也提醒我们,互联网可能使我们产生“掌握知识”的错觉。
在互联网之前,人们也会依赖书籍、专家来进行信息的交互。但是这些资源并不是立即可得的。而互联网的便捷性、信息的广泛性则模糊了内部和外部资源的边界,增强了对自我知识储备的错觉。
这一影响看似微不足道,却可能会在决策中产生致命影响。当我们在进行高风险决策时,正确评估自己的能力是十分重要的。错误的高估自己会导致过度自信,从而带来盲目的决定。诚然互联网有着数不清的优点,但在依赖它的同时,也有必要认真审视它对我们产生的影响。(编辑:窗敲雨)
参考资料:
Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.
一个AI
这种名为“我啥都懂”的疾病有三个阶段:
1,我搜到了,我就觉得我会了;
2,我知道去哪搜,我就觉得我会了;
3,我不懂,我也不知道怎么搜,但我就是觉得自己啥都会!
欢迎对号入座。
果壳网
ID:Guokr42
为什么这样的二维码也能扫出来?
长按它,向果壳发送【二维码】
获得答案!
本文来自果壳网,谢绝转载
如有需要请联系
(欢迎转发到朋友圈~) 查看全部
是谁给你的自信,让你上网搜索一下就觉得“我啥都懂”的?
现在,只要求助于万能的互联网,很多问题都可以轻松地找到答案。不过,这样便捷的手段也可能带来一些负面作用。发表在《实验心理学杂志:综合版》(Journal of Experimental Psychology: General)的一项研究[1]就发现,在使用互联网搜索之后,人们可能会产生“掌握知识”的错觉,从而对自己的能力产生过高的估计。
依赖互联网,对我们的记忆是好是坏?图片来源:
互联网:
史上最好记忆搭档
在一个相互合作的团队当中,人们对信息的处理方式会与单枪匹马时有所不同。合作者们会共同组成交互记忆系统(transactive memory systems)——每个人都只需要掌握一部分知识或技能,然后彼此互相依赖,在需要时进行信息交换即可。在这样的系统中,人们需要拥有两种记忆:内部记忆(“我知道些什么”)和外部记忆(“谁知道什么”)。拥有这两种记忆,人们就能够在团队中贡献自己的力量,并且高效地获取外部信息来解决问题。
而随着科技的发展,交互记忆系统也加入了新的成员。除了人与人之外,人与互联网等外部信息来源之间也可以建立类似的关系。互联网上的信息非常丰富,检索起来也异常便捷,这使得它一跃成为了人类最全能的记忆交互搭档。
不仅如此,互联网还是个“甘于奉献不求回报”的队友。和它一起工作时,人们可以不用给自己分配任何内部记忆的任务,只需要记住搜索方法,剩下的任务就都可以交给互联网了。这些特性也使得人们越来越依赖互联网强大的工作能力,减少了自己储存知识的过程。互联网上的信息检索正在改变人们的思维方式,我们所记住的只是找到信息的方法,而对知识本身的记忆则随之减少[2]。
好搭档带来的
认识偏差
除了改变人们的记忆方式之外,便捷的互联网工具也可能让我们对自己的知识储备产生认识上的偏差。有学者指出,使用互联网查找答案会使人产生一种“我也拥有这些知识”的错觉。
试想,当你想要了解一个学术问题的答案时,去图书馆寻找可能是一个相对漫长而痛苦的过程。这个漫长的过程时刻提醒着你“我并不知道这个问题的答案,所以我要寻找”。而在网上,只要输入关键词,你想要的答案可能立即就会呈现在你眼前。这样轻松获得详尽答案的过程并不是一个“自然”的过程,人们可能会因此将搜索到的知识与自己的内部记忆“合并”,产生自己懂得这些知识的错觉。
为了验证这一设想,耶鲁大学的心理学研究者设计了一系列实验。
首先,研究者找来202名被试,把他们分成了“有网组”和“无网组”。两组被试都要回答一组自然科学类小问题(例如“打火机是如何工作的”),不同的是“有网组”可以上网检索帮助答题,而“无网组”只能靠自己既有的知识进行回答。在答题之后,研究者又给出了一些其他不相干领域的题目,要求被试预测自己回答这些问题的表现。

实验结果发现,使用了互联网的被试在不相干的领域也表现出了显著高于“无网组”的自信。有意思的是,即使研究者给“无网组”被试看过“有网组”被试可以查到的资料之后,上述差异依然存在。由此看来,上网搜索似乎确实让人们产生了自己“更有学问”的错觉。
你的许多信息, 是不是已经存在云端了?然后你就忘了。图片来源:
为了确保结果可靠,研究者们又改变评估方式重新进行了实验,并特意提醒被试在预测答题能力时“不要考虑任何外部资源”。而这一次的实验结果依然相同:“有网组”被试依然相信自己拥有更多的知识,可以更好地回答各种问题。
错觉从何而来?
那么,产生这种现象的原因究竟是什么?是人们真的产生了对知识储备的错觉,还是有其他影响因素?对此,研究者提出了若干种假设。
首先,研究者提出,互联网的运用或许并不是影响了人们对知识储备的认识,而是带来了全面的自信心提升。不过,后续的研究发现,在知识性问题以外的方面,两组被试对答题能力的预测并没有差别。对于那些不能在互联网上找到答案的问题,被试的自我认知并没有发生膨胀。
此后,研究者将注意力转移到了“主动寻找答案”这个过程上。在实验中,“有网组”被试可以主动地上网搜索,而“无网组”一直被动地接受材料,这或许就是造成差异的原因。于是,研究者又重新设计了实验:他们让“无网组”被试也上网获取答案,但他们不需要自己搜索,而是可以直接获取包含答案的网站链接。实验结果显示,“有网组”被试对自己知识储备的评价再一次超过了“无网组”。在此之后,研究者又对实验中的搜索引擎动了手脚——一组被试所用的搜索引擎会将结果完全屏蔽,而另一组只能搜到近一周公布的信息。结果发现,即使是在搜索中遇到困难的被试,他们对自身知识的评价也会显著高于没有经过检索的人。
至此,研究者已经对1712名被试进行了一系列实验,他们终于得出了自己的结论——在使用互联网时,人们主动搜索信息的过程会使他们高估了自己的知识储备和答题能力。
我们如何理解
这项漫长的研究?
不能否认,我们已将互联网当作亲密无间的“记忆伙伴”,而这项研究也提醒我们,互联网可能使我们产生“掌握知识”的错觉。
在互联网之前,人们也会依赖书籍、专家来进行信息的交互。但是这些资源并不是立即可得的。而互联网的便捷性、信息的广泛性则模糊了内部和外部资源的边界,增强了对自我知识储备的错觉。
这一影响看似微不足道,却可能会在决策中产生致命影响。当我们在进行高风险决策时,正确评估自己的能力是十分重要的。错误的高估自己会导致过度自信,从而带来盲目的决定。诚然互联网有着数不清的优点,但在依赖它的同时,也有必要认真审视它对我们产生的影响。(编辑:窗敲雨)
参考资料:

Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.
一个AI
这种名为“我啥都懂”的疾病有三个阶段:
1,我搜到了,我就觉得我会了;
2,我知道去哪搜,我就觉得我会了;
3,我不懂,我也不知道怎么搜,但我就是觉得自己啥都会!
欢迎对号入座。
果壳网
ID:Guokr42
为什么这样的二维码也能扫出来?
长按它,向果壳发送【二维码】
获得答案!
本文来自果壳网,谢绝转载
如有需要请联系
(欢迎转发到朋友圈~)
如何进行内部信息源搜索引擎优化方法的异同简单来说
网站优化 • 优采云 发表了文章 • 0 个评论 • 101 次浏览 • 2022-06-26 06:00
内部信息源与外部信息源搜索引擎优化方法的异同简单来说的话,主要是需要进行互补。内部搜索引擎优化主要是想通过传播网页,或者图片,软文等形式吸引用户,进而有效的提高页面的点击量.而外部信息源,是通过上传页面链接等进行文字,图片甚至音频等形式对页面进行推广.当然,我们的目的也是为了提高页面的质量。他们两者的优缺点是不同的。
外部信息源:成本低,效果显著,但用户体验会受到影响。内部搜索引擎优化:成本低,但获得的回报不如外部信息源。如何进行内部搜索引擎优化?外部信息源:大部分在百度新闻源,大家可以查看搜狐新闻源,腾讯新闻源,各大门户网站搜索引擎都会在页面里面发布各种各样的文章.内部搜索引擎优化:在垂直网站发布文章,内容,影片,教程,文献,小说,文章,等内容。
这种策略对于一个网站进行排名,搜索引擎认可,会给网站建议度,分享度等等.对于seo新手来说,是一个好事,可以短时间内,快速积累一定量的内容。如何进行内部搜索引擎优化?准备:一个好的logo,主要说的就是网站名称,网站服务器,域名.网站本身要进行seo优化,必须要具备好的内部数据源.外部信息源:大部分在百度新闻源,大家可以查看搜狐新闻源,腾讯新闻源,各大门户网站搜索引擎都会在页面里面发布各种各样的文章.内部搜索引擎优化:在垂直网站发布文章,内容,影片,教程,文献,小说,文章,等内容。
这种策略对于一个网站进行排名,搜索引擎认可,会给网站建议度,分享度等等.对于seo新手来说,是一个好事,可以短时间内,快速积累一定量的内容。 查看全部
如何进行内部信息源搜索引擎优化方法的异同简单来说
内部信息源与外部信息源搜索引擎优化方法的异同简单来说的话,主要是需要进行互补。内部搜索引擎优化主要是想通过传播网页,或者图片,软文等形式吸引用户,进而有效的提高页面的点击量.而外部信息源,是通过上传页面链接等进行文字,图片甚至音频等形式对页面进行推广.当然,我们的目的也是为了提高页面的质量。他们两者的优缺点是不同的。

外部信息源:成本低,效果显著,但用户体验会受到影响。内部搜索引擎优化:成本低,但获得的回报不如外部信息源。如何进行内部搜索引擎优化?外部信息源:大部分在百度新闻源,大家可以查看搜狐新闻源,腾讯新闻源,各大门户网站搜索引擎都会在页面里面发布各种各样的文章.内部搜索引擎优化:在垂直网站发布文章,内容,影片,教程,文献,小说,文章,等内容。
这种策略对于一个网站进行排名,搜索引擎认可,会给网站建议度,分享度等等.对于seo新手来说,是一个好事,可以短时间内,快速积累一定量的内容。如何进行内部搜索引擎优化?准备:一个好的logo,主要说的就是网站名称,网站服务器,域名.网站本身要进行seo优化,必须要具备好的内部数据源.外部信息源:大部分在百度新闻源,大家可以查看搜狐新闻源,腾讯新闻源,各大门户网站搜索引擎都会在页面里面发布各种各样的文章.内部搜索引擎优化:在垂直网站发布文章,内容,影片,教程,文献,小说,文章,等内容。
这种策略对于一个网站进行排名,搜索引擎认可,会给网站建议度,分享度等等.对于seo新手来说,是一个好事,可以短时间内,快速积累一定量的内容。
彼得·比勒金等 | Dacura平台——历史学研究的数据收集和知识提取新途径
网站优化 • 优采云 发表了文章 • 0 个评论 • 132 次浏览 • 2022-06-25 22:54
当前计算机技术的发展为学者们提供了新的途径对来自互联网的数据进行收集、储存和检索,这为历史科学领域里进行文献综述以及数据收集方法的转型提供了可能。作为一个数据综合维护平台,Dacura系统突出地反映了这一发展趋势的三个方面:第一,它是一种基于知识图谱的数据模型,从而区别于标准的用行与列表达的数据结构;第二,使用网络本体语言(Web Ontology Language,OWL)对数据进行定义;第三,具有基于语义推理的自动处理进程,以筛选掉成千上万与研究议题不相关或者准确度存疑的在线和数据库点击量。Ducara的建立与Seshat数据库处于伴生关系,后者的组建旨在协调量化历史和考古学数据,以此用统计方法对历史动态模型进行测试。以下我们将提供具体的范例来介绍Dacura和Seshat数据库,以说明上文述及的计算机科学的进步从哪些方面能够惠及历史研究者的工作。
对于史学研究者来说,未经审核的数据过剩是一个基本问题,而Dacura平台旨在为学者们提供解决方案。举例来说,假设研究者打算收集量化数据来回答某个特定问题,比如夏威夷岛上的人口增长是否先于1500年左右国家的出现,一个简易的人口压力模型就能做出预测。如果她仅仅在谷歌搜索引擎输入“古代夏威夷人口”,将会得到接近250000个搜索结果(其中一些涉及现代人口统计数据),而且她也没有简单省力的方法去弄清楚,搜索引擎提供的这么多有关古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的维基百科页面仅仅提供了估算数据,而且明显地源于单一的信息源;而无法明确地鉴别数据来源本身就是一个严重的问题)。如果这个研究者代之以谷歌学术,检索的结果数量会减少到大约165000条,尽管她可以指望结果的质量更好,不过鉴别这些论文和学术专著是否与她的问题旨趣直接相关,仍然是个令人生畏的工作。甚至使用JSTOR,这一质量有保证的数据库,也将提供大约60000篇论文给研究者的筛选工作制造障碍。
上述例子表明目前史学研究者所面临的一个中心问题,互联网和出版资源的开放获取为史学工作者们感兴趣的任何研究议题,提供了丰富的信息和材料,然而这些信息没有质量保证,即便是有质量保障的信息源(比如同行评议的开源出版物),信息量也是过剩的。因此对于研究者来说,希望出现这样一种工具:允许研究者建立自己的高质量的、结构化的数据集,为研究者提供解决问题所需要的材料。这种工具要求一种层级结构的(本体)设计,从而让研究者可以较为容易地挖掘出与他们的研究直接相关的检索结果。这个检索工具应该能精确对结果进行索引,研究者检索夏威夷人口的估算值时——正如我们虚构的研究者试图尝试的那样——不仅可以检索到所有与夏威夷人口估算有关的结果,同时也不会检索到与研究题目不相关的其他统计数据和地点信息。简而言之,这样的检索工具必须能够应用集成的词库或词库集作为基本的检索程序的一部分。
除此之外,还有不少检索工具能够提供这种功能:进行跨领域的快速检索特定的、高质量的信息。仅就考古学领域的检索工具(它的第一位创建者是一名考古学家)而言,eHRAF(Human Relations Area Files; )就是业内的一个典范。它提供两个文件档案库(分别是民族志档案和考古学档案),使用高精确度的本体——世界文化概览和考古传统概览(the Outline of World Cultures and Outline of Archaeological Traditions),以及丰富的词库集——文化史料概览(the Outline of Cultural Materials)。因此eHRAF可以从来自将近45万页的考古、民族志原始和二手史料中实现句段检索,能够使用层级结构和布尔搜索策略,轻易地实现信息的搜索和重构。这些检索结果是具体的,并具有极高的质量和专门性,研究者也可以对之进行数量管理。然而,其检索结果的范围仅限于eHRAF数据库囊括的资料。eHRAF之所以能够提供如此高质量的信息检索,是因为其进行了广泛的信息预处理,拥有博士学位的考古学家对每个文档、甚至每个段落都用本体进行了编码。简要来说,该平台提供的简易的高质量信息搜索和检索,其背后却要求巨大的工作量。这一方面意味着eHRAF平台数据扩充比较缓慢,另一方面平台必须要向用户收费。
tDAF(the Digital Archaeological Record; )平台则是另一个检索工具,像前述的eHRAF一样,它也可以提供迅捷的、特定的、高质量的跨领域信息检索服务。包括原始数据集、shapefiles格式的文件和其他类似的数据资料,都能够在tDAF平台上获得,它们被基本的本体组织起来。不同于eHRAF平台,这些信息不是由tDAF的运营人员处理的(尽管他们会进行审核以确保进程的正确性),而主要依赖个体研究者,由他们向平台提交处理好的元数据结构。这一特点令tDAR平台中的信息、档案、文献的数量能相对快速地增长,用户也能够免费使用tDAR平台的信息检索功能,不过为了鼓励提供文献,平台还是会收取少许费用。然而,因为用户提供数据本体和索引,致使材料的细节和精确度存在差异,这意味着搜索的结果可能无法包含所有相关的文档信息。此外,和eHRAF一样,这个平台可供检索的信息也局限在平台数据集中。
OpenContext()则是类似于tDAR的另一个优秀数据库,不过它有一些附加功能,让数据库的检索范围超越了考古学领域。与tDAF类似,考古数据的使用需要一些费用。但不同于tDAF,OC平台的编辑者们同资源贡献者们会一起创建元数据、清理数据以便在网络上发布,而数据资源自身的意义会在这一过程中得到双方的评估;换言之,并不是所有数据都会在平台公开发布,只有那些接受过同行评审、有广泛应用前景的数据才会被发布。一旦与Open Context对接,数据资源就通过关联数据标准(Linked Data standards)与互联网上的数据实现链接。这使得Open Context平台的检索范围超出了档案库的数据,从而克服了eHRAF和tDAR两大平台的局限,同时同行审核又对那些由Open Context直接贡献的信息提供了质量保证,不过审核流程中的信息是基于OC平台的,而非直接链接到的原始信息源,我们认为这是一个较为严重的局限。
我们在这里介绍的,即是比上述三种平台(当然还有许多其他优秀的数据库项目和数据储存平台可供征引介绍)更具有综合性的解决方案:Dacura(dacura. cs.tcd.ie)。这一平台可以跨领域检索特定的高质量信息,它是集数据收集、评估、整理和输出为一体的综合平台,也是Seshat数据库(seshatdatabank. info)的管理系统,后者的功能、特性我们会在下文详述。通过大数据研究的多种新方案的协同开发和运作,Dacura平台在持续的问题和缺陷发现机制的运行中获得助益,并汇集和解决了大量、复杂的历史信息检索、收集过程中面临的问题和需求,因此可以作为一个优秀的研究资源,惠及学院派的史学工作者。
知识图谱技术在诸如谷歌和脸谱等互联网企业的海量和多样信息资源——企业内部会对之加以综合处理和管理——的管理和结构化中,发挥着越来越大的作用。传统的基于表格和行列排列组合的SQL储存解决方案已经不能胜任企业管理的复杂信息的结构及其蕴含的语义,也无法呈现事物间的复杂关系。然而对于数据来说,除了体量庞大和具有技术实力的企业外,知识图谱技术的使用仍然需要专门且难度较高的技术门槛。Dacura设计的目标便是开辟一条路径,让历史研究者们不需要掌握大量的专业知识就可以使用知识图谱技术。Dacura通过以下两个方面来实现这些目标,即它可以自动运行诸多数据——它们来自该平台设置的语义分析模块——的收集和综合处理软件,同时也为用户提供简易的操作工具和界面——而不需要了解隐藏在背后的技术原理。
本文并不旨在为Dacura平台打小广告,毋宁说我们是通过介绍Dacura来进一步阐明一种收集、评估和检索来自互联网和任何一批大数据资源(得益于计算机技术的进步)的途径和方法。我们确信这将为历史科学带来影响深远的冲击。
Dacura平台
Dacura是一个数据综合处理平台。它的设计目的在于,协助历史学者利用丰富的语义知识图谱来建立并管理高质量的数据库。“简明易用”即是该平台创设的一个基础性理念——史学工作者可以对意图收集的数据结构自行定义。该平台运用这些信息结构来进一步支持用户发现、收集、过滤、校正、精炼和分析源于互联网的数据,进而整理出高质量的信息。以下这些具体和详细的信息需要研究者提供给Dacura以开启自动处理的进程:学者与他们研究议题相关的基本信息实体(比如“夏威夷”)的定义;它们的具体内容和特征(如人口估算值)、数据类型和每个属性的计量单位(如数值型)、与数据组内部以及其他数据集其他实体的关系(如夏威夷位于波利尼西亚)。
这一工具的优势之一在于,它能够界定学者意图获取的信息或数据的结构。所有历史科学家都清楚,在史料能被使用之前,其属性和有效性必须得到批判和反思。由于Dacura在执行一次搜索命令以前,处理进程要求所需的数据的一些基本的、精确的属性参数。因此这一运作逻辑鼓励研究者们仔细思考以下问题:当他们展开数据收集工作以前,所需的数据、史料的本质是什么?同时他们采用什么样的视野和方法来提出自己的问题?这样的准备工作为历史学家节省了时间和精力,而辨明有用的信息来源通常也是历史研究中最为困难的任务。Dacura简明和友好的用户交互界面(下文会展开说明)令明确数据界限的工作流程容易起来,同时由于Dacura提供一种灵活的搜索结构,搜索进程能够动态适应,会随着数据被审视的方式,以及聚焦的问题相应地产生变化。
Dacura可以把研究者界定的数据集的结构编译为一种语义网络本体结构。这种本体结构根据万维网联盟(W3C,互联网国际标准的主要制定者)的网络本体语言(OWL)标准制式进行编码。作为一种丰富而灵活的本体语言标准,OWL可以令广泛而多样的约束条件和推理规则被研究者指定到数据收集进程中去,如一个城镇的人口不应该比它所在地区的人口更为庞大。因而与非结构化的自然语言字符串——它们是驱动大多数搜索引擎的结果——形成对比,高度体系化和精确化界定出的本体结构的数据集,其属性参数能够被计算机充分利用,从而为研究者获取特征更为鲜明的检索结果。由此,史学研究者输入和界定的信息结构及其属性参数越丰富,Dacura系统对数据的自动收集和用以分析、优化和管理数据工具的生成也就越容易。
Dacura平台的运行还基于一种语义网络技术。其核心内容是一种资源描述框架(Resource Description Framework, RDF),是一种三元数据库结构(不是那种二维的行与列组成的电子表格),呈现为类似“夏威夷处于波利尼西亚”、“夏威夷拥有岛屿”或是“波利尼西亚拥有岛屿”这样的主谓宾句式结构(subject-predicate-object structure)。这种主谓宾句式结构可以被理解为结点-边-属性(nodes-edges-properties)这样的语义结构,形成一种呈现和储存数据信息的三维视图表格。RDF作为三元存储图形数据结构能够实现无索引的链接,每一个主谓宾句式词串可以直接链接到对应的主谓宾三元组合中去,不需要索引查找。结合上文提及的“夏威夷人口”这一假设的问题语境,波利尼西亚、夏威夷和岛屿这些关键词会被全部链接起来,使得系统不需要索引搜索就可以确定夏威夷是波利尼西亚群岛中的一个。
Dacura平台运用OWL本体来确保语义推理过程中的质量管理以及数据收集工作的正常进行;具体来说,如果上文提及的三元组合存在冲突,Dacura会将之识别出来并作为一个冲突项加以标记以供研究者进一步评估。Dacura被设计成在开放关联数据的原则下生产和使用数据。这一设计理念让以下活动变得更为便利:比如从现有的结构化信息资源里输入信息,通过数据集之间的互通以扩充研究者管理的数据集,这里的互通是经由关联数据链接到公共数据资源(如DBpedia或维基数据,它是维基百科的关联数据版本),同时那些由Dacura组织起来的数据集也能通过类似的方式简易地关联起来。我们在Youtube视频网站上提供了Dacura链接不同资源的视频范例。Dacura平台的一个核心功能即数据收集,包括通过关联数据采集数据,而且作为系统工作流的一部分,平台会通过自动和人工的方式对数据的质量进行评估。因此Dacura不仅能够快捷和便利地收集信息,也能够对信息的质量进行评定。
Dacura平台的工作流把数据的创建和管理分为四个阶段,如图一所示。第一个阶段是数据的收集:确定用于填充研究者数据集的高质量信息的来源。Dacura支持多种方式进行数据收集:它可以在公共数据资源识别出与学者研究相关的数据,也可以部署自动代理进行互联网搜索,再到通过人工力量对信息来源做进一步规范。这套系统的目标在于尽可能大的实现处理进程的自动化,而识别和界定信息来源是为了扩充学者数据集的需要。在这个阶段,系统的目标不在于寻找到那些与研究者感兴趣的研究议题有关的内容实体,而是为了寻找到明确的信息来源,可以用于扩充数据的属性和关系,即那些研究者已经在数据规范中加以定义的属性和关系。
Dacura数据创建和管理进程的第二个步骤是知识提取。这个阶段会从收集的数据来源中提取出精确的信息,并将之纳入到研究者的数据规范所需要的结构中去。尽管自然语言处理和其他的人工智能技术仍然在持续发展,但它们还是很容易出错,因而在通常情况下为了保证数据的高质量,投入一些人力来过滤程序误报也是必须的。Dacura平台采用的工具在筛选、过滤、改进、注释和链接候选信息记录等方面,支持人工用户和自主代理产出知识报告;换言之,信息来源里包含有相关知识的权威解释,并通过链接到网络数据而得到更广泛的扩充。
Dacura数据处理进程的第三个阶段或许是为保证数据质量最为重要的阶段:专家分析。Dacura平台的一大长处便是聚焦数据质量,基于自动代理工具和人工处理确保收集来的数据在准确度和完整性上符合研究者先前提供给平台的数据规范要求。平台首先通过基于语义一致性和有效性测试技术的自动处理工具,对收集来的原始数据加以处理,将不同数据指向并合并到一个综合解释中去,该解释体现了自动处理工具对权威数据——它们准确地反映了真实的状况——最精确的预估。这些综合解释进一步由领域专家——就像本文假设的对夏威夷人口问题感兴趣的学者——来评估,这一步骤允许专家校正讹误继而确认专家意见与自动处理工具之间的不一致。专家们可以编纂具有个人色彩的数据解释(比如特别指明只有某个特定的信息来源是可信的),并在数据集上把这条解释覆盖上去,进而创建一个自定义的数据集,以呈现他们对某些数据的看法。
至于Seshat平台的领域专家,由该平台的管理团队负责征集,主要根据他们在需要评估的相关领域内的出版记录。这些专家都具有相应学术领域的博士学位,相当一部分有学院派的工作背景。专家也会被定期评估,以辨别出经常输入与采集到的数据有讹误的那些人。有人可能会认为通过征询来建立一个专家库似乎不那么有效率,但是我们在Seshat数据库公开的名单中,可以看到目前作为志愿者参与数据评估的专家们的工作质量。本文撰写时数据库的专家数量为77名,而这些志愿专家们的专业领域的覆盖范围表明,将专家评估整合到像Dacura平台这样的数据收集系统是十分可行的。大部分采用了Dacura平台的项目,可能不会有Seshat数据库这般囊括了广阔的学术视野和范围,唯一需要对数据进行评估的专家,可能就是研究者自己。
最后,Dacura支持各类输出工具让数据能够以不同格式输出到第三方平台。Dacura发布了它作为一种关联数据格式的管理数据,所以其他的用户和平台,如上文述及的Open Context,能够毫无困难地访问它。Dacura还提供SPARQL终端——一种针对RDF的查询语言——支持数据的复杂过滤和提取。这便允许智能应用程序以一种之前难以想见的方式实现与数据的交互。对于个人用户来说,Dacura平台能够生成图表、表格、地图和其他的可视化工具,为用户提供便于理解数据的可视化呈现方式。以图表或其他输出方式呈现的数据,可以浏览、检索和选定,令用户能够访问其中与他们的研究主题最为贴合的一部分数据。Dacura还可以实现数据集或它们的子项以更为广泛的数据格式输出,从而用于外部分析,其中包括地理信息系统以及诸如SPSS或者R语言的统计格式。
Dacura的实施:Seshat数据库的元数据模型
作为Dacura在研究实践中发挥作用的范例,图二向读者展示了元数据模型如何被运用到Seshat——全球历史数据库(Global Historical Databank)。Seshat数据库()的目的是组建一个全面而综合的知识体系,这些知识包括人类历史以及史前史,以实证检验有关文化演变的假说,包括宗教、仪式、战争、农业或者其他变量在社会复杂化进程中扮演的角色。迄今为止,Seshat数据库已经被用于区分出一种单一的复杂性维度,可以用来解释人类社会组织中大约四分之三的变化;此外它还被用于论证轴心时代贯穿于欧亚大陆的社会政治转型的假说,超过了一千年的时间跨度。运用适当的统计学技术来考察这类时间尺度较大的问题需要有效和可靠的数据;这也是说,数据能够反映学者们对问题的定义,同时数据在不同案例中以同样的标准被度量。
当Seshat数据库在计划筹建阶段时,正处于开发状态的Dacura被认为对Seshat来说是一个绝佳的数据处理平台。两支团队决定协同开发Dacura和Seshat平台,令双方实现信息共享。由于计算机科学家和历史学家以往不会一同开展工作,所以Dacura和Seshat两大平台的研究团队之间的合作证明跨学科研究能够取得丰硕的成果,当然前提是Dacura团队的计算机专家能够了解历史学家的需求,同时Seshat研究团队也能够理解三元数据结构在收集和管理数据层面的可能性和局限性。
Seshat的运行环境基于两个基本信息:位置信息(Location)和持续时段(Duration)。具体来说,位置信息是地球表面上任意一个点或者多边形区域,其实体被定义为领域(Territory)。Seshat定义了三级结构的领域实体(在Seshat升级后可能实现更多层级结构):
(1)自然地理区域(Natural-Geographic Areas,NGA),它指的是一种大约100x100公里的相邻区域,其中包含有相当均一的生态环境区域。
(2)生物群落(Biomes),指的是一种具有连续性的生物圈或是拥有相似气候条件的区域。
(3)世界性区域(World Regions),它可能是指像民族国家、地区政权或是能以其他特定标准识别的预定义实体。
一个持续时段可以设定为一个单个日期或一个时间段。添加一个持续时段到领域实体层级中去,便可以产生两个有时间限制的实体之一:
(1)人口,指在一个确定的时间段内生活在某个特定领域内的一批人类群体;
(2)一个历史事件,它被定义为在一个确定的时间段内、在某个特定领域内发生的事件。
Seshat数据库能够为特定研究问题提供人口和历史事件的实体类。对于人口,目前有以下几种实体类:
(1)传统,它被定义为人类群体“分享相似的日常生活实践、技术以及社会政治组织,它们在一个相对大的区域空间内呈现出连续性,并且在一段相对较长的时期里保持了延续性”。对于这个实体类来说,考古学传统概览(the Outline of Archaeological Traditions,下文简称OAT)为平台的案例选择提供了通用的抽样范围;同时,文化资料概览(the Outline of Cultural Materials,以下简称OCM)为数据编码提供了词库。
(2)文化群体,它指的是一类人群,他们共享一套规范、信仰、行为、价值、态度等等。对于这个实体类来说,主要的抽样范围来自世界文化概览(the Outline of World Cultures,以下简称OWC),词库同样来自OCM。
(3)政治组织,它指的是基于相似的政府管理形成的独立的政治性联合体。这里有一个用于具体研究项目而创建的实体类范例。图尔钦等人撰写的论文向读者展示了一个由30个案例组成的样本,这些案例根据社会政治组织和地理区域的特点被挑选出来。OCM为这个实体类提供了主要的词库。
(4)聚落,这个实体类的物理空间以及物质设施范围很广,其规模大小和复杂程度的跨度涵盖了临时性营地以及大都市。由于能够被编码的聚落范围庞大,该实体没有界定抽样范围。主要的词库来源仍然是OCM。
(5)认同群体,具有相同的归属感的一群人。跟政治组织类似,这个实体类也是为特定的研究项目创建的,它的抽样也具有随机性的特征。对于这一实体,没有正式的词库,不过OCM在一些特定领域也被使用。
(6)语言群体,它是指使用同一种语言的群体。这一实体类使用的抽样范围是民族语言志平台(Ethnologue,),但是它也没有正式的词库(同样,OCM在一些特定领域也被使用)。
此外,子类层级也能够被添加到实体类中去,以为研究者提供属性更多的数据集。图三便显示了为上述提及的实体类创建的实体子类。
“历史事件”实体则明显地包含近乎无限可能的实体类和子类。故而为了维持一些历史事件实体的秩序结构,DBpedia (/server/ontology/classes/)中的事件实体作为基本的本体得到了使用。正如图二显示的,目前实体类中的事件实体包括:
(1)群体内部冲突,诸如战争、决斗、分封等类似事件。
(2)社会-自然性灾害,如饥荒或瘟疫。
(3)自然灾害,如干旱、洪水、虫害、火山爆发等等。
(4)社会崩坏。
(5)交接仪式,如婚礼、加冕、启动仪式等活动。
(6)社会运动,包括像移民这种身体迁移活动,还有诸如复兴性运动、千禧主义、罢工等社会性运动。
(7)技术性事件,如发明、发现、技术创新等等。
Seshat的内容获取:Dacura的工作流
作为历史学家如何应用Dacura获取数据集的范例,图四为读者展示了传统的实体类数据,如何通过Dacura填充到Seshat数据库中去。图中蓝色矩形之内的流程完全可以实现自动化,而蓝色矩形之外的区域需要把自动分析和专家评估结合起来,确保Seshat数据的有效性和可靠性。我们可以看到,蓝色矩形顶部的处理流程,人口这个实体是由领域范围内的持续时段所定义的。人口实体的特征会通过OAT的词库被分配到传统实体类之中。然后,数据挖掘的工作流会启动自动搜索的进程,根据OCM词库在互联网搜索文化领域的相关信息。在这个节点,研究者也可以使用Dacura检索互联网或者印刷材料获取文化领域的数据。Dacura会在特定的文化领域收集信息,在图四所示的范例中,我们用考古学数据作为例子,系统会对比DBpedia中的数据,以确定关联的数据是否需要纳入其他来源的数据,并且通过自动分析程序评估数据的一致性。前后矛盾的数据(如存在语义矛盾或数值冲突的数据)会输出给研究文化群体或文化领域的研究者和专家做进一步评估。这些研究者或领域专家要么会为文化领域确定一个规范值,要么在冲突无法解决时,给出一个非规范值。不管怎么说,所有收集过来的数据都会囊括进Seshat数据库,并且被标记为规范值或者非规范值,其他研究者可以检索到这些值并对之加以修正或扩展它们的解释。规范数值同时也会输出到DBpedia以协助其他的研究者以及未来的搜索。
研究者也可以输入自己的数据,包括图片、媒体和shapefile格式文件。数据合并的处理流程可允许其他研究者通过关联数据来访问这些共享文件,令之可以被广泛使用。更为重要的意义在于,那些被整合进Seshat或由Dacura生成的数据集中的其他数据,其质量能够不断得到提升,这正是归功于Dacura允许研究者对先前合并的数据进行评注和再评估。换句话说,Dacura不仅可以用于创建和管理巨量数据集,也能确保数据质量能够持续不断地得到提升。
使用Seshat数据库:从Dacura输出数据
到了这一步,关切夏威夷人口估值的研究者便能够通过Seshat数据库——或是她自己利用Dacura生成的数据集——来迅速地获得精确并且可以溯源的人口数据。她可以通过Dacura来开启Seshat数据库,接着在操作界面中选取夏威夷的自然地理区域模块,然后选取她所感兴趣的某个历史时期的夏威夷居住人口的政治组织子级,之后再选择人口这个变量。我们在Youtube上传了一部视频供读者参考。在这个案例中,这位学者获得的有关人口的数据源自Seshat数据库,这个数据是我们上文述及的Dacura数据收集和评估进程的产物。但是我们的研究者还能够使用Dacura创建新本体,以引导她进行更具个性化的搜索,正如我们在上文提到的视频中揭示的那样。
无论是在Seshat平台还是她运用Dacura从其他来源获取的数据,我们的学者都能获得各种类型的结果输出。正如前文述及的那样,Dacura会将数据集作为关联数据发布,并使用SPARQL进行输出。SPARQL是一种RDF的查询语言,后者能够生成文档和原始数据集,还有像图表、表格、地图之类的其他可视化信息。另外一点对史学工作者也至关重要,即SPARQL与GeoSPARQL能够协同运行,这得以让SPARQL数据集整合进入采用了OGC(Open Geospatial Consortium,开放地理空间信息联盟)查询标准(比如GML、WKT等)的地理信息系统中去。此外,Dacura平台上生成的原始文本、媒体或数字数据,也能够被浏览、搜索和挑选,研究者可以访问对研究最有价值的那部分文本、图片、媒体或数据集。Dacura还能够收集或输入的材料——或是它们的子级——以更多格式导出来支持进一步的外部分析。例如,研究者可能会想把有关人口估算值的数据输出到统计分析平台。那么Dacura将会生成逗号分割文件(comma-delimited file),这个文件能够被直接传输到电子表格或是统计数据软件包,如此一来研究者就可以使用任何数据分析的方法,来解答自己的问题。图五展示了一个有关夏威夷人口估算值的简单线性图表,它的生成有赖于Dacura和Seshat平台的数据输出功能,生成了一个CSV文件,并使用Excel制作了一张图表。
我们的这位研究者最初问题的答案是,夏威夷的人口增长确实先于这座岛屿上第一个国家政权的产生,这也正如人口压力模型预测的那样。就答案本身来说,这算不上是个令人印象深刻的结果(实际上或许也是个非常简单化的结论),但是考虑到我们的研究者通过Dacura平台的处理进程,可以在几分钟里收集数据,同时对它们的质量抱有信心,而且还可以访问与之相关的所有附加数据,不能不说是一次令人叹服的研究之旅。
结论
互联网为历史学家提供了大量的信息,然而现状却是,这些信息经常太过丰富,而且缺少质量监控。Dacura便是旨在解决这些问题而被设计开发出来的。它提供一种便捷的、质量有保证的途径,帮助史学工作者在互联网上收集信息,同时提供一个可供管理的质量控制体系。Dacura具有的精心设计的本体(dacura.scss.tcd.ie/ontologies/ dacura-130317.ttl),进而使研究者能够简易地定义和检索到与他们的研究直接相关的信息。Dacura的一体化词库和RDF三元存储结构让用户不需要使用在结果中进行跨领域的详细索引,如此一来,有关给定主题的所有信息,甚至那些相关性不那么明显或作为相关索引的信息,都可以被用户检索到。此外,Dacura提供的用于输出的数据格式非常广泛,从文本到可视化形式再到表格。Dacura虽然不是唯一可用的数据收集和管理程序,但是因为它与Seshat数据库一同被开发出来,因而它为新兴的基于计算机技术的历史和考古数据处理提供了一个独特模型。
从这个角度来说,Dacura展现了一系列可应用于历史学研究的重要新工具。正如肯特在他最近发表的论文中指出的那样,“(历史学家以及)考古学家在获取、管理和分析大量且差异巨大的数据过程中,日益面临挑战。” Dacura平台的问世为这一系列挑战提供了数种解决方案。具体来说,Dacura平台嵌入了(1)一个基于RDF三元存储的语义知识图谱技术,同时运用了(2)网络本体语言(OWL)来进行数据定义,它还嵌入了(3)语义推理模块,该模块是自动进行数据评估的基础,以及(4)它按照关联数据标准实现结果输出。
通过OWL数据定义和知识图谱技术,历史学家可以把收集到的海量数据,以快捷和简易的方式将那些对既定研究主题最为重要的信息精减和筛选出来,并且可以让这些数据以多样的格式输出。语义推理模块为用户提供了一种迅捷的数据评估以及可持续管理的机制。关联数据标准制式下,Dacura允许研究者随时访问那些经由其他学者收集来和评估过的数据。
另外,在像Dacura这样的平台上,计算机科学领域最近取得的新进展,也为那些非历史学领域的学者提供了可用和精确的历史数据。长期以来,那些有关文化稳定和变迁的时空记录,以及人类社会成功或者失败的实践案例,在考古学和历史学学科之外没有得到广泛应用,这是令许多史学工作者倍感沮丧的事情。不过这也没什么好惊讶的,因为对于外行来说,历史数据和材料很难获取也很难理解。然而,像Dacura这样的平台,它们通过自动化方式对历史数据进行收集、评估,对经过检验的精确的历史学数据进行检索,从而为经济学家、政治学家、生态学家、地理学家以及大众提供了一种获取数据途径和模型,让他们得以探索人类历史长河中累积下来的丰富而宝贵的历史记录。
致谢
本文作者向参加了于2015年5月4日至6日在圣塔菲研究所举办的工作坊的与会者表示感谢,在这次工作坊上与会者们讨论了有关数据收集以及高质量信息整合的各种需要,以及Seshat元数据模型的开发事宜。我们还要感谢Dacura平台的研究团队、博士后工作站人员、顾问人员以及专家团队,他们做出了巨大贡献。此外,我们的合作伙伴为我们撰写这篇论文提供了无比宝贵的协助。更多具体信息,也请读者登录Seshat的网页()查看公示的详细清单,包括私人捐赠、合作者、专家、顾问以及他们擅长的专业领域。最后,我们向匿名评审专家致以感谢,正是他们深富洞见的评审意见令我们能够更好地提升论文的质量和水准。
(作者彼得·比勒金[Peter N. Peregrine],劳伦斯大学人类学系,圣塔菲研究所;罗布·布伦南[Rob Brennan],都柏林大学三一学院,统计学和计算机科学学院ADAPT&知识与数据工程项目组;托马斯·柯里[Thomas Currie],埃克塞特大学生命科学系;凯文·费尼[Kevin Feeney],都柏林大学三一学院,计算机科学与统计学院,知识与数据工程项目组;彼得·弗朗索瓦[Pieter François],赫特福德大学人文学院,牛津大学认知与发展人类学研究所;彼得·特钦[Peter Turchin],康涅狄格大学生态与进化生物学系;哈维·怀特霍斯[Harvey Whitehouseg],牛津大学认知与发展人类学研究所。译者纪子凡,南京大学历史学院硕士研究生)
本文注释及更多精彩文章请参阅《全球史评论》第十九辑
首师大全球史中心
公众号ID:gh-cnu
欢迎关注,谢谢大家~ 查看全部
彼得·比勒金等 | Dacura平台——历史学研究的数据收集和知识提取新途径
当前计算机技术的发展为学者们提供了新的途径对来自互联网的数据进行收集、储存和检索,这为历史科学领域里进行文献综述以及数据收集方法的转型提供了可能。作为一个数据综合维护平台,Dacura系统突出地反映了这一发展趋势的三个方面:第一,它是一种基于知识图谱的数据模型,从而区别于标准的用行与列表达的数据结构;第二,使用网络本体语言(Web Ontology Language,OWL)对数据进行定义;第三,具有基于语义推理的自动处理进程,以筛选掉成千上万与研究议题不相关或者准确度存疑的在线和数据库点击量。Ducara的建立与Seshat数据库处于伴生关系,后者的组建旨在协调量化历史和考古学数据,以此用统计方法对历史动态模型进行测试。以下我们将提供具体的范例来介绍Dacura和Seshat数据库,以说明上文述及的计算机科学的进步从哪些方面能够惠及历史研究者的工作。
对于史学研究者来说,未经审核的数据过剩是一个基本问题,而Dacura平台旨在为学者们提供解决方案。举例来说,假设研究者打算收集量化数据来回答某个特定问题,比如夏威夷岛上的人口增长是否先于1500年左右国家的出现,一个简易的人口压力模型就能做出预测。如果她仅仅在谷歌搜索引擎输入“古代夏威夷人口”,将会得到接近250000个搜索结果(其中一些涉及现代人口统计数据),而且她也没有简单省力的方法去弄清楚,搜索引擎提供的这么多有关古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的维基百科页面仅仅提供了估算数据,而且明显地源于单一的信息源;而无法明确地鉴别数据来源本身就是一个严重的问题)。如果这个研究者代之以谷歌学术,检索的结果数量会减少到大约165000条,尽管她可以指望结果的质量更好,不过鉴别这些论文和学术专著是否与她的问题旨趣直接相关,仍然是个令人生畏的工作。甚至使用JSTOR,这一质量有保证的数据库,也将提供大约60000篇论文给研究者的筛选工作制造障碍。
上述例子表明目前史学研究者所面临的一个中心问题,互联网和出版资源的开放获取为史学工作者们感兴趣的任何研究议题,提供了丰富的信息和材料,然而这些信息没有质量保证,即便是有质量保障的信息源(比如同行评议的开源出版物),信息量也是过剩的。因此对于研究者来说,希望出现这样一种工具:允许研究者建立自己的高质量的、结构化的数据集,为研究者提供解决问题所需要的材料。这种工具要求一种层级结构的(本体)设计,从而让研究者可以较为容易地挖掘出与他们的研究直接相关的检索结果。这个检索工具应该能精确对结果进行索引,研究者检索夏威夷人口的估算值时——正如我们虚构的研究者试图尝试的那样——不仅可以检索到所有与夏威夷人口估算有关的结果,同时也不会检索到与研究题目不相关的其他统计数据和地点信息。简而言之,这样的检索工具必须能够应用集成的词库或词库集作为基本的检索程序的一部分。
除此之外,还有不少检索工具能够提供这种功能:进行跨领域的快速检索特定的、高质量的信息。仅就考古学领域的检索工具(它的第一位创建者是一名考古学家)而言,eHRAF(Human Relations Area Files; )就是业内的一个典范。它提供两个文件档案库(分别是民族志档案和考古学档案),使用高精确度的本体——世界文化概览和考古传统概览(the Outline of World Cultures and Outline of Archaeological Traditions),以及丰富的词库集——文化史料概览(the Outline of Cultural Materials)。因此eHRAF可以从来自将近45万页的考古、民族志原始和二手史料中实现句段检索,能够使用层级结构和布尔搜索策略,轻易地实现信息的搜索和重构。这些检索结果是具体的,并具有极高的质量和专门性,研究者也可以对之进行数量管理。然而,其检索结果的范围仅限于eHRAF数据库囊括的资料。eHRAF之所以能够提供如此高质量的信息检索,是因为其进行了广泛的信息预处理,拥有博士学位的考古学家对每个文档、甚至每个段落都用本体进行了编码。简要来说,该平台提供的简易的高质量信息搜索和检索,其背后却要求巨大的工作量。这一方面意味着eHRAF平台数据扩充比较缓慢,另一方面平台必须要向用户收费。
tDAF(the Digital Archaeological Record; )平台则是另一个检索工具,像前述的eHRAF一样,它也可以提供迅捷的、特定的、高质量的跨领域信息检索服务。包括原始数据集、shapefiles格式的文件和其他类似的数据资料,都能够在tDAF平台上获得,它们被基本的本体组织起来。不同于eHRAF平台,这些信息不是由tDAF的运营人员处理的(尽管他们会进行审核以确保进程的正确性),而主要依赖个体研究者,由他们向平台提交处理好的元数据结构。这一特点令tDAR平台中的信息、档案、文献的数量能相对快速地增长,用户也能够免费使用tDAR平台的信息检索功能,不过为了鼓励提供文献,平台还是会收取少许费用。然而,因为用户提供数据本体和索引,致使材料的细节和精确度存在差异,这意味着搜索的结果可能无法包含所有相关的文档信息。此外,和eHRAF一样,这个平台可供检索的信息也局限在平台数据集中。
OpenContext()则是类似于tDAR的另一个优秀数据库,不过它有一些附加功能,让数据库的检索范围超越了考古学领域。与tDAF类似,考古数据的使用需要一些费用。但不同于tDAF,OC平台的编辑者们同资源贡献者们会一起创建元数据、清理数据以便在网络上发布,而数据资源自身的意义会在这一过程中得到双方的评估;换言之,并不是所有数据都会在平台公开发布,只有那些接受过同行评审、有广泛应用前景的数据才会被发布。一旦与Open Context对接,数据资源就通过关联数据标准(Linked Data standards)与互联网上的数据实现链接。这使得Open Context平台的检索范围超出了档案库的数据,从而克服了eHRAF和tDAR两大平台的局限,同时同行审核又对那些由Open Context直接贡献的信息提供了质量保证,不过审核流程中的信息是基于OC平台的,而非直接链接到的原始信息源,我们认为这是一个较为严重的局限。
我们在这里介绍的,即是比上述三种平台(当然还有许多其他优秀的数据库项目和数据储存平台可供征引介绍)更具有综合性的解决方案:Dacura(dacura. cs.tcd.ie)。这一平台可以跨领域检索特定的高质量信息,它是集数据收集、评估、整理和输出为一体的综合平台,也是Seshat数据库(seshatdatabank. info)的管理系统,后者的功能、特性我们会在下文详述。通过大数据研究的多种新方案的协同开发和运作,Dacura平台在持续的问题和缺陷发现机制的运行中获得助益,并汇集和解决了大量、复杂的历史信息检索、收集过程中面临的问题和需求,因此可以作为一个优秀的研究资源,惠及学院派的史学工作者。
知识图谱技术在诸如谷歌和脸谱等互联网企业的海量和多样信息资源——企业内部会对之加以综合处理和管理——的管理和结构化中,发挥着越来越大的作用。传统的基于表格和行列排列组合的SQL储存解决方案已经不能胜任企业管理的复杂信息的结构及其蕴含的语义,也无法呈现事物间的复杂关系。然而对于数据来说,除了体量庞大和具有技术实力的企业外,知识图谱技术的使用仍然需要专门且难度较高的技术门槛。Dacura设计的目标便是开辟一条路径,让历史研究者们不需要掌握大量的专业知识就可以使用知识图谱技术。Dacura通过以下两个方面来实现这些目标,即它可以自动运行诸多数据——它们来自该平台设置的语义分析模块——的收集和综合处理软件,同时也为用户提供简易的操作工具和界面——而不需要了解隐藏在背后的技术原理。
本文并不旨在为Dacura平台打小广告,毋宁说我们是通过介绍Dacura来进一步阐明一种收集、评估和检索来自互联网和任何一批大数据资源(得益于计算机技术的进步)的途径和方法。我们确信这将为历史科学带来影响深远的冲击。
Dacura平台
Dacura是一个数据综合处理平台。它的设计目的在于,协助历史学者利用丰富的语义知识图谱来建立并管理高质量的数据库。“简明易用”即是该平台创设的一个基础性理念——史学工作者可以对意图收集的数据结构自行定义。该平台运用这些信息结构来进一步支持用户发现、收集、过滤、校正、精炼和分析源于互联网的数据,进而整理出高质量的信息。以下这些具体和详细的信息需要研究者提供给Dacura以开启自动处理的进程:学者与他们研究议题相关的基本信息实体(比如“夏威夷”)的定义;它们的具体内容和特征(如人口估算值)、数据类型和每个属性的计量单位(如数值型)、与数据组内部以及其他数据集其他实体的关系(如夏威夷位于波利尼西亚)。
这一工具的优势之一在于,它能够界定学者意图获取的信息或数据的结构。所有历史科学家都清楚,在史料能被使用之前,其属性和有效性必须得到批判和反思。由于Dacura在执行一次搜索命令以前,处理进程要求所需的数据的一些基本的、精确的属性参数。因此这一运作逻辑鼓励研究者们仔细思考以下问题:当他们展开数据收集工作以前,所需的数据、史料的本质是什么?同时他们采用什么样的视野和方法来提出自己的问题?这样的准备工作为历史学家节省了时间和精力,而辨明有用的信息来源通常也是历史研究中最为困难的任务。Dacura简明和友好的用户交互界面(下文会展开说明)令明确数据界限的工作流程容易起来,同时由于Dacura提供一种灵活的搜索结构,搜索进程能够动态适应,会随着数据被审视的方式,以及聚焦的问题相应地产生变化。
Dacura可以把研究者界定的数据集的结构编译为一种语义网络本体结构。这种本体结构根据万维网联盟(W3C,互联网国际标准的主要制定者)的网络本体语言(OWL)标准制式进行编码。作为一种丰富而灵活的本体语言标准,OWL可以令广泛而多样的约束条件和推理规则被研究者指定到数据收集进程中去,如一个城镇的人口不应该比它所在地区的人口更为庞大。因而与非结构化的自然语言字符串——它们是驱动大多数搜索引擎的结果——形成对比,高度体系化和精确化界定出的本体结构的数据集,其属性参数能够被计算机充分利用,从而为研究者获取特征更为鲜明的检索结果。由此,史学研究者输入和界定的信息结构及其属性参数越丰富,Dacura系统对数据的自动收集和用以分析、优化和管理数据工具的生成也就越容易。
Dacura平台的运行还基于一种语义网络技术。其核心内容是一种资源描述框架(Resource Description Framework, RDF),是一种三元数据库结构(不是那种二维的行与列组成的电子表格),呈现为类似“夏威夷处于波利尼西亚”、“夏威夷拥有岛屿”或是“波利尼西亚拥有岛屿”这样的主谓宾句式结构(subject-predicate-object structure)。这种主谓宾句式结构可以被理解为结点-边-属性(nodes-edges-properties)这样的语义结构,形成一种呈现和储存数据信息的三维视图表格。RDF作为三元存储图形数据结构能够实现无索引的链接,每一个主谓宾句式词串可以直接链接到对应的主谓宾三元组合中去,不需要索引查找。结合上文提及的“夏威夷人口”这一假设的问题语境,波利尼西亚、夏威夷和岛屿这些关键词会被全部链接起来,使得系统不需要索引搜索就可以确定夏威夷是波利尼西亚群岛中的一个。
Dacura平台运用OWL本体来确保语义推理过程中的质量管理以及数据收集工作的正常进行;具体来说,如果上文提及的三元组合存在冲突,Dacura会将之识别出来并作为一个冲突项加以标记以供研究者进一步评估。Dacura被设计成在开放关联数据的原则下生产和使用数据。这一设计理念让以下活动变得更为便利:比如从现有的结构化信息资源里输入信息,通过数据集之间的互通以扩充研究者管理的数据集,这里的互通是经由关联数据链接到公共数据资源(如DBpedia或维基数据,它是维基百科的关联数据版本),同时那些由Dacura组织起来的数据集也能通过类似的方式简易地关联起来。我们在Youtube视频网站上提供了Dacura链接不同资源的视频范例。Dacura平台的一个核心功能即数据收集,包括通过关联数据采集数据,而且作为系统工作流的一部分,平台会通过自动和人工的方式对数据的质量进行评估。因此Dacura不仅能够快捷和便利地收集信息,也能够对信息的质量进行评定。
Dacura平台的工作流把数据的创建和管理分为四个阶段,如图一所示。第一个阶段是数据的收集:确定用于填充研究者数据集的高质量信息的来源。Dacura支持多种方式进行数据收集:它可以在公共数据资源识别出与学者研究相关的数据,也可以部署自动代理进行互联网搜索,再到通过人工力量对信息来源做进一步规范。这套系统的目标在于尽可能大的实现处理进程的自动化,而识别和界定信息来源是为了扩充学者数据集的需要。在这个阶段,系统的目标不在于寻找到那些与研究者感兴趣的研究议题有关的内容实体,而是为了寻找到明确的信息来源,可以用于扩充数据的属性和关系,即那些研究者已经在数据规范中加以定义的属性和关系。
Dacura数据创建和管理进程的第二个步骤是知识提取。这个阶段会从收集的数据来源中提取出精确的信息,并将之纳入到研究者的数据规范所需要的结构中去。尽管自然语言处理和其他的人工智能技术仍然在持续发展,但它们还是很容易出错,因而在通常情况下为了保证数据的高质量,投入一些人力来过滤程序误报也是必须的。Dacura平台采用的工具在筛选、过滤、改进、注释和链接候选信息记录等方面,支持人工用户和自主代理产出知识报告;换言之,信息来源里包含有相关知识的权威解释,并通过链接到网络数据而得到更广泛的扩充。
Dacura数据处理进程的第三个阶段或许是为保证数据质量最为重要的阶段:专家分析。Dacura平台的一大长处便是聚焦数据质量,基于自动代理工具和人工处理确保收集来的数据在准确度和完整性上符合研究者先前提供给平台的数据规范要求。平台首先通过基于语义一致性和有效性测试技术的自动处理工具,对收集来的原始数据加以处理,将不同数据指向并合并到一个综合解释中去,该解释体现了自动处理工具对权威数据——它们准确地反映了真实的状况——最精确的预估。这些综合解释进一步由领域专家——就像本文假设的对夏威夷人口问题感兴趣的学者——来评估,这一步骤允许专家校正讹误继而确认专家意见与自动处理工具之间的不一致。专家们可以编纂具有个人色彩的数据解释(比如特别指明只有某个特定的信息来源是可信的),并在数据集上把这条解释覆盖上去,进而创建一个自定义的数据集,以呈现他们对某些数据的看法。
至于Seshat平台的领域专家,由该平台的管理团队负责征集,主要根据他们在需要评估的相关领域内的出版记录。这些专家都具有相应学术领域的博士学位,相当一部分有学院派的工作背景。专家也会被定期评估,以辨别出经常输入与采集到的数据有讹误的那些人。有人可能会认为通过征询来建立一个专家库似乎不那么有效率,但是我们在Seshat数据库公开的名单中,可以看到目前作为志愿者参与数据评估的专家们的工作质量。本文撰写时数据库的专家数量为77名,而这些志愿专家们的专业领域的覆盖范围表明,将专家评估整合到像Dacura平台这样的数据收集系统是十分可行的。大部分采用了Dacura平台的项目,可能不会有Seshat数据库这般囊括了广阔的学术视野和范围,唯一需要对数据进行评估的专家,可能就是研究者自己。
最后,Dacura支持各类输出工具让数据能够以不同格式输出到第三方平台。Dacura发布了它作为一种关联数据格式的管理数据,所以其他的用户和平台,如上文述及的Open Context,能够毫无困难地访问它。Dacura还提供SPARQL终端——一种针对RDF的查询语言——支持数据的复杂过滤和提取。这便允许智能应用程序以一种之前难以想见的方式实现与数据的交互。对于个人用户来说,Dacura平台能够生成图表、表格、地图和其他的可视化工具,为用户提供便于理解数据的可视化呈现方式。以图表或其他输出方式呈现的数据,可以浏览、检索和选定,令用户能够访问其中与他们的研究主题最为贴合的一部分数据。Dacura还可以实现数据集或它们的子项以更为广泛的数据格式输出,从而用于外部分析,其中包括地理信息系统以及诸如SPSS或者R语言的统计格式。
Dacura的实施:Seshat数据库的元数据模型
作为Dacura在研究实践中发挥作用的范例,图二向读者展示了元数据模型如何被运用到Seshat——全球历史数据库(Global Historical Databank)。Seshat数据库()的目的是组建一个全面而综合的知识体系,这些知识包括人类历史以及史前史,以实证检验有关文化演变的假说,包括宗教、仪式、战争、农业或者其他变量在社会复杂化进程中扮演的角色。迄今为止,Seshat数据库已经被用于区分出一种单一的复杂性维度,可以用来解释人类社会组织中大约四分之三的变化;此外它还被用于论证轴心时代贯穿于欧亚大陆的社会政治转型的假说,超过了一千年的时间跨度。运用适当的统计学技术来考察这类时间尺度较大的问题需要有效和可靠的数据;这也是说,数据能够反映学者们对问题的定义,同时数据在不同案例中以同样的标准被度量。
当Seshat数据库在计划筹建阶段时,正处于开发状态的Dacura被认为对Seshat来说是一个绝佳的数据处理平台。两支团队决定协同开发Dacura和Seshat平台,令双方实现信息共享。由于计算机科学家和历史学家以往不会一同开展工作,所以Dacura和Seshat两大平台的研究团队之间的合作证明跨学科研究能够取得丰硕的成果,当然前提是Dacura团队的计算机专家能够了解历史学家的需求,同时Seshat研究团队也能够理解三元数据结构在收集和管理数据层面的可能性和局限性。
Seshat的运行环境基于两个基本信息:位置信息(Location)和持续时段(Duration)。具体来说,位置信息是地球表面上任意一个点或者多边形区域,其实体被定义为领域(Territory)。Seshat定义了三级结构的领域实体(在Seshat升级后可能实现更多层级结构):
(1)自然地理区域(Natural-Geographic Areas,NGA),它指的是一种大约100x100公里的相邻区域,其中包含有相当均一的生态环境区域。
(2)生物群落(Biomes),指的是一种具有连续性的生物圈或是拥有相似气候条件的区域。
(3)世界性区域(World Regions),它可能是指像民族国家、地区政权或是能以其他特定标准识别的预定义实体。
一个持续时段可以设定为一个单个日期或一个时间段。添加一个持续时段到领域实体层级中去,便可以产生两个有时间限制的实体之一:
(1)人口,指在一个确定的时间段内生活在某个特定领域内的一批人类群体;
(2)一个历史事件,它被定义为在一个确定的时间段内、在某个特定领域内发生的事件。
Seshat数据库能够为特定研究问题提供人口和历史事件的实体类。对于人口,目前有以下几种实体类:
(1)传统,它被定义为人类群体“分享相似的日常生活实践、技术以及社会政治组织,它们在一个相对大的区域空间内呈现出连续性,并且在一段相对较长的时期里保持了延续性”。对于这个实体类来说,考古学传统概览(the Outline of Archaeological Traditions,下文简称OAT)为平台的案例选择提供了通用的抽样范围;同时,文化资料概览(the Outline of Cultural Materials,以下简称OCM)为数据编码提供了词库。
(2)文化群体,它指的是一类人群,他们共享一套规范、信仰、行为、价值、态度等等。对于这个实体类来说,主要的抽样范围来自世界文化概览(the Outline of World Cultures,以下简称OWC),词库同样来自OCM。

(3)政治组织,它指的是基于相似的政府管理形成的独立的政治性联合体。这里有一个用于具体研究项目而创建的实体类范例。图尔钦等人撰写的论文向读者展示了一个由30个案例组成的样本,这些案例根据社会政治组织和地理区域的特点被挑选出来。OCM为这个实体类提供了主要的词库。
(4)聚落,这个实体类的物理空间以及物质设施范围很广,其规模大小和复杂程度的跨度涵盖了临时性营地以及大都市。由于能够被编码的聚落范围庞大,该实体没有界定抽样范围。主要的词库来源仍然是OCM。
(5)认同群体,具有相同的归属感的一群人。跟政治组织类似,这个实体类也是为特定的研究项目创建的,它的抽样也具有随机性的特征。对于这一实体,没有正式的词库,不过OCM在一些特定领域也被使用。
(6)语言群体,它是指使用同一种语言的群体。这一实体类使用的抽样范围是民族语言志平台(Ethnologue,),但是它也没有正式的词库(同样,OCM在一些特定领域也被使用)。
此外,子类层级也能够被添加到实体类中去,以为研究者提供属性更多的数据集。图三便显示了为上述提及的实体类创建的实体子类。
“历史事件”实体则明显地包含近乎无限可能的实体类和子类。故而为了维持一些历史事件实体的秩序结构,DBpedia (/server/ontology/classes/)中的事件实体作为基本的本体得到了使用。正如图二显示的,目前实体类中的事件实体包括:
(1)群体内部冲突,诸如战争、决斗、分封等类似事件。
(2)社会-自然性灾害,如饥荒或瘟疫。
(3)自然灾害,如干旱、洪水、虫害、火山爆发等等。
(4)社会崩坏。
(5)交接仪式,如婚礼、加冕、启动仪式等活动。
(6)社会运动,包括像移民这种身体迁移活动,还有诸如复兴性运动、千禧主义、罢工等社会性运动。
(7)技术性事件,如发明、发现、技术创新等等。
Seshat的内容获取:Dacura的工作流
作为历史学家如何应用Dacura获取数据集的范例,图四为读者展示了传统的实体类数据,如何通过Dacura填充到Seshat数据库中去。图中蓝色矩形之内的流程完全可以实现自动化,而蓝色矩形之外的区域需要把自动分析和专家评估结合起来,确保Seshat数据的有效性和可靠性。我们可以看到,蓝色矩形顶部的处理流程,人口这个实体是由领域范围内的持续时段所定义的。人口实体的特征会通过OAT的词库被分配到传统实体类之中。然后,数据挖掘的工作流会启动自动搜索的进程,根据OCM词库在互联网搜索文化领域的相关信息。在这个节点,研究者也可以使用Dacura检索互联网或者印刷材料获取文化领域的数据。Dacura会在特定的文化领域收集信息,在图四所示的范例中,我们用考古学数据作为例子,系统会对比DBpedia中的数据,以确定关联的数据是否需要纳入其他来源的数据,并且通过自动分析程序评估数据的一致性。前后矛盾的数据(如存在语义矛盾或数值冲突的数据)会输出给研究文化群体或文化领域的研究者和专家做进一步评估。这些研究者或领域专家要么会为文化领域确定一个规范值,要么在冲突无法解决时,给出一个非规范值。不管怎么说,所有收集过来的数据都会囊括进Seshat数据库,并且被标记为规范值或者非规范值,其他研究者可以检索到这些值并对之加以修正或扩展它们的解释。规范数值同时也会输出到DBpedia以协助其他的研究者以及未来的搜索。
研究者也可以输入自己的数据,包括图片、媒体和shapefile格式文件。数据合并的处理流程可允许其他研究者通过关联数据来访问这些共享文件,令之可以被广泛使用。更为重要的意义在于,那些被整合进Seshat或由Dacura生成的数据集中的其他数据,其质量能够不断得到提升,这正是归功于Dacura允许研究者对先前合并的数据进行评注和再评估。换句话说,Dacura不仅可以用于创建和管理巨量数据集,也能确保数据质量能够持续不断地得到提升。
使用Seshat数据库:从Dacura输出数据
到了这一步,关切夏威夷人口估值的研究者便能够通过Seshat数据库——或是她自己利用Dacura生成的数据集——来迅速地获得精确并且可以溯源的人口数据。她可以通过Dacura来开启Seshat数据库,接着在操作界面中选取夏威夷的自然地理区域模块,然后选取她所感兴趣的某个历史时期的夏威夷居住人口的政治组织子级,之后再选择人口这个变量。我们在Youtube上传了一部视频供读者参考。在这个案例中,这位学者获得的有关人口的数据源自Seshat数据库,这个数据是我们上文述及的Dacura数据收集和评估进程的产物。但是我们的研究者还能够使用Dacura创建新本体,以引导她进行更具个性化的搜索,正如我们在上文提到的视频中揭示的那样。
无论是在Seshat平台还是她运用Dacura从其他来源获取的数据,我们的学者都能获得各种类型的结果输出。正如前文述及的那样,Dacura会将数据集作为关联数据发布,并使用SPARQL进行输出。SPARQL是一种RDF的查询语言,后者能够生成文档和原始数据集,还有像图表、表格、地图之类的其他可视化信息。另外一点对史学工作者也至关重要,即SPARQL与GeoSPARQL能够协同运行,这得以让SPARQL数据集整合进入采用了OGC(Open Geospatial Consortium,开放地理空间信息联盟)查询标准(比如GML、WKT等)的地理信息系统中去。此外,Dacura平台上生成的原始文本、媒体或数字数据,也能够被浏览、搜索和挑选,研究者可以访问对研究最有价值的那部分文本、图片、媒体或数据集。Dacura还能够收集或输入的材料——或是它们的子级——以更多格式导出来支持进一步的外部分析。例如,研究者可能会想把有关人口估算值的数据输出到统计分析平台。那么Dacura将会生成逗号分割文件(comma-delimited file),这个文件能够被直接传输到电子表格或是统计数据软件包,如此一来研究者就可以使用任何数据分析的方法,来解答自己的问题。图五展示了一个有关夏威夷人口估算值的简单线性图表,它的生成有赖于Dacura和Seshat平台的数据输出功能,生成了一个CSV文件,并使用Excel制作了一张图表。
我们的这位研究者最初问题的答案是,夏威夷的人口增长确实先于这座岛屿上第一个国家政权的产生,这也正如人口压力模型预测的那样。就答案本身来说,这算不上是个令人印象深刻的结果(实际上或许也是个非常简单化的结论),但是考虑到我们的研究者通过Dacura平台的处理进程,可以在几分钟里收集数据,同时对它们的质量抱有信心,而且还可以访问与之相关的所有附加数据,不能不说是一次令人叹服的研究之旅。
结论
互联网为历史学家提供了大量的信息,然而现状却是,这些信息经常太过丰富,而且缺少质量监控。Dacura便是旨在解决这些问题而被设计开发出来的。它提供一种便捷的、质量有保证的途径,帮助史学工作者在互联网上收集信息,同时提供一个可供管理的质量控制体系。Dacura具有的精心设计的本体(dacura.scss.tcd.ie/ontologies/ dacura-130317.ttl),进而使研究者能够简易地定义和检索到与他们的研究直接相关的信息。Dacura的一体化词库和RDF三元存储结构让用户不需要使用在结果中进行跨领域的详细索引,如此一来,有关给定主题的所有信息,甚至那些相关性不那么明显或作为相关索引的信息,都可以被用户检索到。此外,Dacura提供的用于输出的数据格式非常广泛,从文本到可视化形式再到表格。Dacura虽然不是唯一可用的数据收集和管理程序,但是因为它与Seshat数据库一同被开发出来,因而它为新兴的基于计算机技术的历史和考古数据处理提供了一个独特模型。
从这个角度来说,Dacura展现了一系列可应用于历史学研究的重要新工具。正如肯特在他最近发表的论文中指出的那样,“(历史学家以及)考古学家在获取、管理和分析大量且差异巨大的数据过程中,日益面临挑战。” Dacura平台的问世为这一系列挑战提供了数种解决方案。具体来说,Dacura平台嵌入了(1)一个基于RDF三元存储的语义知识图谱技术,同时运用了(2)网络本体语言(OWL)来进行数据定义,它还嵌入了(3)语义推理模块,该模块是自动进行数据评估的基础,以及(4)它按照关联数据标准实现结果输出。
通过OWL数据定义和知识图谱技术,历史学家可以把收集到的海量数据,以快捷和简易的方式将那些对既定研究主题最为重要的信息精减和筛选出来,并且可以让这些数据以多样的格式输出。语义推理模块为用户提供了一种迅捷的数据评估以及可持续管理的机制。关联数据标准制式下,Dacura允许研究者随时访问那些经由其他学者收集来和评估过的数据。
另外,在像Dacura这样的平台上,计算机科学领域最近取得的新进展,也为那些非历史学领域的学者提供了可用和精确的历史数据。长期以来,那些有关文化稳定和变迁的时空记录,以及人类社会成功或者失败的实践案例,在考古学和历史学学科之外没有得到广泛应用,这是令许多史学工作者倍感沮丧的事情。不过这也没什么好惊讶的,因为对于外行来说,历史数据和材料很难获取也很难理解。然而,像Dacura这样的平台,它们通过自动化方式对历史数据进行收集、评估,对经过检验的精确的历史学数据进行检索,从而为经济学家、政治学家、生态学家、地理学家以及大众提供了一种获取数据途径和模型,让他们得以探索人类历史长河中累积下来的丰富而宝贵的历史记录。
致谢
本文作者向参加了于2015年5月4日至6日在圣塔菲研究所举办的工作坊的与会者表示感谢,在这次工作坊上与会者们讨论了有关数据收集以及高质量信息整合的各种需要,以及Seshat元数据模型的开发事宜。我们还要感谢Dacura平台的研究团队、博士后工作站人员、顾问人员以及专家团队,他们做出了巨大贡献。此外,我们的合作伙伴为我们撰写这篇论文提供了无比宝贵的协助。更多具体信息,也请读者登录Seshat的网页()查看公示的详细清单,包括私人捐赠、合作者、专家、顾问以及他们擅长的专业领域。最后,我们向匿名评审专家致以感谢,正是他们深富洞见的评审意见令我们能够更好地提升论文的质量和水准。
(作者彼得·比勒金[Peter N. Peregrine],劳伦斯大学人类学系,圣塔菲研究所;罗布·布伦南[Rob Brennan],都柏林大学三一学院,统计学和计算机科学学院ADAPT&知识与数据工程项目组;托马斯·柯里[Thomas Currie],埃克塞特大学生命科学系;凯文·费尼[Kevin Feeney],都柏林大学三一学院,计算机科学与统计学院,知识与数据工程项目组;彼得·弗朗索瓦[Pieter François],赫特福德大学人文学院,牛津大学认知与发展人类学研究所;彼得·特钦[Peter Turchin],康涅狄格大学生态与进化生物学系;哈维·怀特霍斯[Harvey Whitehouseg],牛津大学认知与发展人类学研究所。译者纪子凡,南京大学历史学院硕士研究生)
本文注释及更多精彩文章请参阅《全球史评论》第十九辑
首师大全球史中心
公众号ID:gh-cnu
欢迎关注,谢谢大家~
裴健:搜索皆智能,智能皆搜索
网站优化 • 优采云 发表了文章 • 0 个评论 • 77 次浏览 • 2022-06-18 01:11
作者 | 陈大鑫
编辑 | 丛 末
6月23日,加拿大西门菲莎大学教授裴健在第二届北京智源大会上做了《智能搜索:从工具到思维方式和心智》的报告。
裴老师最近当选为加拿大工程院院士,现在是加拿大皇家科学院和加拿大工程院的两院院士。裴老师是国际著名的数据科学、数据挖掘和数据管理专家,专长于通过数据战略制定、数据资产管理、数据资源整合和数据产品设计研发把数据和技术转化为业务能力和效益。他同时是多家企业的顾问,提供高端战略咨询和技术咨询服务。其论著被引用九万七千多次。有关裴健老师的更多独家信息,请移步 一文。北京智源大会是智源研究院主办的年度国际性人工智能高端学术交流活动,2019年举办了首届大会,今年为第二届。大会参会官网:。裴健老师在这次的演讲中提出了三个核心观点:第一,搜索皆智能,搜索以人为核心,以满足人的信息需求为目的,所以它天然就包含了智能成分。第二,智能皆搜索,我们要做到智能必须要用到搜索的方法,目前人工智能的很多应用都是搜索任务,智能和搜索同行。第三,智能搜索不仅是一个单纯的技术问题,更是一个与人相关的问题,我们必须要一起努力,使得每个人都不会被落下,让智能搜索服务全人类。在演讲最后,中国人民大学教授、智源首席科学家文继荣与裴健老师进行了精彩的问答互动:智能搜索和智能推荐可能比我们想象中更深刻地影响到我们每天的生活,比如你有一个问题,你的第一反应是不是去搜一下?或者说你想获取什么信息,你会第一时间打开如头条、微博、知乎这样的一些APP,然后去看它给你推荐了一些什么?做搜索、推荐、数据分析的人责任是非常重大的,如果这方面做得不好,在极端情况下就有可能改变我们下一代甚至改变人类的思维方式,改变我们对世界的看法,因为一个人对整个世界的看法更多地是由他接收到的信息、他的经历所塑造的。
如果我们的信息推送和用户检索到的信息是有问题的,比如刚刚提到的信息是有偏见的,比如我看什么就给我推荐什么,那我就进入了信息减法的世界,我可能会失去了解这个世界的更多可能性。通过这次精彩的演讲和问答互动,我们可以从智能推荐或者个性化推荐等技术中看到一些人文关怀和哲学反思。人文关怀:老人会不会因为不会用智能手机、不会用电脑而享受不了智能搜索带来的红利?比如说残疾人和在偏远地区、经济不发达地区的人会不会因为达不到智能搜索的入门门槛而被慢慢抛弃?我们应该如何解决这些问题?哲学反思:随着我们越来越依靠智能搜索、个性化推荐,我们是否会失去了解这个世界的更多可能性?我们是否会失去一部分原有的“自由意志”?究竟是我们驯化了这个信息流世界还是被其驯化?以下为裴健演讲正文:今天我报告的题目是智能搜索:从技术工具到思维心智。首先,让我们来简单回顾一下搜索的基本概念。在搜索当中,我们假定用户有信息需求。用户的信息需求往往不能直接被搜索系统直接理解,于是用户把信息需求转化为搜索系统的查询。搜索系统得到用户的查询,找到相应的结果,可能是一些文档、图片、图像或者是生成的内容,返回给用户。用户可以根据这些是否是所需要的,产生相应的反馈,搜索系统根据用户的反馈来决定是否需要去对搜索进行增强。这样一个过程不断循环,直到用户信息需求得到了满足,整个搜索过程就结束了。
这个过程听起来非常得完美,很简洁。但在实际当中,搜索并不是那么简单,要比这个复杂得多。
1
搜索皆智能在实际生活当中,“用户信息需求是固定的”这个假设命题其实是个伪命题。在很多情况下,用户的信息需求不断变化。更麻烦的是,用户本身可能并不清楚自己的信息需求到底是什么。举个例子来说,比如我听说某个小区有新型肺炎的新感染案例,发出一个“新冠肺炎感染病例”的查询,那么这个查询到底是想问什么呢?用户自己可能并不清楚,在很多时候用户可能是发出一个查询先问一下,看搜索引擎给返回什么样的信息。用户和搜索引擎的交互过程就是一个探索的过程,用户的信息需求在不断变化。在“新冠肺炎感染病例”的例子里,用户可能想问的是这个感染病例是不是得到了治疗?感染病例的具体情况是怎样的?看到搜索引擎的回答后,用户可能马上想到这个感染案例对小区的生活,如出行、购物等,有什么影响?大家可以看到信息需求是不断变化的,我们在搜索过程中不能假定用户的信息需求是不变的。信息系统必须想办法去理解用户的真实信息需求,为用户提供探索的工具。因此,搜索本身从一开始就是智能的,因为它把人摆在了整个过程的中心。
下面举个例子来讲一下搜索过程为什么是一个探索的过程。在VLDB-2019的会议上,我的研究小组发表了一篇社团搜索的文章。和很多已有的社团搜索工作不太一样,我们假定在每一个网络节点上都有一个数据库。如果这个网络结点是一个人,那么这个数据库就可以是这个人以往购买东西的整个历史。如果这个网络结点是一个论文作者,那这个数据库就是他以前发表的所有论文的集合。我们关心在这样一个网络里面怎样找到社团?
我们希望社团内成员之间不但有很密切的网络连接关系,还能在数据库上又有非常相似的模式。这样社团有什么用呢?举例来说,在论文作者的数据网络上,用户可能关心的是能不能找到那些用数据挖掘方法来研究人脸识别和图象检索的社团?我们的搜索首先形成了一个查询模式a1。
同时,我们的搜索算法还能够提供针对a1的各种细化,比如b1、b2、直到b8。在这些细化当中我们会专门看各个具体的分支,包括算法具体分支和问题具体分支。这些分支给用户带来探索方向和探索方便。这种探索可以进一步往下走。比如说b8可以进一步探索到c1、c2两种具体的情况。整个过程是一个不断深入、不断尝试、不断修正的探索过程。
2
智能皆搜索搜索皆智能,搜索要用到大量的人工智能技术,所以我们要通过人工智能技术去理解用户的信息需求。同时,智能很复杂,智能的每一个任务都需要多多少少用到搜索技术。什么是智能?智能是关于连接的,我们需要把不同的数据、不同的知识点连接起来;智能是关于推理的,我们需要对数据、对知识进行相应的推理;智能是关于泛化的,我们有具体的观察,我们希望通过若干具体的观察、具体的例子来泛化来概括成通用的规律;智能还需要去做具体化,我们有一些通用的原则,要把它用到具体的事例里面,提高具体事例处理的效率和效果。所有这些都需要搜索相应的数据,搜索相应的知识,搜索相应的连接。所以智能皆搜索,智能离不开搜索,智能必须通过搜索来实现。
下面举个一个我们KDD 2016论文中的例子来介绍我们怎么通过搜索来达到知识发现。我们可以在WordNet的网络上面找到很有意思的一些社团,每一个社团内部非常相似,社团成员之间有很强的关联,同时,社团之间非常对立,有非常大的差异。
当我们把这个问题用在形容词网络里面,我们就找到了大家在胶片上看到的Group1和Group2这样对立的社团,所以我们把它叫做gangs in war。大家仔细看,每一个社团内部是一组同义组,Group1和Group2之间是反义词关系。我们用智能搜索带给我们新知识,我们可以在词的网络上自动发现同义词和反义词。
刚才我们讲了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者紧密结合,搜索和智能同行。这里包括两个意思,第一,我们需要用搜索的技术来达到更好的人工智能。像我刚才举的例子,我们可以通过很好的搜索来自动的发现知识,同时我们需要用很多的智能技术和计算来使得搜索更加有效。这里的智能不单单只是人工智能,还包括了很多真正的人的智能,因为我们最终的搜索是为人服务的。
这里举一个例子,这是我们最近刚刚完成的一个论文,我们研究的是基于Web-scale的多语言问答系统。问答系统有很多,在很多商用的搜索引擎里面都有相应的问答功能。当一个用户给出一个问题,例如说想知道感冒症状,搜索引擎可以总结出像下图左边的信息卡,这个信息卡上会列出相应的感冒的症状甚至是治疗的方法。这给用户带来了很多的便利,在一定程度上这也是对知识的抽取和总结。
当搜索引擎给出这样一个答案时,这个答案是否满足了用户的信息需求?这个答案的知识是否正确?是否有用?我们希望能够得到用户的反馈,我们希望用户用人的智能来帮助机器进行学习。这里有一个挑战。很多情况下,用户看过答案但并不一定给出一个显式的反馈,理解人的反馈是一个非常复杂的过程。在这篇论文里面,我们系统地研究了如何观察、推理用户对搜索引擎所给出的问答信息的反馈,如何对用户的行为进行挖掘,抽取相应的反馈信号,用这些信号来改进我们的QA系统。
上图是在一个全球化商业搜索引擎数据集上面所做的实验结果。当我们的系统考虑了用户真正的已知反馈之后,整个搜索效果比不用这个反馈的系统好得多。同时,我们可以看到一个非常有意思的现象:这种智能搜索所发现的知识可以在不同的领域进行迁移。
举个例子来说,在整个模型建立的过程中,我们用的是英语数据,在英语数据里面,我们抽取了相应的问答和相应的用户反馈。英语里发现的知识完全是可以往别的语言迁移,如德语和法语。迁移的效果很好,在法语的数据集上面我们用了很少的大概5K的数据就能够达到如果没有跨语言的迁移、没有反馈的时候需要用50K的数据才能达到的效果。也就是说,通过应用用户的反馈,我们能够大大减少相应的数据需求,我们的确可以通过智能化的方法理解用户,并让用户把人类智能来帮助我们的机器。我们的技术已经在一个大型商用搜索引擎的多语言服务中上线应用。
3
智能搜索,与人相关因为搜索的主体是人,所以搜索并不简单是一个技术问题。最近在《纽约时报》有一篇很好的文章,题目就是Tech is global. right?:技术是全球化的,对吗?对,技术是全球化的。
这篇文章谈到了很多先进的美国企业把相应的技术和平台用到别的国家和地区效果不好。这里面涉及到很多因素,特别是很多与人有关的因素,例如说本地化、可理解性、文化、公平性、隐私保护、模型的复杂性、安全性等等。如果我们要把智能搜索做好,就必须密切考虑人的因素。其中,深度学习模型的复杂性是一个重要的因素。我们最近刚刚完成了一篇KDD2020的论文在这方面做了一些探索。模型复杂性本身是一个很复杂的问题。在很多场合下,人们可能只是简单地比较两个模型之间的准确度或者别的一些性能指标,但哪怕两个模型的性能在测试集上是完全一样的,并不意味着这两个模型的本质是一样的,也不意味着它们捕捉了同样的客观现实。
举个具体例子,上图这两个模型在相应的数据点上是完全一致的,但是这两个模型其实差得非常远。因此我们需要有一个系统的方法来衡量模型的复杂度、来衡量模型到底有没有对数据过拟合。我们的KDD2020上的论文就在这方面给出了一些新的方法。与模型和搜索方法很相关的另外一个问题是可解释性,一个模型要获得大家的信任,它必须有良好的可解释性。我们认为,模型的可解释性一定要满足两个原则。第一是准确性:如果我用一个模型来解释另外一个模型,那这两个模型必须在数学上等价。如果不等价,解释就可能会有问题。第二,模型的解释必须是一致的。一致是什么意思呢?如果我有两个非常相似的样例,它们相应的解释也应该非常相似,这才能够符合人的直觉。可解释性问题的核心是把一个黑盒子转化为一个白盒子。
我们KDD2018的论文通过把一个深度网络转化为一个基于内部神经元状态的向量,给出基于多胞体(polytope)的解释。这样所得到的解释是精确的:从数学上解释的模型和原来的深度网络等价。同时,解释也是是一致的:如果两个点很相近,它们落在同一个多胞体里面,它们就会遵从相应的相同的线性分类器,所以它们的相应解释也会是一样的。
在今年的ICDE论文中,我们把解释模型推到了云端。以往的解释工具往往需要知道整个模型的参数,甚至要知道相应的很多训练数据。在今年的ICDE论文里,我们提出可以把整个模型作为一个黑盒,然后给出准确和一致的解释,不需要知道模型的参数和训练数据。这里核心的想法是:如果我们有若干的样例,这些样例落在同一个多胞体里面,它们就应该遵循同一个线性分类器,于是我们可以建造一个线性方程式系统,用此来为我们提供相应的解释。关于怎么样把智能搜索做好,我们讲了很多。但是我们应该要充分认识到一点,智能搜索也在不断地改变我们的心智。
在国外大家经常说这句话:如果你遇到一个不了解的事情怎么办?用搜索引擎查一下(google it)。在国内也有俗语叫:内事问度娘,外事问谷歌。搜索的过程和结果很深刻地改变了人类的思维和学习方式。在某些方面搜索拓宽了我们获取信息的渠道和速度,使得我们更聪明。但在另一些方面,我们可能会过度依赖智能搜索,在很多地方会变得笨了。这里,信息的准确性和公平性变得非常重要。在这次的疫情当中,我们都知道虚假信息是非常严重的一个问题。很多小道消息、虚假消息通过社交媒体传播产生了很坏的作用。最近推特干了一件很有意思的事情,他们用了一个简单聪明的办法来对付虚假消息。他们观测到有很多人在社交媒体里面看到一个有意思的标题就转发了,但并没有看过那个文章。于是推特在你转发一个没有看过内容的推特时,提示用户其实没有看过这篇文章。这个提示对于降低虚假消息的传播会有很大的帮助。但是这种帮助是有代价的,它需要我们牺牲一定的隐私。推特需要知道你看过什么才知道你有没有看过自己转发的东西。这里有一个挑战性的均衡:我们到底需要保留什么样的隐私,怎么样制止虚假消息的传播。
我们知道抖音在国内外都非常成功,已经出现了一代新的人类叫作Tik TOK Generation。它们通过智能的搜索和推荐技术把人与人连接起来,把内容和内容连接起来。在内容创造上Tik TOK Generation以及这类新媒体有一些重要的特点。其中之一就是媒体内容本身不是那么重要,反而对媒体的评论和媒体的跟进会更重要。大家经常跑到很多新媒体上并不是看它真正的内容,而是看后面跟着的评论。由于智能搜索和智能推荐技术的发展使得人与人之间的连接、内容与内容之间的连接、人与内容之间的连接更加容易、更加广泛。很多人原来并不需要互相认识,但是通过这个智能搜索和智能推荐他们会联系在一起,形成长期的交互,这就导致了我们现在面临着新一代所谓的热情经济。
跟传统的零工经济经济相比,热情经济有一系列新特点。举例来说,热情经济从业者不断地产生新内容,不断地吸引更多的观众获得相应的营收,这是以往很多经济模式不具备的。同时由于智能搜索、智能推荐和平台的连接作用使受众面会大大提高,更多有创意的产品和服务可以以更低的成本推向服务市场,这些也给我们带来很多新机会和新挑战。热情经济完全是基于新的技术、新的软件、新的媒体。智能搜索是热情经济的核心技术,通过技术的进步使得平台更加有效、内容开发更加方便、创业更加快捷、创业者和受众的联系更加紧密、交互更加方便。智能搜索彻底改变了我们的生活。可以说智能搜索已经变成了我们无时无刻、无处不在的需求和工具。智能搜索同时也会产生很多新的挑战。其中一个核心的挑战是我们怎么确保智能搜索服务于社会的每一个人,没有人因为各种限制而被智能搜索遗弃。
举个例子来说,老人们会不会因为不会用智能手机而享受不了智能搜索带来的红利?又比如说,残疾人、偏远地区和经济不发达地区的人们会不会因为达不到智能搜索的基础设施入门门槛而被抛弃?这些都是我们需要考虑的问题。我们都知道现在医院挂号经常需要用智能手机来预约,但是很多老人,特别是那些七八十岁、八九十岁的老人,并不会使用智能手机,用起来也很不方便。他们怎么才能获得信息渠道并消费这些信息?这些都是我们做智能搜索的人需要认真考虑和抓紧行动的方向。我个人认为智能搜索远远不仅仅是一个技术问题,也远远不仅仅是一个人工智能的问题,它是一个非常复杂的全社会的系统工程。
问答环节 文继荣:对智能搜索和智能推荐来说,所谓的智能就是越来越了解你,以人为中心来了解你,它给你的信息越来越趋近于你过去的兴趣和经历,但是这样会不会使你失去了解这个世界多样性的可能?在整个大的框架方面或者在整个研究方向上面,有没有更多的深刻思考?裴健:智能搜索化、智能推荐已经成为下一代人类重要的信息入口,也是非常重要的信息出口。只能搜索把握了这一进一出,对未来的人类有很大的塑造能力。这也许是大家做技术的时候并没有特别深思的一个问题。我们一点一滴的技术贡献会怎样改变未来人类学习的方式、思考的方式和所知所行。这里面涉及很多问题。例如说我们可以通过可适应性使得我们的教育效率提高,使得一个人更容易学习。但是可适应性在一定程度下又可能有缺陷。我们如果过分迁就人类的惰性,就可能会使一部分最聪明的人失去了挑战更高高度的机会。再例如,到底让智能搜索受众学什么?怎么保证整个环境公平性?大家开始去思考,但是远远没有答案。我在演讲的最后也强调了这不是简单的技术问题,这是全社会的很复杂的问题。观众发问:感觉像谷歌、百度这些巨头已经形成了垄断,其它的搜索引擎或者其它的新的搜索工具经历了多年都没有成长起来。请问这些研究智能搜索方向的人除了到这些巨头公司工作以外,还有没有更好的出路?裴健:搜索仍在不断地创新,现在所有商用搜索引擎最头疼的事情是越来越多的高质量信息不在公开的互联网上,而在相对封闭的社交媒体上。
例如说在朋友圈有很多质量高的信息源,但这种信息源是通用搜索引擎查不到的。怎样把这些信息源整合起来形成一种更强大的搜索能力?这是一个有意思的研究方向。现在很多的搜索跟广告、商业模式结合起来,是商业驱动、利润引导。最近原谷歌的两位高管创办了一个新公司,这个公司做的搜索引擎Neeva号称不会有广告,而且要打通一些社交媒体,使得搜索的面更广。这些新业务模式不管成功与否都是非常有意义的尝试。智能搜索从就业、创业的角度来说有很广阔的前景。同时智能搜索会涉及到我们生活中的方方面面,例如说在IOT环境下怎么做智能搜索?这些都是现有的面向通用web搜索所不能涵盖的,也会是很有意思的方面。文继荣:现在搜索引擎不管从主要的核心功能还是到形态上已经几十年没有变化了,实际上现在很多东西都在变,比如说裴老师讲的热情经济,还有国内的一个网红经济,现在都是影响非常大的。我昨天看了一个新闻说的非常好玩,浙江余姚区网红可以评为国家级创新人才,不知道真的假的。实际上这个世界在飞速的变化,可能很多时候你认为没有变化空间的时候就是会开始很大变化的时期。就搜索来说,我觉得就直观感受而言还远远达不到我们真正想要了解的世界。这次新冠病毒期间,我觉得甚至可以开一个研讨会来讨论一下这中间的很多问题,人们在获取信息时出现了很多问题,有虚假信息问题也有信息多样性问题。这些信息对大家的影响是巨大的,你可以经常感觉到整个朋友圈都在转发和讨论一个信息。尤其大家在家里没办法面对面交谈,你可以通过控制信息来控制大家的观点和情绪,这个事情我觉得是非常重要的。我们人类将来会走向更加数字化的阶段,从搜索和推荐的角度对信息进行获取和处理,我觉得我们到了一个全新的时期,我们需要去探索。
查看全部
裴健:搜索皆智能,智能皆搜索
作者 | 陈大鑫
编辑 | 丛 末
6月23日,加拿大西门菲莎大学教授裴健在第二届北京智源大会上做了《智能搜索:从工具到思维方式和心智》的报告。
裴老师最近当选为加拿大工程院院士,现在是加拿大皇家科学院和加拿大工程院的两院院士。裴老师是国际著名的数据科学、数据挖掘和数据管理专家,专长于通过数据战略制定、数据资产管理、数据资源整合和数据产品设计研发把数据和技术转化为业务能力和效益。他同时是多家企业的顾问,提供高端战略咨询和技术咨询服务。其论著被引用九万七千多次。有关裴健老师的更多独家信息,请移步 一文。北京智源大会是智源研究院主办的年度国际性人工智能高端学术交流活动,2019年举办了首届大会,今年为第二届。大会参会官网:。裴健老师在这次的演讲中提出了三个核心观点:第一,搜索皆智能,搜索以人为核心,以满足人的信息需求为目的,所以它天然就包含了智能成分。第二,智能皆搜索,我们要做到智能必须要用到搜索的方法,目前人工智能的很多应用都是搜索任务,智能和搜索同行。第三,智能搜索不仅是一个单纯的技术问题,更是一个与人相关的问题,我们必须要一起努力,使得每个人都不会被落下,让智能搜索服务全人类。在演讲最后,中国人民大学教授、智源首席科学家文继荣与裴健老师进行了精彩的问答互动:智能搜索和智能推荐可能比我们想象中更深刻地影响到我们每天的生活,比如你有一个问题,你的第一反应是不是去搜一下?或者说你想获取什么信息,你会第一时间打开如头条、微博、知乎这样的一些APP,然后去看它给你推荐了一些什么?做搜索、推荐、数据分析的人责任是非常重大的,如果这方面做得不好,在极端情况下就有可能改变我们下一代甚至改变人类的思维方式,改变我们对世界的看法,因为一个人对整个世界的看法更多地是由他接收到的信息、他的经历所塑造的。
如果我们的信息推送和用户检索到的信息是有问题的,比如刚刚提到的信息是有偏见的,比如我看什么就给我推荐什么,那我就进入了信息减法的世界,我可能会失去了解这个世界的更多可能性。通过这次精彩的演讲和问答互动,我们可以从智能推荐或者个性化推荐等技术中看到一些人文关怀和哲学反思。人文关怀:老人会不会因为不会用智能手机、不会用电脑而享受不了智能搜索带来的红利?比如说残疾人和在偏远地区、经济不发达地区的人会不会因为达不到智能搜索的入门门槛而被慢慢抛弃?我们应该如何解决这些问题?哲学反思:随着我们越来越依靠智能搜索、个性化推荐,我们是否会失去了解这个世界的更多可能性?我们是否会失去一部分原有的“自由意志”?究竟是我们驯化了这个信息流世界还是被其驯化?以下为裴健演讲正文:今天我报告的题目是智能搜索:从技术工具到思维心智。首先,让我们来简单回顾一下搜索的基本概念。在搜索当中,我们假定用户有信息需求。用户的信息需求往往不能直接被搜索系统直接理解,于是用户把信息需求转化为搜索系统的查询。搜索系统得到用户的查询,找到相应的结果,可能是一些文档、图片、图像或者是生成的内容,返回给用户。用户可以根据这些是否是所需要的,产生相应的反馈,搜索系统根据用户的反馈来决定是否需要去对搜索进行增强。这样一个过程不断循环,直到用户信息需求得到了满足,整个搜索过程就结束了。
这个过程听起来非常得完美,很简洁。但在实际当中,搜索并不是那么简单,要比这个复杂得多。
1
搜索皆智能在实际生活当中,“用户信息需求是固定的”这个假设命题其实是个伪命题。在很多情况下,用户的信息需求不断变化。更麻烦的是,用户本身可能并不清楚自己的信息需求到底是什么。举个例子来说,比如我听说某个小区有新型肺炎的新感染案例,发出一个“新冠肺炎感染病例”的查询,那么这个查询到底是想问什么呢?用户自己可能并不清楚,在很多时候用户可能是发出一个查询先问一下,看搜索引擎给返回什么样的信息。用户和搜索引擎的交互过程就是一个探索的过程,用户的信息需求在不断变化。在“新冠肺炎感染病例”的例子里,用户可能想问的是这个感染病例是不是得到了治疗?感染病例的具体情况是怎样的?看到搜索引擎的回答后,用户可能马上想到这个感染案例对小区的生活,如出行、购物等,有什么影响?大家可以看到信息需求是不断变化的,我们在搜索过程中不能假定用户的信息需求是不变的。信息系统必须想办法去理解用户的真实信息需求,为用户提供探索的工具。因此,搜索本身从一开始就是智能的,因为它把人摆在了整个过程的中心。
下面举个例子来讲一下搜索过程为什么是一个探索的过程。在VLDB-2019的会议上,我的研究小组发表了一篇社团搜索的文章。和很多已有的社团搜索工作不太一样,我们假定在每一个网络节点上都有一个数据库。如果这个网络结点是一个人,那么这个数据库就可以是这个人以往购买东西的整个历史。如果这个网络结点是一个论文作者,那这个数据库就是他以前发表的所有论文的集合。我们关心在这样一个网络里面怎样找到社团?
我们希望社团内成员之间不但有很密切的网络连接关系,还能在数据库上又有非常相似的模式。这样社团有什么用呢?举例来说,在论文作者的数据网络上,用户可能关心的是能不能找到那些用数据挖掘方法来研究人脸识别和图象检索的社团?我们的搜索首先形成了一个查询模式a1。
同时,我们的搜索算法还能够提供针对a1的各种细化,比如b1、b2、直到b8。在这些细化当中我们会专门看各个具体的分支,包括算法具体分支和问题具体分支。这些分支给用户带来探索方向和探索方便。这种探索可以进一步往下走。比如说b8可以进一步探索到c1、c2两种具体的情况。整个过程是一个不断深入、不断尝试、不断修正的探索过程。
2
智能皆搜索搜索皆智能,搜索要用到大量的人工智能技术,所以我们要通过人工智能技术去理解用户的信息需求。同时,智能很复杂,智能的每一个任务都需要多多少少用到搜索技术。什么是智能?智能是关于连接的,我们需要把不同的数据、不同的知识点连接起来;智能是关于推理的,我们需要对数据、对知识进行相应的推理;智能是关于泛化的,我们有具体的观察,我们希望通过若干具体的观察、具体的例子来泛化来概括成通用的规律;智能还需要去做具体化,我们有一些通用的原则,要把它用到具体的事例里面,提高具体事例处理的效率和效果。所有这些都需要搜索相应的数据,搜索相应的知识,搜索相应的连接。所以智能皆搜索,智能离不开搜索,智能必须通过搜索来实现。
下面举个一个我们KDD 2016论文中的例子来介绍我们怎么通过搜索来达到知识发现。我们可以在WordNet的网络上面找到很有意思的一些社团,每一个社团内部非常相似,社团成员之间有很强的关联,同时,社团之间非常对立,有非常大的差异。
当我们把这个问题用在形容词网络里面,我们就找到了大家在胶片上看到的Group1和Group2这样对立的社团,所以我们把它叫做gangs in war。大家仔细看,每一个社团内部是一组同义组,Group1和Group2之间是反义词关系。我们用智能搜索带给我们新知识,我们可以在词的网络上自动发现同义词和反义词。
刚才我们讲了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者紧密结合,搜索和智能同行。这里包括两个意思,第一,我们需要用搜索的技术来达到更好的人工智能。像我刚才举的例子,我们可以通过很好的搜索来自动的发现知识,同时我们需要用很多的智能技术和计算来使得搜索更加有效。这里的智能不单单只是人工智能,还包括了很多真正的人的智能,因为我们最终的搜索是为人服务的。
这里举一个例子,这是我们最近刚刚完成的一个论文,我们研究的是基于Web-scale的多语言问答系统。问答系统有很多,在很多商用的搜索引擎里面都有相应的问答功能。当一个用户给出一个问题,例如说想知道感冒症状,搜索引擎可以总结出像下图左边的信息卡,这个信息卡上会列出相应的感冒的症状甚至是治疗的方法。这给用户带来了很多的便利,在一定程度上这也是对知识的抽取和总结。
当搜索引擎给出这样一个答案时,这个答案是否满足了用户的信息需求?这个答案的知识是否正确?是否有用?我们希望能够得到用户的反馈,我们希望用户用人的智能来帮助机器进行学习。这里有一个挑战。很多情况下,用户看过答案但并不一定给出一个显式的反馈,理解人的反馈是一个非常复杂的过程。在这篇论文里面,我们系统地研究了如何观察、推理用户对搜索引擎所给出的问答信息的反馈,如何对用户的行为进行挖掘,抽取相应的反馈信号,用这些信号来改进我们的QA系统。
上图是在一个全球化商业搜索引擎数据集上面所做的实验结果。当我们的系统考虑了用户真正的已知反馈之后,整个搜索效果比不用这个反馈的系统好得多。同时,我们可以看到一个非常有意思的现象:这种智能搜索所发现的知识可以在不同的领域进行迁移。
举个例子来说,在整个模型建立的过程中,我们用的是英语数据,在英语数据里面,我们抽取了相应的问答和相应的用户反馈。英语里发现的知识完全是可以往别的语言迁移,如德语和法语。迁移的效果很好,在法语的数据集上面我们用了很少的大概5K的数据就能够达到如果没有跨语言的迁移、没有反馈的时候需要用50K的数据才能达到的效果。也就是说,通过应用用户的反馈,我们能够大大减少相应的数据需求,我们的确可以通过智能化的方法理解用户,并让用户把人类智能来帮助我们的机器。我们的技术已经在一个大型商用搜索引擎的多语言服务中上线应用。
3
智能搜索,与人相关因为搜索的主体是人,所以搜索并不简单是一个技术问题。最近在《纽约时报》有一篇很好的文章,题目就是Tech is global. right?:技术是全球化的,对吗?对,技术是全球化的。
这篇文章谈到了很多先进的美国企业把相应的技术和平台用到别的国家和地区效果不好。这里面涉及到很多因素,特别是很多与人有关的因素,例如说本地化、可理解性、文化、公平性、隐私保护、模型的复杂性、安全性等等。如果我们要把智能搜索做好,就必须密切考虑人的因素。其中,深度学习模型的复杂性是一个重要的因素。我们最近刚刚完成了一篇KDD2020的论文在这方面做了一些探索。模型复杂性本身是一个很复杂的问题。在很多场合下,人们可能只是简单地比较两个模型之间的准确度或者别的一些性能指标,但哪怕两个模型的性能在测试集上是完全一样的,并不意味着这两个模型的本质是一样的,也不意味着它们捕捉了同样的客观现实。
举个具体例子,上图这两个模型在相应的数据点上是完全一致的,但是这两个模型其实差得非常远。因此我们需要有一个系统的方法来衡量模型的复杂度、来衡量模型到底有没有对数据过拟合。我们的KDD2020上的论文就在这方面给出了一些新的方法。与模型和搜索方法很相关的另外一个问题是可解释性,一个模型要获得大家的信任,它必须有良好的可解释性。我们认为,模型的可解释性一定要满足两个原则。第一是准确性:如果我用一个模型来解释另外一个模型,那这两个模型必须在数学上等价。如果不等价,解释就可能会有问题。第二,模型的解释必须是一致的。一致是什么意思呢?如果我有两个非常相似的样例,它们相应的解释也应该非常相似,这才能够符合人的直觉。可解释性问题的核心是把一个黑盒子转化为一个白盒子。
我们KDD2018的论文通过把一个深度网络转化为一个基于内部神经元状态的向量,给出基于多胞体(polytope)的解释。这样所得到的解释是精确的:从数学上解释的模型和原来的深度网络等价。同时,解释也是是一致的:如果两个点很相近,它们落在同一个多胞体里面,它们就会遵从相应的相同的线性分类器,所以它们的相应解释也会是一样的。
在今年的ICDE论文中,我们把解释模型推到了云端。以往的解释工具往往需要知道整个模型的参数,甚至要知道相应的很多训练数据。在今年的ICDE论文里,我们提出可以把整个模型作为一个黑盒,然后给出准确和一致的解释,不需要知道模型的参数和训练数据。这里核心的想法是:如果我们有若干的样例,这些样例落在同一个多胞体里面,它们就应该遵循同一个线性分类器,于是我们可以建造一个线性方程式系统,用此来为我们提供相应的解释。关于怎么样把智能搜索做好,我们讲了很多。但是我们应该要充分认识到一点,智能搜索也在不断地改变我们的心智。
在国外大家经常说这句话:如果你遇到一个不了解的事情怎么办?用搜索引擎查一下(google it)。在国内也有俗语叫:内事问度娘,外事问谷歌。搜索的过程和结果很深刻地改变了人类的思维和学习方式。在某些方面搜索拓宽了我们获取信息的渠道和速度,使得我们更聪明。但在另一些方面,我们可能会过度依赖智能搜索,在很多地方会变得笨了。这里,信息的准确性和公平性变得非常重要。在这次的疫情当中,我们都知道虚假信息是非常严重的一个问题。很多小道消息、虚假消息通过社交媒体传播产生了很坏的作用。最近推特干了一件很有意思的事情,他们用了一个简单聪明的办法来对付虚假消息。他们观测到有很多人在社交媒体里面看到一个有意思的标题就转发了,但并没有看过那个文章。于是推特在你转发一个没有看过内容的推特时,提示用户其实没有看过这篇文章。这个提示对于降低虚假消息的传播会有很大的帮助。但是这种帮助是有代价的,它需要我们牺牲一定的隐私。推特需要知道你看过什么才知道你有没有看过自己转发的东西。这里有一个挑战性的均衡:我们到底需要保留什么样的隐私,怎么样制止虚假消息的传播。
我们知道抖音在国内外都非常成功,已经出现了一代新的人类叫作Tik TOK Generation。它们通过智能的搜索和推荐技术把人与人连接起来,把内容和内容连接起来。在内容创造上Tik TOK Generation以及这类新媒体有一些重要的特点。其中之一就是媒体内容本身不是那么重要,反而对媒体的评论和媒体的跟进会更重要。大家经常跑到很多新媒体上并不是看它真正的内容,而是看后面跟着的评论。由于智能搜索和智能推荐技术的发展使得人与人之间的连接、内容与内容之间的连接、人与内容之间的连接更加容易、更加广泛。很多人原来并不需要互相认识,但是通过这个智能搜索和智能推荐他们会联系在一起,形成长期的交互,这就导致了我们现在面临着新一代所谓的热情经济。
跟传统的零工经济经济相比,热情经济有一系列新特点。举例来说,热情经济从业者不断地产生新内容,不断地吸引更多的观众获得相应的营收,这是以往很多经济模式不具备的。同时由于智能搜索、智能推荐和平台的连接作用使受众面会大大提高,更多有创意的产品和服务可以以更低的成本推向服务市场,这些也给我们带来很多新机会和新挑战。热情经济完全是基于新的技术、新的软件、新的媒体。智能搜索是热情经济的核心技术,通过技术的进步使得平台更加有效、内容开发更加方便、创业更加快捷、创业者和受众的联系更加紧密、交互更加方便。智能搜索彻底改变了我们的生活。可以说智能搜索已经变成了我们无时无刻、无处不在的需求和工具。智能搜索同时也会产生很多新的挑战。其中一个核心的挑战是我们怎么确保智能搜索服务于社会的每一个人,没有人因为各种限制而被智能搜索遗弃。
举个例子来说,老人们会不会因为不会用智能手机而享受不了智能搜索带来的红利?又比如说,残疾人、偏远地区和经济不发达地区的人们会不会因为达不到智能搜索的基础设施入门门槛而被抛弃?这些都是我们需要考虑的问题。我们都知道现在医院挂号经常需要用智能手机来预约,但是很多老人,特别是那些七八十岁、八九十岁的老人,并不会使用智能手机,用起来也很不方便。他们怎么才能获得信息渠道并消费这些信息?这些都是我们做智能搜索的人需要认真考虑和抓紧行动的方向。我个人认为智能搜索远远不仅仅是一个技术问题,也远远不仅仅是一个人工智能的问题,它是一个非常复杂的全社会的系统工程。
问答环节 文继荣:对智能搜索和智能推荐来说,所谓的智能就是越来越了解你,以人为中心来了解你,它给你的信息越来越趋近于你过去的兴趣和经历,但是这样会不会使你失去了解这个世界多样性的可能?在整个大的框架方面或者在整个研究方向上面,有没有更多的深刻思考?裴健:智能搜索化、智能推荐已经成为下一代人类重要的信息入口,也是非常重要的信息出口。只能搜索把握了这一进一出,对未来的人类有很大的塑造能力。这也许是大家做技术的时候并没有特别深思的一个问题。我们一点一滴的技术贡献会怎样改变未来人类学习的方式、思考的方式和所知所行。这里面涉及很多问题。例如说我们可以通过可适应性使得我们的教育效率提高,使得一个人更容易学习。但是可适应性在一定程度下又可能有缺陷。我们如果过分迁就人类的惰性,就可能会使一部分最聪明的人失去了挑战更高高度的机会。再例如,到底让智能搜索受众学什么?怎么保证整个环境公平性?大家开始去思考,但是远远没有答案。我在演讲的最后也强调了这不是简单的技术问题,这是全社会的很复杂的问题。观众发问:感觉像谷歌、百度这些巨头已经形成了垄断,其它的搜索引擎或者其它的新的搜索工具经历了多年都没有成长起来。请问这些研究智能搜索方向的人除了到这些巨头公司工作以外,还有没有更好的出路?裴健:搜索仍在不断地创新,现在所有商用搜索引擎最头疼的事情是越来越多的高质量信息不在公开的互联网上,而在相对封闭的社交媒体上。
例如说在朋友圈有很多质量高的信息源,但这种信息源是通用搜索引擎查不到的。怎样把这些信息源整合起来形成一种更强大的搜索能力?这是一个有意思的研究方向。现在很多的搜索跟广告、商业模式结合起来,是商业驱动、利润引导。最近原谷歌的两位高管创办了一个新公司,这个公司做的搜索引擎Neeva号称不会有广告,而且要打通一些社交媒体,使得搜索的面更广。这些新业务模式不管成功与否都是非常有意义的尝试。智能搜索从就业、创业的角度来说有很广阔的前景。同时智能搜索会涉及到我们生活中的方方面面,例如说在IOT环境下怎么做智能搜索?这些都是现有的面向通用web搜索所不能涵盖的,也会是很有意思的方面。文继荣:现在搜索引擎不管从主要的核心功能还是到形态上已经几十年没有变化了,实际上现在很多东西都在变,比如说裴老师讲的热情经济,还有国内的一个网红经济,现在都是影响非常大的。我昨天看了一个新闻说的非常好玩,浙江余姚区网红可以评为国家级创新人才,不知道真的假的。实际上这个世界在飞速的变化,可能很多时候你认为没有变化空间的时候就是会开始很大变化的时期。就搜索来说,我觉得就直观感受而言还远远达不到我们真正想要了解的世界。这次新冠病毒期间,我觉得甚至可以开一个研讨会来讨论一下这中间的很多问题,人们在获取信息时出现了很多问题,有虚假信息问题也有信息多样性问题。这些信息对大家的影响是巨大的,你可以经常感觉到整个朋友圈都在转发和讨论一个信息。尤其大家在家里没办法面对面交谈,你可以通过控制信息来控制大家的观点和情绪,这个事情我觉得是非常重要的。我们人类将来会走向更加数字化的阶段,从搜索和推荐的角度对信息进行获取和处理,我觉得我们到了一个全新的时期,我们需要去探索。
直通车推广精准人群组合这些点一起介绍一下
网站优化 • 优采云 发表了文章 • 0 个评论 • 107 次浏览 • 2022-06-05 00:01
内部信息源与外部信息源搜索引擎优化方法的异同天猫和京东平台直通车/钻展/直通车推广精准人群组合这些点一起介绍一下国内的一些直通车推广渠道:广告最大的特点是,流量获取的对象比较单一,更多是广告位,展示次数/个数、广告位竞价等,其次是转化率。站外广告渠道:百度信息流、头条信息流、站外扶持广告。站内广告渠道:除了公域流量,广告主主要需要的是靠站内的自然搜索来提升流量。
站外推广渠道:线下广告和户外。广告优化:在具体账户建设过程中,出价策略和素材选择是可以根据不同市场进行区分。直通车推广优化是基于数据分析进行操作和优化,以ppc最小精准人群来实现所在账户的最佳定位。策略是在整个过程中最具操作性的方面,策略既可以短期通过行业预估和实际效果的对比,进行分析,优化人群,也可以长期全面优化。
如人群偏好,价格预估,兴趣点,创意点击率转化率等。广告渠道淘宝平台:搜索渠道,女装、男装、包包、女包、包包、男包、鞋、包、笔记本等。其他行业也可作为一个参考。信息流渠道:百家号,东方头条,优看电商,斗鱼,游族网等等。百度信息流:北京大学清华大学上海交通大学浙江大学北京航空航天大学等985高校和普通高校等。
头条信息流:当前主要以生活娱乐场景为主。同时作为广告主打的信息流可以投放医疗相关,社保相关等。广告渠道是非常多的,为什么我们不将这些渠道优化分开,综合推广,例如一套账户下有主推产品有广告优化人群,而有了产品、人群、素材,不仅可以操作全类目,也可以操作针对性强的投放渠道,全面,系统,高效的为广告主打造产品和整体账户打造品牌效应。ppc推广渠道内容出价优化(。
一)计算广告推广渠道测试
1、哪些行业可以放大推广力度?比如男装很多小类目可以少量放大点击数和点击率,但是北上广有几百万件上千万件的客户群体,那单点投放就是几百万个亿,如果少量放大就可以超过几百万个亿的数量级。
2、不同行业怎么计算cpc?非地域型地域类推广,同一类投放同一产品可以同一行业投放这样的投放方式。其次是由于产品和地域定位有异,比如3c的产品可以放大点击率和转化率等,地域类的产品或者潜在用户定位城市,那么同一地域相同行业投放定位城市,都会觉得cpc比较高。地域类可以理解为双定位,一定产品或者某一段区域投放相同产品比如一个城市定位1万,另一个城市定位1万5,而定位一个城市1万5和定位某个城市1万5的cpc就相当了。不同定位,需要投放的cpc有差异。另外不同类型推广在同一城市或者异地不同定位,cpc有相差很大的。 查看全部
直通车推广精准人群组合这些点一起介绍一下
内部信息源与外部信息源搜索引擎优化方法的异同天猫和京东平台直通车/钻展/直通车推广精准人群组合这些点一起介绍一下国内的一些直通车推广渠道:广告最大的特点是,流量获取的对象比较单一,更多是广告位,展示次数/个数、广告位竞价等,其次是转化率。站外广告渠道:百度信息流、头条信息流、站外扶持广告。站内广告渠道:除了公域流量,广告主主要需要的是靠站内的自然搜索来提升流量。
站外推广渠道:线下广告和户外。广告优化:在具体账户建设过程中,出价策略和素材选择是可以根据不同市场进行区分。直通车推广优化是基于数据分析进行操作和优化,以ppc最小精准人群来实现所在账户的最佳定位。策略是在整个过程中最具操作性的方面,策略既可以短期通过行业预估和实际效果的对比,进行分析,优化人群,也可以长期全面优化。
如人群偏好,价格预估,兴趣点,创意点击率转化率等。广告渠道淘宝平台:搜索渠道,女装、男装、包包、女包、包包、男包、鞋、包、笔记本等。其他行业也可作为一个参考。信息流渠道:百家号,东方头条,优看电商,斗鱼,游族网等等。百度信息流:北京大学清华大学上海交通大学浙江大学北京航空航天大学等985高校和普通高校等。
头条信息流:当前主要以生活娱乐场景为主。同时作为广告主打的信息流可以投放医疗相关,社保相关等。广告渠道是非常多的,为什么我们不将这些渠道优化分开,综合推广,例如一套账户下有主推产品有广告优化人群,而有了产品、人群、素材,不仅可以操作全类目,也可以操作针对性强的投放渠道,全面,系统,高效的为广告主打造产品和整体账户打造品牌效应。ppc推广渠道内容出价优化(。
一)计算广告推广渠道测试
1、哪些行业可以放大推广力度?比如男装很多小类目可以少量放大点击数和点击率,但是北上广有几百万件上千万件的客户群体,那单点投放就是几百万个亿,如果少量放大就可以超过几百万个亿的数量级。
2、不同行业怎么计算cpc?非地域型地域类推广,同一类投放同一产品可以同一行业投放这样的投放方式。其次是由于产品和地域定位有异,比如3c的产品可以放大点击率和转化率等,地域类的产品或者潜在用户定位城市,那么同一地域相同行业投放定位城市,都会觉得cpc比较高。地域类可以理解为双定位,一定产品或者某一段区域投放相同产品比如一个城市定位1万,另一个城市定位1万5,而定位一个城市1万5和定位某个城市1万5的cpc就相当了。不同定位,需要投放的cpc有差异。另外不同类型推广在同一城市或者异地不同定位,cpc有相差很大的。
整站优化与SEO优化有什么区别呢?
网站优化 • 优采云 发表了文章 • 0 个评论 • 106 次浏览 • 2022-05-14 19:37
seo优化和整站优化的区别
整站优化与SEO优化的区别有哪些?优化网站seo的方法有很多,但是很多人会把整个网站优化和关键词优化混在一起,但是优化的方式完全不同。整站点优化和关键词优化有关。两者都是根据搜索引擎发布网站内容,推广网站,实现用户体验,增加访问量和排名,但也有很大不同。
关键词优化:主要是指为网站选择合适的目标关键词,然后对这些目标关键词进行排序和优化。这个过程就是关键词优化,我们也可以把关键词优化定义为网站关键词排序过程。
全网站优化:所谓全网站优化是网站搜索引擎优化(SEO)的高级应用,是更高层次的网站营销策略。全网站优化服务并不是针对特定的关键词,而是着眼于增强网站搜索引擎的友好性。通过提高网站质量,可以获得更好的排名权重和搜索流量。
1、查找引擎友好度
整站优化:通过批改不利于查找引擎的弊端要素以及对网站整体结构的调整来取得查找引擎的友好度;
关键词排名优化:侧重于网页中关键词堆砌与外部链接建造,不对网站结构与网站内部是否存在一些不利于查找引擎的要素进行批改优化;
2、优化办法不同
整站优化:是通过对网站的整体优化来达到前进网站整体关键词排名,包括抢手关键词、产品关键词以及更多长尾词的排名;
关键词排名优化:依据客户供给的少数几个关键词进行优化,通过批改登陆页以及增加剧多外部链接来达到前进关键词排名;
3、优化效果不一样
整站优化:更合适网站的可持续性展开,通过合理地优化网站结构层次,利于网站办理与用户对网站的认知,而且整站优化的效果是累积有用,是不断地良性展开;
关键词排名优化:只针对单个网站的批改优化,优化效果不能持续,一起存在必定的风险性。
4、查核办法不同
整站优化:以前进网站流量/转化率等作为优化效果的查核标准;
关键词排名优化:以指定关键词在查找引擎的排名作为查核标准;
5、出资回报率不一样
整站优化:是前进网站整体关键词排名效果,所吸引到的网站阅读者更具有针对性,更利于效果转化;
关键词排名优化:只针对少数关键词进行优化,所吸引到的网站阅读者局限大,不利于效果转化;
其实从专业的角度而言,关键词排名其实包含在整站优化之中,关键词所需要的优化时间会比较短、见效快;而整站优化则需要一个长期持续的优化时间,通过长时间的积累,能更加稳定企业需求的营销效果。
以上就是关于“整站优化与SEO优化的区别有哪些?”的相关内容,希望对您有帮助,若您对SEO感兴趣,欢迎随时咨询我司。
end 查看全部
整站优化与SEO优化有什么区别呢?
seo优化和整站优化的区别
整站优化与SEO优化的区别有哪些?优化网站seo的方法有很多,但是很多人会把整个网站优化和关键词优化混在一起,但是优化的方式完全不同。整站点优化和关键词优化有关。两者都是根据搜索引擎发布网站内容,推广网站,实现用户体验,增加访问量和排名,但也有很大不同。
关键词优化:主要是指为网站选择合适的目标关键词,然后对这些目标关键词进行排序和优化。这个过程就是关键词优化,我们也可以把关键词优化定义为网站关键词排序过程。
全网站优化:所谓全网站优化是网站搜索引擎优化(SEO)的高级应用,是更高层次的网站营销策略。全网站优化服务并不是针对特定的关键词,而是着眼于增强网站搜索引擎的友好性。通过提高网站质量,可以获得更好的排名权重和搜索流量。
1、查找引擎友好度
整站优化:通过批改不利于查找引擎的弊端要素以及对网站整体结构的调整来取得查找引擎的友好度;
关键词排名优化:侧重于网页中关键词堆砌与外部链接建造,不对网站结构与网站内部是否存在一些不利于查找引擎的要素进行批改优化;
2、优化办法不同
整站优化:是通过对网站的整体优化来达到前进网站整体关键词排名,包括抢手关键词、产品关键词以及更多长尾词的排名;
关键词排名优化:依据客户供给的少数几个关键词进行优化,通过批改登陆页以及增加剧多外部链接来达到前进关键词排名;
3、优化效果不一样
整站优化:更合适网站的可持续性展开,通过合理地优化网站结构层次,利于网站办理与用户对网站的认知,而且整站优化的效果是累积有用,是不断地良性展开;
关键词排名优化:只针对单个网站的批改优化,优化效果不能持续,一起存在必定的风险性。
4、查核办法不同
整站优化:以前进网站流量/转化率等作为优化效果的查核标准;
关键词排名优化:以指定关键词在查找引擎的排名作为查核标准;
5、出资回报率不一样
整站优化:是前进网站整体关键词排名效果,所吸引到的网站阅读者更具有针对性,更利于效果转化;
关键词排名优化:只针对少数关键词进行优化,所吸引到的网站阅读者局限大,不利于效果转化;
其实从专业的角度而言,关键词排名其实包含在整站优化之中,关键词所需要的优化时间会比较短、见效快;而整站优化则需要一个长期持续的优化时间,通过长时间的积累,能更加稳定企业需求的营销效果。
以上就是关于“整站优化与SEO优化的区别有哪些?”的相关内容,希望对您有帮助,若您对SEO感兴趣,欢迎随时咨询我司。
end
白帽、黑帽、灰帽SEO优化的对比区别
网站优化 • 优采云 发表了文章 • 0 个评论 • 81 次浏览 • 2022-05-13 20:47
点击上方“输赢” →点击右上角“...”
→点选“设为星标★”为输赢加上星标。
很多新人对于seo也许不是很了解,但在互联网上seo却处处可见,我们平时浏览的新闻、视频、网页等等,都是与SEO技术有关的,很多大型的网站都有SEO技术人员,他们的目标就是为网站带来流量和知名度,从而进行变现。
一、白帽SEO
白帽SEO顾名思义就是一种公正的手法,是一种符合主流搜索引擎的思维方法,它与黑帽是相反的,白帽SEO一直被这个行业内认为是最好的SEO优化手法,它采用符合主流的SEO思维,合理的去优化网站,合理的与其他网站建立链接,提高用户体验。白帽SEO关注的是长远利益,一般通过这种方法提升的排名时间更长、更稳定。
二、黑帽SEO
黑帽SEO说白了就是使用一些搜索引擎禁止的方式,快速的增加网站的排名,它能够在短期内提升你网站的排名,但是不够稳定,随时都可能因为搜索引擎算法的改变而面临惩罚。
一、白帽SEO的常用手法:
1、架构设计
要做好白帽SEO,网站的整体架构肯定是重要的,是要符合搜索引擎规则的,链接结构、页面、404、500、首页文章的版块、内页的文章等等,这些东西在做网站前都要规划好。一个好的网站架构能够帮助搜索引擎蜘蛛更好的进行抓取和收录。用户的体验也会更好。
下图是一些架构设计没有做好的网站,就会出现下面的一些问题,这样的网站是不会被搜索引擎收录的。
2、TKD设置
TKD就是我们常说的网站的标题,关键词和描述。你要优化关键词的数量在你设置TKD的时候一定要想好。一般来说,首页的权重最高,关键词建议做主词,然后是栏目页和详情页,可以做长尾词或者拓展词。各个页面的TKD不要做一样的。不能恶意的堆积,这样不利于搜索引擎的识别,也不利于用户的体验。
下图是一个设置好的TDK:
3、内容质量
白帽的重心就是做好内容的质量,给用户提供他所需要的,能解决他问题的,高质量的内容是关键。用户搜索的是他想解决的问题,如果千篇一律都是重复的,没用的。他就不会继续看下去了。所以原创的内容很重要,一般来说,原创内容的比重要占到80%左右,这样能够更好的被收录。
如果你的内容不是原创,或者抄袭的过多,就会像下图一样,你觉得如果你是搜索引擎你会收录这样的内容吗?
二、黑帽SEO的常用手法:
1、关键词堆积
很多人优化网站的时候,堆积了大量的关键词,让搜索引擎认为网页是有相关性的,关键词的堆积技术是利于一串很长的重复性的关键词来迷惑搜索引擎。实际上这些关键词有时候与网页内容并没有关系。这类办法很少能有用处。
下图就是一个关键词堆积的例子:
2、隐藏文字
隐藏文字是这网页的HTML中放入有关键词的文章,这些字不会被用户所看到,只能被搜索引擎所看到。有几种常见的形式,如超小号的文字,跟网页背景相同颜色的文字,放着表格标签里面的文字等等。
3、页面跳转
通过JavaScript等技术,让用户在进入到这个页面之后迅速跳转到另一个页面。
三、灰帽SEO的介绍:
简单理解:游走于白帽与黑帽之间,一直属于擦边球,很多时候是无法鉴定的。灰帽SEO而言是做一部分站点基础的,甚至于白帽一样用心做站点基础也有很多。为了加快速度排名,再结合一些作弊的手法来进行快速排名。这里建议大家尤其新手,刚入门的时候不要想着什么黑帽SEO、灰帽SEO,就老老实实做白帽吧。白帽是任何形式SEO基础,只有很强的白帽基础才有可能延伸出来黑帽与灰帽。按照搜索引擎这两年的发展,只要安安心心做内容,解决用户搜索需求,即使光写文章,排名依然是指日可待的。
那么白帽SEO技术怎么做?
一、初步准备:
1.服务器选择
总之,要选择快速稳定的云服务器,尽量是建立独立的IP空间,这是不容易坐在搜索引擎,因为其他网站的问题。
2.网站备案
域名由工业和信息化部备案,以提高搜索引擎的信任度。
3.网站目录设置搜索引擎蜘蛛目录以查看爬行轨迹。
4.百度站长工具、搜狗站长工具和360站长工具都是尽可能多的添加,方便以后各种搜索引擎的优化和调整,背景非常强大。
5.进行安全扫描,如360网站安全工具等。
二、站内优化:
1.官方网站设计,尽量采用平面结构,使用面包屑导航,便于蜘蛛掌握分层。
2.使用robot.txt文件。主要内容是尽可能被搜索引擎抓取。如果有站点地图,可以直接在此处设置站点地图地址,也可以在主控形状的背景下提交。
3.301永久重定向,集中域名权重。
4.404个错误页。
5.Favicon图标设置。
6、标题、关键词、描述设置、关键词布局密度分布等。
7.站内代码优化、标签优化、冗余代码处理、JS和CSS代码封装、nofollow、h标记使用等。
8.站点地图设置(站点地图、百度地图)
9.URL设置,网站比较合适的深度不超过三层,URL尽可能静态
10.图片优化,尽量不要对图片使用PNG,透明图片除外。图片使用alt和标题标签来增加搜索引擎抓取的概率。
11.文章内容中重要关键词的内链设置
12.文章内容的伪原创性优于60%。尽量修改文章的开头和结尾,然后合并长尾关键字。
13.应尽可能使用target=“_blank”在新页面上打开外部链接,以避免客户因关闭而失去官方网站。
三、站外优化:
1.百度、搜狗、360、神马、谷歌、必应、有道等搜索引擎提交网站。
2.友情链接交换与第三方垂直行业网站包容应用
3.第三方媒体软文本加链接和锚文本(外链掌握数量和频率)
4.百度搜索口碑业务提交、相应评论、第三方行业知名信息评论、消息等。 查看全部
白帽、黑帽、灰帽SEO优化的对比区别
点击上方“输赢” →点击右上角“...”
→点选“设为星标★”为输赢加上星标。
很多新人对于seo也许不是很了解,但在互联网上seo却处处可见,我们平时浏览的新闻、视频、网页等等,都是与SEO技术有关的,很多大型的网站都有SEO技术人员,他们的目标就是为网站带来流量和知名度,从而进行变现。
一、白帽SEO
白帽SEO顾名思义就是一种公正的手法,是一种符合主流搜索引擎的思维方法,它与黑帽是相反的,白帽SEO一直被这个行业内认为是最好的SEO优化手法,它采用符合主流的SEO思维,合理的去优化网站,合理的与其他网站建立链接,提高用户体验。白帽SEO关注的是长远利益,一般通过这种方法提升的排名时间更长、更稳定。
二、黑帽SEO
黑帽SEO说白了就是使用一些搜索引擎禁止的方式,快速的增加网站的排名,它能够在短期内提升你网站的排名,但是不够稳定,随时都可能因为搜索引擎算法的改变而面临惩罚。
一、白帽SEO的常用手法:
1、架构设计
要做好白帽SEO,网站的整体架构肯定是重要的,是要符合搜索引擎规则的,链接结构、页面、404、500、首页文章的版块、内页的文章等等,这些东西在做网站前都要规划好。一个好的网站架构能够帮助搜索引擎蜘蛛更好的进行抓取和收录。用户的体验也会更好。
下图是一些架构设计没有做好的网站,就会出现下面的一些问题,这样的网站是不会被搜索引擎收录的。
2、TKD设置
TKD就是我们常说的网站的标题,关键词和描述。你要优化关键词的数量在你设置TKD的时候一定要想好。一般来说,首页的权重最高,关键词建议做主词,然后是栏目页和详情页,可以做长尾词或者拓展词。各个页面的TKD不要做一样的。不能恶意的堆积,这样不利于搜索引擎的识别,也不利于用户的体验。
下图是一个设置好的TDK:
3、内容质量
白帽的重心就是做好内容的质量,给用户提供他所需要的,能解决他问题的,高质量的内容是关键。用户搜索的是他想解决的问题,如果千篇一律都是重复的,没用的。他就不会继续看下去了。所以原创的内容很重要,一般来说,原创内容的比重要占到80%左右,这样能够更好的被收录。
如果你的内容不是原创,或者抄袭的过多,就会像下图一样,你觉得如果你是搜索引擎你会收录这样的内容吗?
二、黑帽SEO的常用手法:
1、关键词堆积
很多人优化网站的时候,堆积了大量的关键词,让搜索引擎认为网页是有相关性的,关键词的堆积技术是利于一串很长的重复性的关键词来迷惑搜索引擎。实际上这些关键词有时候与网页内容并没有关系。这类办法很少能有用处。
下图就是一个关键词堆积的例子:
2、隐藏文字
隐藏文字是这网页的HTML中放入有关键词的文章,这些字不会被用户所看到,只能被搜索引擎所看到。有几种常见的形式,如超小号的文字,跟网页背景相同颜色的文字,放着表格标签里面的文字等等。
3、页面跳转
通过JavaScript等技术,让用户在进入到这个页面之后迅速跳转到另一个页面。
三、灰帽SEO的介绍:
简单理解:游走于白帽与黑帽之间,一直属于擦边球,很多时候是无法鉴定的。灰帽SEO而言是做一部分站点基础的,甚至于白帽一样用心做站点基础也有很多。为了加快速度排名,再结合一些作弊的手法来进行快速排名。这里建议大家尤其新手,刚入门的时候不要想着什么黑帽SEO、灰帽SEO,就老老实实做白帽吧。白帽是任何形式SEO基础,只有很强的白帽基础才有可能延伸出来黑帽与灰帽。按照搜索引擎这两年的发展,只要安安心心做内容,解决用户搜索需求,即使光写文章,排名依然是指日可待的。
那么白帽SEO技术怎么做?
一、初步准备:
1.服务器选择
总之,要选择快速稳定的云服务器,尽量是建立独立的IP空间,这是不容易坐在搜索引擎,因为其他网站的问题。
2.网站备案
域名由工业和信息化部备案,以提高搜索引擎的信任度。
3.网站目录设置搜索引擎蜘蛛目录以查看爬行轨迹。
4.百度站长工具、搜狗站长工具和360站长工具都是尽可能多的添加,方便以后各种搜索引擎的优化和调整,背景非常强大。
5.进行安全扫描,如360网站安全工具等。
二、站内优化:
1.官方网站设计,尽量采用平面结构,使用面包屑导航,便于蜘蛛掌握分层。
2.使用robot.txt文件。主要内容是尽可能被搜索引擎抓取。如果有站点地图,可以直接在此处设置站点地图地址,也可以在主控形状的背景下提交。
3.301永久重定向,集中域名权重。
4.404个错误页。
5.Favicon图标设置。
6、标题、关键词、描述设置、关键词布局密度分布等。
7.站内代码优化、标签优化、冗余代码处理、JS和CSS代码封装、nofollow、h标记使用等。
8.站点地图设置(站点地图、百度地图)
9.URL设置,网站比较合适的深度不超过三层,URL尽可能静态
10.图片优化,尽量不要对图片使用PNG,透明图片除外。图片使用alt和标题标签来增加搜索引擎抓取的概率。
11.文章内容中重要关键词的内链设置
12.文章内容的伪原创性优于60%。尽量修改文章的开头和结尾,然后合并长尾关键字。
13.应尽可能使用target=“_blank”在新页面上打开外部链接,以避免客户因关闭而失去官方网站。
三、站外优化:
1.百度、搜狗、360、神马、谷歌、必应、有道等搜索引擎提交网站。
2.友情链接交换与第三方垂直行业网站包容应用
3.第三方媒体软文本加链接和锚文本(外链掌握数量和频率)
4.百度搜索口碑业务提交、相应评论、第三方行业知名信息评论、消息等。
探究搜索引擎结果页信息检索模式:基于过程数据
网站优化 • 优采云 发表了文章 • 0 个评论 • 122 次浏览 • 2022-05-05 17:19
导读
近日,一项基于过程数据探究搜索引擎结果页信息检索模式的文章发表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。论文作者为阿尔伯塔大学博士生高一珠(第一作者兼通讯作者)、教授崔迎、副教授Okan Bulut,以及乔治亚大学助理教授翟小铭和澳门大学助理教授陈孚,具体信息如下:
Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.
背景介绍
当前,搜索引擎已成为最常用的信息问题解决的工具,而网络信息搜索也成为信息技术时代的必要技能之一。当用户在搜索引擎输入关键词,搜索引擎完成搜索后,在搜索引擎结果页 (search engine result page, SERP)上往往会呈现出庞大的、差异化的信息源 (information source)。此时,用户常常需要通过检索信息源内的信息来获得目标信息。每个信息源可视为一个信息块 (information patch),而对于嵌套于信息块内信息的检索以及不同信息块的检索则直接影响着信息问题解决。
研究者们聚焦于单层超文本 (single-layered hypertexts) 构成的信息环境,提出了一些信息检索理论,并完成了许多信息检索模式的研究。例如,Pirolli和Card (1999) 提出著名的信息检索理论 (information foraging theory, IFT) ,该理论认为用户对搜索引擎结果页上信息块的检索类似于人类祖先的觅食行为,并表示当访问某个信息块时,用户会持续权衡其信息收益和认知消耗,当信息收益低于认知消耗时,该用户便退出当前信息块,返回到搜索引擎结果页检索其它信息块或者结束当前信息检索任务。基于该理论,Reader 和 Payne (2007) 总结了两种信息检索模式:Sampling 和 Satisficing 。Sampling的模式是指用户浏览尽可能多信息块,而Satisficing的模式则是指用户会依次浏览搜索引擎结果页上的信息块,当检索到能够解决其信息问题的信息块时便不再浏览其它信息块。
然而,现实场景中,信息普遍以多层超文本 (multi-layered hypertexts) 的形式嵌套于信息空间中,单层超文本的研究显然无法很好解答信息检索模式的问题。因此,少量研究者开始关注多层超文本信息环境下的信息检索模式。Jenkins et al. (2003) 采用出声思维方法挖掘出 Breadth-first 和 Depth-first 两种模式 (表1)。Juvina 和 van Oostendorp (2006) 对过程数据中提取的single-unit measures (如路径长度) 进行主成分分析辨别出 Flimsy, Content-focus, Laborious, 和 Divergent四种模式(表1)。但是这些研究存在一些局限:首先,这些研究的样本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 导致结果具有比较低的外部效度;其次,single-unit measures 并不利用过程数据中事件序列信息,因此一些检索模式 (i.e., Laborious) 对信息问题解决的影响仍然是不清楚的;最后,不同类型的信息问题会影响到用户信息检索模式,但是以往研究并未考虑信息问题的类型。
Table 1 Explanations of web navigation patterns in multi-layered hypertext environments
本研究通过对用户在解决信息定位问题 (explicit information-locating task) 以及信息评价问题 (amorphous information-evaluating task) 产生的过程数据进行分析,来探究多层超文本信息环境下用户在搜索引擎结果页的信息检索模式。因此,本研究的目的主要包括:1)挖掘信息定位问题和信息评价问题的信息检索模式;2)比较不同检索模式在解决信息定位问题和信息评价问题的有效性。
研究方法
本研究采用2012年PIAAC中PSTRE (problem-solving in technology-rich environments) 测验的两道题目:购买图书和可靠性网页,它们分别属于信息定位问题和信息评价问题,具体而言,购买图书题目要求用户找到满足条件的图书,并且题干中清晰地界定了目标图书条件(价格、邮寄日期等),可靠性网页题目要求用户找到提供最可靠的治疗关节扭伤方法的网页,但题干中并未对信息可靠性进行定义,用户需要依据自身经验评价网页信息可靠性。对于购买图书题目,搜索引擎结果页显示六个信息块,其中五个包括嵌套页,对于可靠性网页题目,搜索引擎结果页展现五个信息块,其中三个包括嵌套页(表2),嵌套页信息对正确解决这两道题目都是必要的。本研究分别对美国和英国两个国家的数据进行潜在类别分析 (Latent Class Analysis, LCA) 和全路径序列分析 (full-path sequence analysis) ,LCA分析基于被试对每个网页(即主页和嵌套页)的浏览次数,依据相对拟合和绝对拟合指标,归类概率以及LMR等将被试分类,全路径序列分析旨在刻画各组代表性的信息检索模式。
Table 2 The links structure and the corresponding web pages for the two tasks
Note. H indicates the homepage. N denotes the nested web page.
研究结果与讨论
由于英国的分析结果与美国的结果类似,在此仅呈现美国的分析结果。对于信息定位问题而言, LCA分析显示五类别模型与数据拟合最好,同时,通过分组进行全路径序列分析,可以辨别出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息检索模式(图1),例如,尽管嵌套页内的信息对于解决该任务是必要的,但组1(图1)并不关注嵌套页内信息,而是仅仅浏览主页信息。
Figure 1 Representative sequences selected for the five classes of the explicit information-locating task
Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
对于信息评价问题而言, 综合LCA各模型指标,四类别模型与数据拟合最好。针对分类参与者进行全路径序列分析,可辨别出Sampling, Breadth-first, Laborious, Flimsy 信息检索模式(图2)。
Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task
Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
对比两类信息问题发现,Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位问题和信息评价问题中,但Satisficing 模式只出现在信息定位问题中。进一步Pearson’s 检验表明,Sampling模式组在信息评价任务中表现最好,Satisficing 模式组则在信息定位任务中表现最好。
本研究的结果增进了我们对信息检索过程的认识。具体来说,Sampling 和 Satisficing 同样适用于多层超文本构成的信息环境,Satisficing模式在信息定位问题中的特异性表明,当目标信息被清晰界定后, Satisficing 模式便足够获取全局最优信息块,而当目标信息模糊不定时,用户则需要通过尽可能多地浏览不同信息块 (Sampling) 来获取最优信息块。因此,当用户检索引擎结果页信息时,信息可接受标准和信息收益/认知消耗间的权衡共同影响用户的信息检索模式。
征稿启事
为增进学会内部的学术交流,也为提升公众对教育统计测量领域的认知,学会将定期通过本公众号发布各类专题文章,特邀请学会同仁们参与投稿。
稿件内容:
与教育统计测量相关的理论,方法,技术、应用和创新
稿件形式:
1.论文速递:将您最新发表的论文,写成通俗易懂的科普短文。
2.研究前沿:将您认为有价值的本领域国内外研究,整理成介绍短文。
稿件字数:
2000字左右,图表不限
收稿邮箱:
注意事项:
1.稿件使用word文件,注明作者和所在单位,以及原文出处。
2.我们将根据投稿的选题和质量安排稿件发布的时间。如需修改,我们会进一步与您沟通。 查看全部
探究搜索引擎结果页信息检索模式:基于过程数据
导读
近日,一项基于过程数据探究搜索引擎结果页信息检索模式的文章发表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。论文作者为阿尔伯塔大学博士生高一珠(第一作者兼通讯作者)、教授崔迎、副教授Okan Bulut,以及乔治亚大学助理教授翟小铭和澳门大学助理教授陈孚,具体信息如下:
Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.
背景介绍
当前,搜索引擎已成为最常用的信息问题解决的工具,而网络信息搜索也成为信息技术时代的必要技能之一。当用户在搜索引擎输入关键词,搜索引擎完成搜索后,在搜索引擎结果页 (search engine result page, SERP)上往往会呈现出庞大的、差异化的信息源 (information source)。此时,用户常常需要通过检索信息源内的信息来获得目标信息。每个信息源可视为一个信息块 (information patch),而对于嵌套于信息块内信息的检索以及不同信息块的检索则直接影响着信息问题解决。
研究者们聚焦于单层超文本 (single-layered hypertexts) 构成的信息环境,提出了一些信息检索理论,并完成了许多信息检索模式的研究。例如,Pirolli和Card (1999) 提出著名的信息检索理论 (information foraging theory, IFT) ,该理论认为用户对搜索引擎结果页上信息块的检索类似于人类祖先的觅食行为,并表示当访问某个信息块时,用户会持续权衡其信息收益和认知消耗,当信息收益低于认知消耗时,该用户便退出当前信息块,返回到搜索引擎结果页检索其它信息块或者结束当前信息检索任务。基于该理论,Reader 和 Payne (2007) 总结了两种信息检索模式:Sampling 和 Satisficing 。Sampling的模式是指用户浏览尽可能多信息块,而Satisficing的模式则是指用户会依次浏览搜索引擎结果页上的信息块,当检索到能够解决其信息问题的信息块时便不再浏览其它信息块。
然而,现实场景中,信息普遍以多层超文本 (multi-layered hypertexts) 的形式嵌套于信息空间中,单层超文本的研究显然无法很好解答信息检索模式的问题。因此,少量研究者开始关注多层超文本信息环境下的信息检索模式。Jenkins et al. (2003) 采用出声思维方法挖掘出 Breadth-first 和 Depth-first 两种模式 (表1)。Juvina 和 van Oostendorp (2006) 对过程数据中提取的single-unit measures (如路径长度) 进行主成分分析辨别出 Flimsy, Content-focus, Laborious, 和 Divergent四种模式(表1)。但是这些研究存在一些局限:首先,这些研究的样本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 导致结果具有比较低的外部效度;其次,single-unit measures 并不利用过程数据中事件序列信息,因此一些检索模式 (i.e., Laborious) 对信息问题解决的影响仍然是不清楚的;最后,不同类型的信息问题会影响到用户信息检索模式,但是以往研究并未考虑信息问题的类型。
Table 1 Explanations of web navigation patterns in multi-layered hypertext environments
本研究通过对用户在解决信息定位问题 (explicit information-locating task) 以及信息评价问题 (amorphous information-evaluating task) 产生的过程数据进行分析,来探究多层超文本信息环境下用户在搜索引擎结果页的信息检索模式。因此,本研究的目的主要包括:1)挖掘信息定位问题和信息评价问题的信息检索模式;2)比较不同检索模式在解决信息定位问题和信息评价问题的有效性。
研究方法
本研究采用2012年PIAAC中PSTRE (problem-solving in technology-rich environments) 测验的两道题目:购买图书和可靠性网页,它们分别属于信息定位问题和信息评价问题,具体而言,购买图书题目要求用户找到满足条件的图书,并且题干中清晰地界定了目标图书条件(价格、邮寄日期等),可靠性网页题目要求用户找到提供最可靠的治疗关节扭伤方法的网页,但题干中并未对信息可靠性进行定义,用户需要依据自身经验评价网页信息可靠性。对于购买图书题目,搜索引擎结果页显示六个信息块,其中五个包括嵌套页,对于可靠性网页题目,搜索引擎结果页展现五个信息块,其中三个包括嵌套页(表2),嵌套页信息对正确解决这两道题目都是必要的。本研究分别对美国和英国两个国家的数据进行潜在类别分析 (Latent Class Analysis, LCA) 和全路径序列分析 (full-path sequence analysis) ,LCA分析基于被试对每个网页(即主页和嵌套页)的浏览次数,依据相对拟合和绝对拟合指标,归类概率以及LMR等将被试分类,全路径序列分析旨在刻画各组代表性的信息检索模式。
Table 2 The links structure and the corresponding web pages for the two tasks
Note. H indicates the homepage. N denotes the nested web page.
研究结果与讨论
由于英国的分析结果与美国的结果类似,在此仅呈现美国的分析结果。对于信息定位问题而言, LCA分析显示五类别模型与数据拟合最好,同时,通过分组进行全路径序列分析,可以辨别出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息检索模式(图1),例如,尽管嵌套页内的信息对于解决该任务是必要的,但组1(图1)并不关注嵌套页内信息,而是仅仅浏览主页信息。
Figure 1 Representative sequences selected for the five classes of the explicit information-locating task
Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
对于信息评价问题而言, 综合LCA各模型指标,四类别模型与数据拟合最好。针对分类参与者进行全路径序列分析,可辨别出Sampling, Breadth-first, Laborious, Flimsy 信息检索模式(图2)。
Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task
Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
对比两类信息问题发现,Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位问题和信息评价问题中,但Satisficing 模式只出现在信息定位问题中。进一步Pearson’s 检验表明,Sampling模式组在信息评价任务中表现最好,Satisficing 模式组则在信息定位任务中表现最好。
本研究的结果增进了我们对信息检索过程的认识。具体来说,Sampling 和 Satisficing 同样适用于多层超文本构成的信息环境,Satisficing模式在信息定位问题中的特异性表明,当目标信息被清晰界定后, Satisficing 模式便足够获取全局最优信息块,而当目标信息模糊不定时,用户则需要通过尽可能多地浏览不同信息块 (Sampling) 来获取最优信息块。因此,当用户检索引擎结果页信息时,信息可接受标准和信息收益/认知消耗间的权衡共同影响用户的信息检索模式。
征稿启事
为增进学会内部的学术交流,也为提升公众对教育统计测量领域的认知,学会将定期通过本公众号发布各类专题文章,特邀请学会同仁们参与投稿。
稿件内容:
与教育统计测量相关的理论,方法,技术、应用和创新
稿件形式:
1.论文速递:将您最新发表的论文,写成通俗易懂的科普短文。
2.研究前沿:将您认为有价值的本领域国内外研究,整理成介绍短文。
稿件字数:
2000字左右,图表不限
收稿邮箱:
注意事项:
1.稿件使用word文件,注明作者和所在单位,以及原文出处。
2.我们将根据投稿的选题和质量安排稿件发布的时间。如需修改,我们会进一步与您沟通。
App Store上的应用怎么做SEO/ASO?seo与aso的区别
网站优化 • 优采云 发表了文章 • 0 个评论 • 95 次浏览 • 2022-05-05 17:15
APP Store Optimization也称ASO,即应用商店优化,广义指苹果App Store商店优化,安卓Google Play商店优化,也包括国内豌豆荚,应用宝和海外一些第三方的应用平台优化。旨在提升商店排名,提高应用下载量和应用收入(内购+广告)
简单的从以下几个方面介绍一下ASO。
1.ASO与SEO?
ASO与人们常说的SEO有什么区别?其实ASO是SEO的一种特殊形式,SEO泛指所有搜索引擎的优化,通过对内容和TDK的优化,使网站在目标搜索引擎(谷歌,百度,bing等)中获得更高的排名和流量,而ASO特指在应用商店对app优化以提升App的排名。
SEO 数据维度:关键词数据包括站内搜索、网站浏览路径、来源关键词及搜索引擎等。作用在于了解用户搜索行为,为产品、设计及 SEO 策略指导方向,提供目标。
ASO 数据维度:关键词数据包括关键词覆盖及排名数据、搜索结果数、关键词热度、关键词搜索指数。作用在于了解关键词的情况,明确前期优化方向,并在优化中后期根据数据变动及时调整优化策略。
SEO 优化效果:搜索结果、展示量、点击量和展示位置;索引情况:被搜索引擎检索的情况;流量:网站流量的提升,包括 PV、UV、注册用户;收益:网站参与度、付费用户、ROI。
ASO 优化效果:搜索结果、搜索展示量;排名情况:榜单排名,及关键词搜索排名;流量:自然流量(新增下载)的提升;收益:app 注册、活跃、留存、付费。
2.为什么做ASO?
ASO是官方认可,合理合规的App优化手段,在ASO面前,众生平等。只要你切中了关键词,新发行的App也可以在短期内冲到前三。
ASO是不需要任何费用的,当然有预算买量会起到催化效果,不过催化剂不一定都是正向的。
3.ASO包括哪些内容?
①基础
通过编辑商店中的内容,标题,副标题,描述等信息来覆盖关键词。通过商店内的版本更新,伴随着描述更新,从而在规则合理的前提下实现关键词覆盖增多。
权重:标题 > 副标题 > App关键词
另外,通过不同语言来增强关键词覆盖。
例如,对于中国市场,可以准备中文(简体),英文(英国),英文(澳大利亚)三个版本的关键词,能够提升关键词排名,但版本间关键词无法相互组词。不过覆盖关键词多了,可能会分摊权重,这种情况下重点关键词需要多次重复。 查看全部
App Store上的应用怎么做SEO/ASO?seo与aso的区别
APP Store Optimization也称ASO,即应用商店优化,广义指苹果App Store商店优化,安卓Google Play商店优化,也包括国内豌豆荚,应用宝和海外一些第三方的应用平台优化。旨在提升商店排名,提高应用下载量和应用收入(内购+广告)
简单的从以下几个方面介绍一下ASO。
1.ASO与SEO?
ASO与人们常说的SEO有什么区别?其实ASO是SEO的一种特殊形式,SEO泛指所有搜索引擎的优化,通过对内容和TDK的优化,使网站在目标搜索引擎(谷歌,百度,bing等)中获得更高的排名和流量,而ASO特指在应用商店对app优化以提升App的排名。
SEO 数据维度:关键词数据包括站内搜索、网站浏览路径、来源关键词及搜索引擎等。作用在于了解用户搜索行为,为产品、设计及 SEO 策略指导方向,提供目标。
ASO 数据维度:关键词数据包括关键词覆盖及排名数据、搜索结果数、关键词热度、关键词搜索指数。作用在于了解关键词的情况,明确前期优化方向,并在优化中后期根据数据变动及时调整优化策略。
SEO 优化效果:搜索结果、展示量、点击量和展示位置;索引情况:被搜索引擎检索的情况;流量:网站流量的提升,包括 PV、UV、注册用户;收益:网站参与度、付费用户、ROI。
ASO 优化效果:搜索结果、搜索展示量;排名情况:榜单排名,及关键词搜索排名;流量:自然流量(新增下载)的提升;收益:app 注册、活跃、留存、付费。
2.为什么做ASO?
ASO是官方认可,合理合规的App优化手段,在ASO面前,众生平等。只要你切中了关键词,新发行的App也可以在短期内冲到前三。
ASO是不需要任何费用的,当然有预算买量会起到催化效果,不过催化剂不一定都是正向的。
3.ASO包括哪些内容?
①基础
通过编辑商店中的内容,标题,副标题,描述等信息来覆盖关键词。通过商店内的版本更新,伴随着描述更新,从而在规则合理的前提下实现关键词覆盖增多。
权重:标题 > 副标题 > App关键词
另外,通过不同语言来增强关键词覆盖。
例如,对于中国市场,可以准备中文(简体),英文(英国),英文(澳大利亚)三个版本的关键词,能够提升关键词排名,但版本间关键词无法相互组词。不过覆盖关键词多了,可能会分摊权重,这种情况下重点关键词需要多次重复。
r+10万计划让网站具有非常好的竞争力
网站优化 • 优采云 发表了文章 • 0 个评论 • 86 次浏览 • 2022-05-02 19:01
内部信息源与外部信息源搜索引擎优化方法的异同和对比展开一下。对于在京东搜索商品,大部分情况下,买家是想知道商品的基本信息,因此只关注内部信息源。如一些网站和邮件,非常积极的开发和推广外部信息源,然而到底对搜索引擎优化提高了什么价值?上图是主要的几家在线购物平台对比。左边是京东,右边是天猫。下面进行图文分析:京东在前端页面不到一半的时间点进行主动主营信息源营销,这非常重要,否则不仅影响转化率,也影响搜索。
网上各种传言有云,京东在上线iab2014百万计划的时候,要花大力气在这方面推广。不过,个人不看好。网上有人说京东要赚取微利营销,这没有一个可靠的说法。在2012年已经在r+10万计划,2013年京东确认对供应商进行了促销,并且正在补贴。2014年初,对经销商要求零售品达到r+10万计划,而不是1万计划,显然r+10万计划并不适合。
而对于大品牌来说,r+10万计划至少会让网站具有非常好的竞争力。实际上,2014年初的大促,r+10万计划也被买断了。我没有不相信一些供应商是大品牌,但是缺乏说服力。再者,一个有效的计划,必须是试销,而不是发大财,发了大财公司肯定不会管你。即使前期投入了大量资金做内部引流,后期仍然需要全面投入,并收效甚微。
天猫通过内部广告推广提高了网站认知度,搜索优化提高了流量。这实际上是很少见的。天猫的目标是挖掘商品中的潜在流量。除了专门针对大品牌的搜索营销之外,在大型促销后,天猫还开始主动营销。从用户数据来看,信息源营销促进网站发展的速度也是很快的。其中有个例子如果看这里:该如何告诉竞争对手你的预算呢?京东从2013年开始推动其内部信息源营销,并在2014年投入了大约9亿。
在京东2014百万大促中,经过专家研讨,个人认为这一算法是可靠的。但是从天猫的表现来看,京东的投入似乎有所亏损。然而搜索优化是做对搜索而言有作用的营销。大数据分析促进转化率提高,对价格敏感的用户转化率提高,以及最后也提高了品牌在搜索中的曝光率。但是搜索优化本身对网站产生的价值无法估量。需要重视:2.内部搜索优化与外部搜索优化是由同一个专业团队组成,具有同样的目标,将同一种在搜索引擎上采用策略。
显然,对于京东来说,从一开始京东对供应商就有足够高的要求,那么可靠的内部搜索优化应该是可以起到鼓励效果的。2015-8-11。 查看全部
r+10万计划让网站具有非常好的竞争力
内部信息源与外部信息源搜索引擎优化方法的异同和对比展开一下。对于在京东搜索商品,大部分情况下,买家是想知道商品的基本信息,因此只关注内部信息源。如一些网站和邮件,非常积极的开发和推广外部信息源,然而到底对搜索引擎优化提高了什么价值?上图是主要的几家在线购物平台对比。左边是京东,右边是天猫。下面进行图文分析:京东在前端页面不到一半的时间点进行主动主营信息源营销,这非常重要,否则不仅影响转化率,也影响搜索。
网上各种传言有云,京东在上线iab2014百万计划的时候,要花大力气在这方面推广。不过,个人不看好。网上有人说京东要赚取微利营销,这没有一个可靠的说法。在2012年已经在r+10万计划,2013年京东确认对供应商进行了促销,并且正在补贴。2014年初,对经销商要求零售品达到r+10万计划,而不是1万计划,显然r+10万计划并不适合。
而对于大品牌来说,r+10万计划至少会让网站具有非常好的竞争力。实际上,2014年初的大促,r+10万计划也被买断了。我没有不相信一些供应商是大品牌,但是缺乏说服力。再者,一个有效的计划,必须是试销,而不是发大财,发了大财公司肯定不会管你。即使前期投入了大量资金做内部引流,后期仍然需要全面投入,并收效甚微。
天猫通过内部广告推广提高了网站认知度,搜索优化提高了流量。这实际上是很少见的。天猫的目标是挖掘商品中的潜在流量。除了专门针对大品牌的搜索营销之外,在大型促销后,天猫还开始主动营销。从用户数据来看,信息源营销促进网站发展的速度也是很快的。其中有个例子如果看这里:该如何告诉竞争对手你的预算呢?京东从2013年开始推动其内部信息源营销,并在2014年投入了大约9亿。
在京东2014百万大促中,经过专家研讨,个人认为这一算法是可靠的。但是从天猫的表现来看,京东的投入似乎有所亏损。然而搜索优化是做对搜索而言有作用的营销。大数据分析促进转化率提高,对价格敏感的用户转化率提高,以及最后也提高了品牌在搜索中的曝光率。但是搜索优化本身对网站产生的价值无法估量。需要重视:2.内部搜索优化与外部搜索优化是由同一个专业团队组成,具有同样的目标,将同一种在搜索引擎上采用策略。
显然,对于京东来说,从一开始京东对供应商就有足够高的要求,那么可靠的内部搜索优化应该是可以起到鼓励效果的。2015-8-11。
12 个优化 Docker 镜像安全性的技巧
网站优化 • 优采云 发表了文章 • 0 个评论 • 80 次浏览 • 2022-05-02 03:19
作者 |Marius出品|
本文介绍了 12 个优化 Docker 镜像安全性的技巧。每个技巧都解释了底层的攻击载体,以及一个或多个缓解方法。这些技巧包括了避免泄露构建密钥、以非 root 用户身份运行,或如何确保使用最新的依赖和更新等。
1前言
当你是刚开始使用 Docker 的新手时,你很可能会创建不安全的 Docker 镜像,使攻击者很容易借此接管容器,甚至可能接管整个主机,然后渗透到你公司的其他基础设施中。
可以被滥用来接管你的系统的攻击向量有很多,例如:
下面的各个章节讲解了能够优化你的镜像安全性的各种方法。它们是按重要性 / 影响程度排序的,也就是说排名靠前的方法更重要。
2避免泄露构建密钥
构建密钥是只在构建 Docker 镜像时需要的凭证(不是在运行时)。例如,你可能想在你的镜像中包含某个应用程序的一个编译版本,这个应用的源代码是闭源的,并且其 Git 存储库是有访问保护的。在构建镜像时,你需要克隆 Git 存储库(这需要构建密钥,例如该存储库的 SSH 访问密钥),从源代码构建应用程序,然后再删除源代码(和密钥)。
“泄露“构建密钥是说你不小心把这种密钥烘焙到了你的镜像的某个层中。这种情况很严重,因为拉取你的镜像的所有人都可以检索到这些机密。这个问题源于这样一个事实,即 Docker 镜像是以纯粹的加法方式逐层构建的。你在一个层中删除的文件只是被“标记”为已删除,但拉取你镜像的人们仍然可以使用高级工具访问它们。
可以使用以下两种方法之一来避免泄露构建密钥。
多阶段构建
Docker 多阶段构建(官方文档)有许多用例,例如加快你的镜像构建速度,或减少镜像大小。本系列的其他文章会详细介绍其他用例。总之,你也可以通过多阶段构建来避免泄露构建密钥,如下所示:
BuildKit 的密钥背景知识如果你使用 docker build 进行构建,可以实际执行构建的后端选项不止一个。其中较新和较快的后端是 BuildKit,你需要在 Linux 上设置环境变量 DOCKER_BUILDKIT=1 来显式启用它。注意,BuildKit 在 Windows/MacOS 的 Docker for Desktop 上是默认启用的。
正如这里的文档所解释的(阅读它们以了解更多细节),BuildKit 构建引擎支持 Dockerfile 中的额外语法。要使用构建密钥,请在你的 Dockerfile 中放入类似下面这样的内容:
RUN --mount=type=secret,id=mysecret,dst=/foobar
当 RUN 语句被执行时,密钥将对这个构建容器可用,但不会将密钥本身(这里是:/foobar 文件夹)放入构建的镜像中。你需要在运行 docker build 命令时指定密钥的源文件 / 文件夹(位于主机上)的路径,例如:
docker build --secret id=mysecret,src=mysecret.txt -t sometag
不过有一点需要注意:你不能通过 docker-compose up --build 来构建需要密钥的镜像,因为 Docker-compose 还不支持用于构建的 --secret 参数,见 GitHub 问题。如果你依赖 docker-compose 的构建,请使用方法 1(多阶段构建)。
题外话:不要推送在开发机上构建的镜像
你应该一直在一个干净的环境中构建和推送镜像(例如 CI/CD 管道),其中构建代理会将你的存储库克隆到一个新目录。
使用本地开发机器进行构建的问题是,你的本地 Git 存储库的“工作树“可能是脏的。例如,它可能包含有开发过程中需要的密钥文件,例如对中转甚至生产服务器的访问密钥。如果没有通过.dockerignore 排除这些文件,那么 Dockerfile 中的“COPY . .“等语句可能会意外导致这些密钥泄露到最终镜像中。
3以非 root 用户身份运行
默认情况下,当有人通过“docker runyourImage:yourTag“运行你的镜像时,这个容器(以及你在 ENTRYPOINT/CMD 中的程序)会以 root 用户身份运行(在容器和主机上)。这给了一个使用某种漏洞在你的运行容器中获得 shell 权限的攻击者以下权力:
为了避免这种情况,你应该以非 root 用户(你在 docker build 过程中创建的一些用户)的身份运行你的应用程序。在你的 Dockerfile 中的某个地方(通常是在结尾处)放置以下语句:
# Create a new user (including a home-directory, which is optional)RUN useradd --create-home appuser# Switch to this userUSER appuser
Dockerfile 中所有在 USER appuser 语句之后的命令(如 RUN、CMD 或 ENTRYPOINT)都将以这个用户运行。这里有一些需要注意的地方:
4使用最新的基础镜像构建和更新系统包
如果你使用的基础镜像包含了某个真正的 Linux 发行版(如 Debian、Ubuntu 或 alpine 镜像)的全部工具集,其中包括一个软件包管理器,建议使用该软件包管理器来安装所有可用的软件包更新。
背景知识基础镜像是由某人维护的,他配置了 CI/CD 管道计划来构建基础镜像,并定期推送到 Docker Hub。你无法控制这个时间间隔,而且经常发生的情况是,在该管道将更新的 Docker 镜像推送到 Docker Hub 之前,Linux 发行版的包注册表(例如通过 apt)中已经有了安全补丁。例如,即使基础镜像每周推送一次,也有可能在最近的镜像发布几小时或几天后出现安全更新。
因此,最好总是运行更新本地软件包数据库和安装更新的包管理器命令,采用无人值守模式(不需要用户确认)。每个 Linux 发行版的这个命令都不一样。
例如,对于 Ubuntu、Debian 或衍生的发行版,使用 RUN apt-get update && apt-get -y upgrade
另一个重要的细节是,你需要告诉 Docker(或你使用的任何镜像构建工具)来刷新基础镜像。否则,如果你引用一个基础镜像,比如 python:3(而 Docker 在其本地镜像缓存中已经有了这样一个镜像),Docker 甚至不会检查 Docker Hub 上是否存在更新的 python:3 版本。为了摆脱这种行为,你应该使用这个命令:
docker build --pull
这可以确保 Docker 在构建镜像之前拉取你的 Dockerfile 中 FROM 语句中提到的镜像的更新。
你还应该注意 Docker 的层缓存机制,它会让你的镜像变得陈旧,因为 RUN 命令的层是缓存的,直到基础镜像维护者发布新版本的基础镜像才刷新。如果你发现基础镜像的发布频率相当低(比如少于一周一次),那么定期(比如每周一次)重建你的镜像并禁用层缓存是个好主意。你可以运行以下命令来做到这一点:
docker build --pull --no-cache
5定期更新第三方依赖
你编写的软件是基于第三方的依赖,也就是由其他人制作的软件。这包括了:
如果你的镜像中的这些依赖过时了,就会增加攻击面,因为过时的依赖往往有可利用的安全漏洞。
你可以定期使用 SCA(软件组件分析)工具来解决这个问题,比如 Renovate Bot。这些工具(半)自动将你声明的第三方依赖更新为最新版本,例如在你的 Dockerfile、Python 的 requirements.txt、NPM 的 packages.json 等文件中声明的列表。你需要设计你的 CI 管道,使 SCA 工具所做的更改自动触发你的镜像的 re-build。
这种自动触发的镜像重建对于处在只维护模式,但代码仍将被客户在生产环境中使用(客户希望它是安全的)的项目特别有用。在维护期间,你不再开发新的特性,也不会构建新的镜像,因为没有新的提交(由你做出)来触发新的构建。然而,由 SCA 工具做出的提交确实会再次触发镜像构建。
你可以在我的相关博文中找到更多关于 Renovate bot 的细节。
6对你的镜像进行漏洞扫描
即使你执行了上述建议,比如说你的镜像总是使用最新的第三方依赖,它仍然可能是不安全的(例如一个依赖已经被弃用的情况)。在这种情况下,“不安全“意味着一个(或多个)依赖有已知的安全漏洞(在一些 CVE 数据库中注册)。
出于这个原因,你可以给你的 Docker 镜像提供某种工具来扫描所有包含的文件,以找到这种漏洞。这些工具有两种形式:
你显式调用的 CLI 工具(例如在 CI 管道中),比如说 Trivy(OSS,在 CI 管道中非常容易使用,见 Trivy 文档)、Clair(OSS,但设置和使用比 Trivy 更复杂),或 Snyk(通过“docker scan“集成到 Docker CLI 中,见 cheat sheet,但只有有限的免费计划!)
集成到你推送镜像的镜像注册中心的扫描器,如 Harbor(内部使用 Clair 或 Trivy)。还有一些商业产品,如 Anchore。
因为这些扫描器是通用的,它们还试图覆盖一大堆包注册表,所以可能不会特别为你在自己项目中使用的编程语言或包注册表定制。有时,你应该调查你的编程语言生态系统提供了哪些工具。例如,对于 Python 来说就有一个专门针对 Python 包的安全工具。
7扫描你的 Dockerfile 是否违反了最佳实践
有时,问题来自于你在 Dockerfile 中放置的语句,这些语句是不好的实践(但你没有意识到)。为此可以使用诸如 checkov、Conftest、trivy 或 hadolint 等工具,它们是 Dockerfile 的 linter。为了选择正确的工具,你需要查看它的默认规则 / 政策。例如,hadolint 比 checkov 或 conftest 提供的规则更多,因为它是专门针对 Dockerfiles 的。这些工具也是相互补充的,因此在你的 Dockerfiles 上运行多个工具(如 hadolint 和 trivy)确实是有意义的。不过要做好准备,因为你需要维护“忽略文件“,在这个文件中的规则会被忽略——可能是由于误报而有意忽略它们,或者是你准备故意破坏规则。
8不要对 Docker Hub 使用 Docker 内容信任
为了验证你使用的基础镜像确实是由该镜像背后的公司构建和推送的,你可以使用 Docker 内容信任(见官方文档)特性。只需在运行 docker build 或 docker pull 时将 DOCKER_CONTENT_TRUST 环境变量设为“1“即可启用该特性。Docker 守护进程将拒绝提取没有经过发布者签名的镜像。
不幸的是,大约一年前开始社区就不再以这种方式签名镜像了。就连 Docker Inc. 也在 2020 年 12 月停止了签名官方 Docker 镜像,也没有官方解释。问题更大的是如果你使用“docker pull docker:latest”这样的命令,只会下载一个过时很久的镜像。
你可以查看一下镜像签名的其他实现,比如说 cosign(不过我还没试过)。
9扫描你自己的代码是否有安全问题
安全问题通常来源于其他人的代码,也就是流行的第三方依赖。因为它们应用广泛,所以在黑客那里是“有利可图“的。然而,有时是你自己的代码在作怪。例如,你可能不小心实现了 SQL 注入的可能性、堆栈溢出的错误,等等。
为了找到这些问题,你可以使用所谓的 SAST(静态应用安全测试)工具。一方面,有一些特定于编程语言的工具(你必须单独研究),如 Python 的 bandit,或 Java 的 Checkstyle/Spotbugs。另一方面,还有一些支持多种编程语言和框架的工具套件(其中一些是非免费 / 商业的),如 SonarQube(对于它还有 SonarLint IDE 插件)。
在实践中,安全扫描有两种基本方法:
连续(自动)扫描:你创建一个 CI 作业,在每次推送时扫描你的代码。这可以让你的代码安全性保持在一个较高的水平上,但你必须弄清楚如何忽略误报(这是一项持续的维护工作)。如果你使用 GitLab,可能还会发现 GitLab 的免费 SAST 功能很有趣。
不定期(手动)扫描:团队中一些有安全意识的成员在本地运行安全检查,例如每月一次或每次发布前,并手动查看结果。
10使用 docker-slim 来删除不必要的文件
docker-slim 工具可以获取大型 Docker 镜像,临时运行它们,分析哪些文件在临时容器中是被真正使用的,然后生成一个新的、单层的 Docker 镜像——其中所有未使用的文件都会被删除。这样做有两个好处: 查看全部
12 个优化 Docker 镜像安全性的技巧
作者 |Marius出品|
本文介绍了 12 个优化 Docker 镜像安全性的技巧。每个技巧都解释了底层的攻击载体,以及一个或多个缓解方法。这些技巧包括了避免泄露构建密钥、以非 root 用户身份运行,或如何确保使用最新的依赖和更新等。
1前言
当你是刚开始使用 Docker 的新手时,你很可能会创建不安全的 Docker 镜像,使攻击者很容易借此接管容器,甚至可能接管整个主机,然后渗透到你公司的其他基础设施中。
可以被滥用来接管你的系统的攻击向量有很多,例如:
下面的各个章节讲解了能够优化你的镜像安全性的各种方法。它们是按重要性 / 影响程度排序的,也就是说排名靠前的方法更重要。
2避免泄露构建密钥
构建密钥是只在构建 Docker 镜像时需要的凭证(不是在运行时)。例如,你可能想在你的镜像中包含某个应用程序的一个编译版本,这个应用的源代码是闭源的,并且其 Git 存储库是有访问保护的。在构建镜像时,你需要克隆 Git 存储库(这需要构建密钥,例如该存储库的 SSH 访问密钥),从源代码构建应用程序,然后再删除源代码(和密钥)。
“泄露“构建密钥是说你不小心把这种密钥烘焙到了你的镜像的某个层中。这种情况很严重,因为拉取你的镜像的所有人都可以检索到这些机密。这个问题源于这样一个事实,即 Docker 镜像是以纯粹的加法方式逐层构建的。你在一个层中删除的文件只是被“标记”为已删除,但拉取你镜像的人们仍然可以使用高级工具访问它们。
可以使用以下两种方法之一来避免泄露构建密钥。
多阶段构建
Docker 多阶段构建(官方文档)有许多用例,例如加快你的镜像构建速度,或减少镜像大小。本系列的其他文章会详细介绍其他用例。总之,你也可以通过多阶段构建来避免泄露构建密钥,如下所示:
BuildKit 的密钥背景知识如果你使用 docker build 进行构建,可以实际执行构建的后端选项不止一个。其中较新和较快的后端是 BuildKit,你需要在 Linux 上设置环境变量 DOCKER_BUILDKIT=1 来显式启用它。注意,BuildKit 在 Windows/MacOS 的 Docker for Desktop 上是默认启用的。
正如这里的文档所解释的(阅读它们以了解更多细节),BuildKit 构建引擎支持 Dockerfile 中的额外语法。要使用构建密钥,请在你的 Dockerfile 中放入类似下面这样的内容:
RUN --mount=type=secret,id=mysecret,dst=/foobar
当 RUN 语句被执行时,密钥将对这个构建容器可用,但不会将密钥本身(这里是:/foobar 文件夹)放入构建的镜像中。你需要在运行 docker build 命令时指定密钥的源文件 / 文件夹(位于主机上)的路径,例如:
docker build --secret id=mysecret,src=mysecret.txt -t sometag
不过有一点需要注意:你不能通过 docker-compose up --build 来构建需要密钥的镜像,因为 Docker-compose 还不支持用于构建的 --secret 参数,见 GitHub 问题。如果你依赖 docker-compose 的构建,请使用方法 1(多阶段构建)。
题外话:不要推送在开发机上构建的镜像
你应该一直在一个干净的环境中构建和推送镜像(例如 CI/CD 管道),其中构建代理会将你的存储库克隆到一个新目录。
使用本地开发机器进行构建的问题是,你的本地 Git 存储库的“工作树“可能是脏的。例如,它可能包含有开发过程中需要的密钥文件,例如对中转甚至生产服务器的访问密钥。如果没有通过.dockerignore 排除这些文件,那么 Dockerfile 中的“COPY . .“等语句可能会意外导致这些密钥泄露到最终镜像中。
3以非 root 用户身份运行
默认情况下,当有人通过“docker runyourImage:yourTag“运行你的镜像时,这个容器(以及你在 ENTRYPOINT/CMD 中的程序)会以 root 用户身份运行(在容器和主机上)。这给了一个使用某种漏洞在你的运行容器中获得 shell 权限的攻击者以下权力:
为了避免这种情况,你应该以非 root 用户(你在 docker build 过程中创建的一些用户)的身份运行你的应用程序。在你的 Dockerfile 中的某个地方(通常是在结尾处)放置以下语句:
# Create a new user (including a home-directory, which is optional)RUN useradd --create-home appuser# Switch to this userUSER appuser
Dockerfile 中所有在 USER appuser 语句之后的命令(如 RUN、CMD 或 ENTRYPOINT)都将以这个用户运行。这里有一些需要注意的地方:
4使用最新的基础镜像构建和更新系统包
如果你使用的基础镜像包含了某个真正的 Linux 发行版(如 Debian、Ubuntu 或 alpine 镜像)的全部工具集,其中包括一个软件包管理器,建议使用该软件包管理器来安装所有可用的软件包更新。
背景知识基础镜像是由某人维护的,他配置了 CI/CD 管道计划来构建基础镜像,并定期推送到 Docker Hub。你无法控制这个时间间隔,而且经常发生的情况是,在该管道将更新的 Docker 镜像推送到 Docker Hub 之前,Linux 发行版的包注册表(例如通过 apt)中已经有了安全补丁。例如,即使基础镜像每周推送一次,也有可能在最近的镜像发布几小时或几天后出现安全更新。
因此,最好总是运行更新本地软件包数据库和安装更新的包管理器命令,采用无人值守模式(不需要用户确认)。每个 Linux 发行版的这个命令都不一样。
例如,对于 Ubuntu、Debian 或衍生的发行版,使用 RUN apt-get update && apt-get -y upgrade
另一个重要的细节是,你需要告诉 Docker(或你使用的任何镜像构建工具)来刷新基础镜像。否则,如果你引用一个基础镜像,比如 python:3(而 Docker 在其本地镜像缓存中已经有了这样一个镜像),Docker 甚至不会检查 Docker Hub 上是否存在更新的 python:3 版本。为了摆脱这种行为,你应该使用这个命令:
docker build --pull
这可以确保 Docker 在构建镜像之前拉取你的 Dockerfile 中 FROM 语句中提到的镜像的更新。
你还应该注意 Docker 的层缓存机制,它会让你的镜像变得陈旧,因为 RUN 命令的层是缓存的,直到基础镜像维护者发布新版本的基础镜像才刷新。如果你发现基础镜像的发布频率相当低(比如少于一周一次),那么定期(比如每周一次)重建你的镜像并禁用层缓存是个好主意。你可以运行以下命令来做到这一点:
docker build --pull --no-cache
5定期更新第三方依赖
你编写的软件是基于第三方的依赖,也就是由其他人制作的软件。这包括了:
如果你的镜像中的这些依赖过时了,就会增加攻击面,因为过时的依赖往往有可利用的安全漏洞。
你可以定期使用 SCA(软件组件分析)工具来解决这个问题,比如 Renovate Bot。这些工具(半)自动将你声明的第三方依赖更新为最新版本,例如在你的 Dockerfile、Python 的 requirements.txt、NPM 的 packages.json 等文件中声明的列表。你需要设计你的 CI 管道,使 SCA 工具所做的更改自动触发你的镜像的 re-build。
这种自动触发的镜像重建对于处在只维护模式,但代码仍将被客户在生产环境中使用(客户希望它是安全的)的项目特别有用。在维护期间,你不再开发新的特性,也不会构建新的镜像,因为没有新的提交(由你做出)来触发新的构建。然而,由 SCA 工具做出的提交确实会再次触发镜像构建。
你可以在我的相关博文中找到更多关于 Renovate bot 的细节。
6对你的镜像进行漏洞扫描
即使你执行了上述建议,比如说你的镜像总是使用最新的第三方依赖,它仍然可能是不安全的(例如一个依赖已经被弃用的情况)。在这种情况下,“不安全“意味着一个(或多个)依赖有已知的安全漏洞(在一些 CVE 数据库中注册)。
出于这个原因,你可以给你的 Docker 镜像提供某种工具来扫描所有包含的文件,以找到这种漏洞。这些工具有两种形式:
你显式调用的 CLI 工具(例如在 CI 管道中),比如说 Trivy(OSS,在 CI 管道中非常容易使用,见 Trivy 文档)、Clair(OSS,但设置和使用比 Trivy 更复杂),或 Snyk(通过“docker scan“集成到 Docker CLI 中,见 cheat sheet,但只有有限的免费计划!)
集成到你推送镜像的镜像注册中心的扫描器,如 Harbor(内部使用 Clair 或 Trivy)。还有一些商业产品,如 Anchore。
因为这些扫描器是通用的,它们还试图覆盖一大堆包注册表,所以可能不会特别为你在自己项目中使用的编程语言或包注册表定制。有时,你应该调查你的编程语言生态系统提供了哪些工具。例如,对于 Python 来说就有一个专门针对 Python 包的安全工具。
7扫描你的 Dockerfile 是否违反了最佳实践
有时,问题来自于你在 Dockerfile 中放置的语句,这些语句是不好的实践(但你没有意识到)。为此可以使用诸如 checkov、Conftest、trivy 或 hadolint 等工具,它们是 Dockerfile 的 linter。为了选择正确的工具,你需要查看它的默认规则 / 政策。例如,hadolint 比 checkov 或 conftest 提供的规则更多,因为它是专门针对 Dockerfiles 的。这些工具也是相互补充的,因此在你的 Dockerfiles 上运行多个工具(如 hadolint 和 trivy)确实是有意义的。不过要做好准备,因为你需要维护“忽略文件“,在这个文件中的规则会被忽略——可能是由于误报而有意忽略它们,或者是你准备故意破坏规则。
8不要对 Docker Hub 使用 Docker 内容信任
为了验证你使用的基础镜像确实是由该镜像背后的公司构建和推送的,你可以使用 Docker 内容信任(见官方文档)特性。只需在运行 docker build 或 docker pull 时将 DOCKER_CONTENT_TRUST 环境变量设为“1“即可启用该特性。Docker 守护进程将拒绝提取没有经过发布者签名的镜像。
不幸的是,大约一年前开始社区就不再以这种方式签名镜像了。就连 Docker Inc. 也在 2020 年 12 月停止了签名官方 Docker 镜像,也没有官方解释。问题更大的是如果你使用“docker pull docker:latest”这样的命令,只会下载一个过时很久的镜像。
你可以查看一下镜像签名的其他实现,比如说 cosign(不过我还没试过)。
9扫描你自己的代码是否有安全问题
安全问题通常来源于其他人的代码,也就是流行的第三方依赖。因为它们应用广泛,所以在黑客那里是“有利可图“的。然而,有时是你自己的代码在作怪。例如,你可能不小心实现了 SQL 注入的可能性、堆栈溢出的错误,等等。
为了找到这些问题,你可以使用所谓的 SAST(静态应用安全测试)工具。一方面,有一些特定于编程语言的工具(你必须单独研究),如 Python 的 bandit,或 Java 的 Checkstyle/Spotbugs。另一方面,还有一些支持多种编程语言和框架的工具套件(其中一些是非免费 / 商业的),如 SonarQube(对于它还有 SonarLint IDE 插件)。
在实践中,安全扫描有两种基本方法:
连续(自动)扫描:你创建一个 CI 作业,在每次推送时扫描你的代码。这可以让你的代码安全性保持在一个较高的水平上,但你必须弄清楚如何忽略误报(这是一项持续的维护工作)。如果你使用 GitLab,可能还会发现 GitLab 的免费 SAST 功能很有趣。
不定期(手动)扫描:团队中一些有安全意识的成员在本地运行安全检查,例如每月一次或每次发布前,并手动查看结果。
10使用 docker-slim 来删除不必要的文件
docker-slim 工具可以获取大型 Docker 镜像,临时运行它们,分析哪些文件在临时容器中是被真正使用的,然后生成一个新的、单层的 Docker 镜像——其中所有未使用的文件都会被删除。这样做有两个好处:
21春南开大学《商务智能方法与技术》在线作业参考答案
网站优化 • 优采云 发表了文章 • 0 个评论 • 109 次浏览 • 2022-05-01 15:43
1、()是结构化、可以用语言、文字进行口头或书面表达的。
A.显性知识
B.隐形知识
C.两者皆可
D.两者都不可
答案:A
--------------------------------
2、选择供应商一般以满足时间约束的条件下()为目标。
A.最小化物流成本
B.最大化物流成本
C.最小化维护成本
D.最大化维护成本
答案:A
--------------------------------
3、哪种数据库工具采用矩阵方式来存储数据?()
A.多维数据库工具(MOLAP)
B.关系型数据库工具(ROLAP)
C.桌面型数据库工具
D.都不是
答案:A
--------------------------------
4、()是一种以规范化的方式构造端到端的业务流程为中心,以持续地提高组织绩效为目的的系统化方法。
A.知识管理
B.信息化管理
C.方法管理
D.业务流程管理
答案:D
--------------------------------
5、知识管理将信息处理能力和人的创新能力相互结合,增强组织对环境的适应能力是哪个知识管理学派的说法?()
A.行为学派
B.技术学派
C.管理学派
D.综合学派
答案:D
--------------------------------
6、数据仓库系统组成中,哪个部件是把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库?()
A.元数据库及元数据管理部件
B.数据转换部件
C.数据集成部件
D.数据仓库管理部件
答案:B
--------------------------------
7、()根据文本的不同特征划分为不同的类。
A.文本概括
B.文本分类
C.文本聚类
D.都可以
答案:C
--------------------------------
8、OLAP分析属于哪种驱动型发现?()
A.验证驱动型
B.经验驱动型
C.事实驱动型
D.发现驱动型
答案:A
--------------------------------
9、()针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。
A.内容挖掘
B.结构挖掘
C.文本挖掘
D.使用挖掘
答案:C
--------------------------------
10、()是基于网页内容或其描述中抽取知识的过程。
A.内容挖掘
B.结构挖掘
C.个性挖掘
D.使用(日志)挖掘
答案:A
--------------------------------
11、数据仓库的前端工具集中,哪个工具是通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察?()
A.查询/报表工具
B.数据挖掘工具
C.OLAP工具
D.前端开发工具
答案:C
--------------------------------
12、归咎(imputation)是处理()的一种方法。
A.数据分析
B.数据准备
C.数据质量
D.空缺值
答案:D
--------------------------------
13、多库系统的限制主要表现在哪些方面?()
A.可用性
B.响应速度
C.系统性能
D.系统开销
答案:ABCD
--------------------------------
14、数据清理处理包括哪些内容?()
A.格式标准化
B.异常数据清除
C.错误纠正
D.重复数据清除
答案:ABCD
--------------------------------
15、传统的建模方法注意力主要集中于()两个阶段。
A.模型设计
B.模型实现
C.模型运行
D.模型维护
答案:AB
--------------------------------
16、Web挖掘分类为()。
A.内容挖掘
B.结构挖掘
C.个性挖掘
D.使用挖掘
答案:ABD
--------------------------------
17、Web挖掘是从大量Web文档的集合C中发现()模式P的过程。
A.隐含的
B.明显的
C.相关的
D.有用的
答案:AD
--------------------------------
18、数据挖掘是指从数据中提取()信息并用它进行决策的过程。
A.正确的
B.有用的
C.未知的
D.综合的
答案:ABCD
--------------------------------
19、业务流程管理包括()。
A.流程分析
B.流程定义与重定义
C.资源分配
D.流程质量与效率测评和流程优化
答案:ABCD
--------------------------------
20、数据预处理包含哪些步骤?()
A.数据清理
B.数据集成
C.数据变换
D.数据归约
答案:ABCD
--------------------------------
21、数据导向型决策支持系统,可以用等()分析得到隐藏对决策有用的模式和规则。
A.统计方法
B.OLAP
C.数据挖掘
D.知识分析
答案:ABC
--------------------------------
22、Web挖掘主要处理()等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等。
A.文本
B.图形
C.图像
D.多媒体
答案:ABC
--------------------------------
23、商务智能技术可以分析哪些数据类型?()
A.结构化数据
B.半结构化数据
C.非结构化数据
D.静态的历史数据和动态数据流
答案:ABCD
--------------------------------
24、知识网络是指人们沟通形成“知识活动”的网络,它既是知识活动的场所,又是知识活动的结果。()
A.错误
B.正确
答案:B
--------------------------------
25、业务流程是知识积累的重要工具,其运作过程是信息积累并转变为有用知识的过程。()
A.错误
B.正确
答案:B
--------------------------------
26、OLAP也可以说是多维数据分析工具的集合。()
A.错误
B.正确
答案:B
--------------------------------
27、数据仓库与知识管理系统的结合就是商务智能系统。()
A.错误
B.正确
答案:A
--------------------------------
28、Web数据的复杂性高于传统的文本文档。()
A.错误
B.正确
答案:B
--------------------------------
29、当一定数量的参与者都有某些权限的组合时,可以把这些权限组合视为一个备选角色。()
A.错误
B.正确
答案:B
--------------------------------
30、知识的收集、加工、传输与利用贯穿着决策各阶段的工作过程。()
A.错误
B.正确
答案:A
--------------------------------
31、Web是一个动态性较弱的信息源。()
A.错误
B.正确
答案:A
--------------------------------
32、隐性知识是指存在于人头脑中的隐性的、非结构化、不可编码的知识,是关于个人的思想、经验等。()
A.错误
B.正确
答案:B
--------------------------------
33、对用户的敏感的原始数据进行变换,以便数据的使用者不能对用户的原始数据进行查看,以此保护用户的私有数据。()
A.错误
B.正确
答案:B
--------------------------------
34、当某属性出现空缺值时,应丢弃这个属性。()
A.错误
B.正确
答案:A
--------------------------------
35、数据集市是部门级数据仓库。()
A.错误
B.正确
答案:B
--------------------------------
36、知识管理是将动态信息转化为知识、利用这些知识进行企业行为决策,并且在组织内实现知识共享的过程。()
A.错误
B.正确
答案:A
--------------------------------
37、Web媒体挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。()
A.错误
B.正确
答案:A
--------------------------------
38、数据仓库的功能是支持管理层进行科学决策,而不是事务处理。()
A.错误
B.正确
答案:B
--------------------------------
39、基于关联挖掘的自适应构件检索指把关联规则挖掘方法引入构件检索。()
A.错误
B.正确
答案:B
--------------------------------
40、隐性知识可以被当做显性知识进行获取。()
A.错误
B.正确
答案:B
--------------------------------
41、多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。()
A.错误
B.正确
答案:B
--------------------------------
42、Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息。()
A.错误
B.正确
答案:B
--------------------------------
43、显性知识是指具有规范化、系统化的特点,易于整理、沟通和分享的知识。()
A.错误
B.正确
答案:B
--------------------------------
44、信息也是数据,数据是信息的载体, 信息是对数据的解释。()
A.错误
B.正确
答案:B
--------------------------------
45、知识管理是通过技术的手段(+)将人(P)与知识(K)充分结合,并通过知识共享的管理机制和文化(S),使知识的价值成指数级提升。()
A.错误
B.正确
答案:B
--------------------------------
46、构件检索是构件库研究中的重要问题,有效的构件检索机制能够降低构件复用成本。()
A.错误
B.正确
答案:B
--------------------------------
47、钻取、切片和切块操作是为了完成对真实数据的汇总分析。()
A.错误
B.正确
答案:A
--------------------------------
48、对结果的解释完全依赖于数据挖掘步骤的可视化输出。()
A.错误
B.正确
答案:B
--------------------------------
49、流程是运用知识创造顾客价值的岗位流转,企业的核心业务、研发和内部管理等流程都需要知识管理推动。()
A.错误
B.正确
答案:B
-------------------------------- 查看全部
21春南开大学《商务智能方法与技术》在线作业参考答案
1、()是结构化、可以用语言、文字进行口头或书面表达的。
A.显性知识
B.隐形知识
C.两者皆可
D.两者都不可
答案:A
--------------------------------
2、选择供应商一般以满足时间约束的条件下()为目标。
A.最小化物流成本
B.最大化物流成本
C.最小化维护成本
D.最大化维护成本
答案:A
--------------------------------
3、哪种数据库工具采用矩阵方式来存储数据?()
A.多维数据库工具(MOLAP)
B.关系型数据库工具(ROLAP)
C.桌面型数据库工具
D.都不是
答案:A
--------------------------------
4、()是一种以规范化的方式构造端到端的业务流程为中心,以持续地提高组织绩效为目的的系统化方法。
A.知识管理
B.信息化管理
C.方法管理
D.业务流程管理
答案:D
--------------------------------
5、知识管理将信息处理能力和人的创新能力相互结合,增强组织对环境的适应能力是哪个知识管理学派的说法?()
A.行为学派
B.技术学派
C.管理学派
D.综合学派
答案:D
--------------------------------
6、数据仓库系统组成中,哪个部件是把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库?()
A.元数据库及元数据管理部件
B.数据转换部件
C.数据集成部件
D.数据仓库管理部件
答案:B
--------------------------------
7、()根据文本的不同特征划分为不同的类。
A.文本概括
B.文本分类
C.文本聚类
D.都可以
答案:C
--------------------------------
8、OLAP分析属于哪种驱动型发现?()
A.验证驱动型
B.经验驱动型
C.事实驱动型
D.发现驱动型
答案:A
--------------------------------
9、()针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。
A.内容挖掘
B.结构挖掘
C.文本挖掘
D.使用挖掘
答案:C
--------------------------------
10、()是基于网页内容或其描述中抽取知识的过程。
A.内容挖掘
B.结构挖掘
C.个性挖掘
D.使用(日志)挖掘
答案:A
--------------------------------
11、数据仓库的前端工具集中,哪个工具是通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察?()
A.查询/报表工具
B.数据挖掘工具
C.OLAP工具
D.前端开发工具
答案:C
--------------------------------
12、归咎(imputation)是处理()的一种方法。
A.数据分析
B.数据准备
C.数据质量
D.空缺值
答案:D
--------------------------------
13、多库系统的限制主要表现在哪些方面?()
A.可用性
B.响应速度
C.系统性能
D.系统开销
答案:ABCD
--------------------------------
14、数据清理处理包括哪些内容?()
A.格式标准化
B.异常数据清除
C.错误纠正
D.重复数据清除
答案:ABCD
--------------------------------
15、传统的建模方法注意力主要集中于()两个阶段。
A.模型设计
B.模型实现
C.模型运行
D.模型维护
答案:AB
--------------------------------
16、Web挖掘分类为()。
A.内容挖掘
B.结构挖掘
C.个性挖掘
D.使用挖掘
答案:ABD
--------------------------------
17、Web挖掘是从大量Web文档的集合C中发现()模式P的过程。
A.隐含的
B.明显的
C.相关的
D.有用的
答案:AD
--------------------------------
18、数据挖掘是指从数据中提取()信息并用它进行决策的过程。
A.正确的
B.有用的
C.未知的
D.综合的
答案:ABCD
--------------------------------
19、业务流程管理包括()。
A.流程分析
B.流程定义与重定义
C.资源分配
D.流程质量与效率测评和流程优化
答案:ABCD
--------------------------------
20、数据预处理包含哪些步骤?()
A.数据清理
B.数据集成
C.数据变换
D.数据归约
答案:ABCD
--------------------------------
21、数据导向型决策支持系统,可以用等()分析得到隐藏对决策有用的模式和规则。
A.统计方法
B.OLAP
C.数据挖掘
D.知识分析
答案:ABC
--------------------------------
22、Web挖掘主要处理()等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等。
A.文本
B.图形
C.图像
D.多媒体
答案:ABC
--------------------------------
23、商务智能技术可以分析哪些数据类型?()
A.结构化数据
B.半结构化数据
C.非结构化数据
D.静态的历史数据和动态数据流
答案:ABCD
--------------------------------
24、知识网络是指人们沟通形成“知识活动”的网络,它既是知识活动的场所,又是知识活动的结果。()
A.错误
B.正确
答案:B
--------------------------------
25、业务流程是知识积累的重要工具,其运作过程是信息积累并转变为有用知识的过程。()
A.错误
B.正确
答案:B
--------------------------------
26、OLAP也可以说是多维数据分析工具的集合。()
A.错误
B.正确
答案:B
--------------------------------
27、数据仓库与知识管理系统的结合就是商务智能系统。()
A.错误
B.正确
答案:A
--------------------------------
28、Web数据的复杂性高于传统的文本文档。()
A.错误
B.正确
答案:B
--------------------------------
29、当一定数量的参与者都有某些权限的组合时,可以把这些权限组合视为一个备选角色。()
A.错误
B.正确
答案:B
--------------------------------
30、知识的收集、加工、传输与利用贯穿着决策各阶段的工作过程。()
A.错误
B.正确
答案:A
--------------------------------
31、Web是一个动态性较弱的信息源。()
A.错误
B.正确
答案:A
--------------------------------
32、隐性知识是指存在于人头脑中的隐性的、非结构化、不可编码的知识,是关于个人的思想、经验等。()
A.错误
B.正确
答案:B
--------------------------------
33、对用户的敏感的原始数据进行变换,以便数据的使用者不能对用户的原始数据进行查看,以此保护用户的私有数据。()
A.错误
B.正确
答案:B
--------------------------------
34、当某属性出现空缺值时,应丢弃这个属性。()
A.错误
B.正确
答案:A
--------------------------------
35、数据集市是部门级数据仓库。()
A.错误
B.正确
答案:B
--------------------------------
36、知识管理是将动态信息转化为知识、利用这些知识进行企业行为决策,并且在组织内实现知识共享的过程。()
A.错误
B.正确
答案:A
--------------------------------
37、Web媒体挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。()
A.错误
B.正确
答案:A
--------------------------------
38、数据仓库的功能是支持管理层进行科学决策,而不是事务处理。()
A.错误
B.正确
答案:B
--------------------------------
39、基于关联挖掘的自适应构件检索指把关联规则挖掘方法引入构件检索。()
A.错误
B.正确
答案:B
--------------------------------
40、隐性知识可以被当做显性知识进行获取。()
A.错误
B.正确
答案:B
--------------------------------
41、多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。()
A.错误
B.正确
答案:B
--------------------------------
42、Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息。()
A.错误
B.正确
答案:B
--------------------------------
43、显性知识是指具有规范化、系统化的特点,易于整理、沟通和分享的知识。()
A.错误
B.正确
答案:B
--------------------------------
44、信息也是数据,数据是信息的载体, 信息是对数据的解释。()
A.错误
B.正确
答案:B
--------------------------------
45、知识管理是通过技术的手段(+)将人(P)与知识(K)充分结合,并通过知识共享的管理机制和文化(S),使知识的价值成指数级提升。()
A.错误
B.正确
答案:B
--------------------------------
46、构件检索是构件库研究中的重要问题,有效的构件检索机制能够降低构件复用成本。()
A.错误
B.正确
答案:B
--------------------------------
47、钻取、切片和切块操作是为了完成对真实数据的汇总分析。()
A.错误
B.正确
答案:A
--------------------------------
48、对结果的解释完全依赖于数据挖掘步骤的可视化输出。()
A.错误
B.正确
答案:B
--------------------------------
49、流程是运用知识创造顾客价值的岗位流转,企业的核心业务、研发和内部管理等流程都需要知识管理推动。()
A.错误
B.正确
答案:B
--------------------------------
内部信息源与外部信息源搜索引擎优化方法的异同(内部信息与外部信息源搜索引擎优化方法的异同说起)
网站优化 • 优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2022-04-19 03:03
内部信息源与外部信息源搜索引擎优化方法的异同说起优化,很多人都认为是内部优化外部优化,但在我看来,这二者并不一样。内部优化讲的是我们改变自己,将产品本身变得更加完善。如何充分认识客户是搜索引擎优化的主要目标,如何做好客户体验,是我们前期做好内部优化的重要目标。外部优化讲的是我们发布的信息,如何将信息正确高效地发送给潜在用户,其实,外部优化更多的是为我们已经结果用户带来价值。
外部优化更多是提高转化率。做内部优化的重点,在于改善我们的产品结构,提高售价,吸引更多的用户。但不论做内部优化还是外部优化,我们都要以客户体验为目标,我们需要获取到我们能给用户带来的价值,提高我们的转化率。综上所述,内部优化更多的是为客户带来价值。所以说,在内部优化这一块,我们要比外部优化要更注重客户体验,才能促进转化率。
说起网络优化,内部优化通常讲产品相关性,外部优化主要是针对广告的。由于站内广告一般都是站内seo技术提供商提供的产品,站外的广告主要是品牌宣传,相对来说,站内广告主要依赖搜索引擎,而站外的广告主要依赖自己生产广告位,然后将产品推送给目标客户。可以看到,对于不同的广告主,广告位的选择也有很大不同。如果是品牌宣传,则产品相关性要求相对高一些,如果是公司自己生产的广告位则对产品相关性要求相对要低一些。
所以,站内广告与站外广告的选择也有很大差别。站内广告多以seo技术为主,seo优化服务为辅,站外广告则多以品牌宣传为主,更多注重做的是品牌和产品的相关性,如果站内广告没有做好,就不容易做好站外广告。对于网络优化来说,外部优化也有不同的方式。他们的根本上都是想提高自己企业的产品销量。相对来说,更多是通过站外的优化,来提高我们的转化率。
这里分为两种,一种是推送本公司产品相关的外部广告。另一种是通过推送好卖的产品或其他平台卖不出去的产品,来提高销量。网络优化,在整个互联网发展的近三十年中,变化并不明显,但在近两年变化却很明显。随着互联网的发展,越来越多的公司主要的客户都是传统行业,网络并不是他们第一选择,但很多网络公司或商家都想做互联网营销,想在互联网获取更多的业务,于是就出现了网络推广营销。
但传统行业的产品在互联网上不好卖,导致发展受限,所以很多公司不了解如何做好网络推广营销。为此,网络营销有了很大变化,分为四种,即网站建设营销,内容营销,seo营销,sem营销,这四种营销方式可以相互结合。这里我们主要讲一下seo营销,网站建设营销,内容营销和seo营销。 查看全部
内部信息源与外部信息源搜索引擎优化方法的异同(内部信息与外部信息源搜索引擎优化方法的异同说起)
内部信息源与外部信息源搜索引擎优化方法的异同说起优化,很多人都认为是内部优化外部优化,但在我看来,这二者并不一样。内部优化讲的是我们改变自己,将产品本身变得更加完善。如何充分认识客户是搜索引擎优化的主要目标,如何做好客户体验,是我们前期做好内部优化的重要目标。外部优化讲的是我们发布的信息,如何将信息正确高效地发送给潜在用户,其实,外部优化更多的是为我们已经结果用户带来价值。
外部优化更多是提高转化率。做内部优化的重点,在于改善我们的产品结构,提高售价,吸引更多的用户。但不论做内部优化还是外部优化,我们都要以客户体验为目标,我们需要获取到我们能给用户带来的价值,提高我们的转化率。综上所述,内部优化更多的是为客户带来价值。所以说,在内部优化这一块,我们要比外部优化要更注重客户体验,才能促进转化率。
说起网络优化,内部优化通常讲产品相关性,外部优化主要是针对广告的。由于站内广告一般都是站内seo技术提供商提供的产品,站外的广告主要是品牌宣传,相对来说,站内广告主要依赖搜索引擎,而站外的广告主要依赖自己生产广告位,然后将产品推送给目标客户。可以看到,对于不同的广告主,广告位的选择也有很大不同。如果是品牌宣传,则产品相关性要求相对高一些,如果是公司自己生产的广告位则对产品相关性要求相对要低一些。
所以,站内广告与站外广告的选择也有很大差别。站内广告多以seo技术为主,seo优化服务为辅,站外广告则多以品牌宣传为主,更多注重做的是品牌和产品的相关性,如果站内广告没有做好,就不容易做好站外广告。对于网络优化来说,外部优化也有不同的方式。他们的根本上都是想提高自己企业的产品销量。相对来说,更多是通过站外的优化,来提高我们的转化率。
这里分为两种,一种是推送本公司产品相关的外部广告。另一种是通过推送好卖的产品或其他平台卖不出去的产品,来提高销量。网络优化,在整个互联网发展的近三十年中,变化并不明显,但在近两年变化却很明显。随着互联网的发展,越来越多的公司主要的客户都是传统行业,网络并不是他们第一选择,但很多网络公司或商家都想做互联网营销,想在互联网获取更多的业务,于是就出现了网络推广营销。
但传统行业的产品在互联网上不好卖,导致发展受限,所以很多公司不了解如何做好网络推广营销。为此,网络营销有了很大变化,分为四种,即网站建设营销,内容营销,seo营销,sem营销,这四种营销方式可以相互结合。这里我们主要讲一下seo营销,网站建设营销,内容营销和seo营销。
内部信息源与外部信息源搜索引擎优化方法的异同(企业信息发布(一)_)
网站优化 • 优采云 发表了文章 • 0 个评论 • 83 次浏览 • 2022-04-17 20:10
企业信息发布在网站,成为网页形式的信息源(包括企业内部信息源和外部信息源)
搜索引擎推广的前四个目标,即通过流量的增加,可以转化为企业最终收入的增加,可以称为转化层。
从各种搜索引擎策略到产生收入,期间的中间效应是网站流量增加
用户使用关键词进行搜索(对于分类目录,是分层目录查询)
通过优化客户网站的整个站点,选择一些主要的关键词,配合其他营销方式,使其到达搜索引擎的首页位置,同时增加< @网站,并推动更多长尾 关键词 有机排名提升。结合ppc竞价,我们可以制定精准的竞价关键词和优秀的创意内容,为公司带来更多的订单。
网页优化中更重要的因素之一是网页的标题标签。编写标题标签时通常需要考虑几个因素。
所有网页都应该有自己独特的标题或标签。有很多 网站 犯了非常低级的错误,即所有页面的标题都相同。可能设计师在设计网页的时候来回复制了整个模板,所以HTML文件中的头部信息也被复制了,没有改变。
标题标签应该足够吸引用户的需求。网页在搜索引擎结果中列出,页面的标题来源于标题标签。
标题标签应收录 关键词。
. 转化层是对前面三个目标层次的进一步提升,是各种搜索引擎方法所达到的效果的集中体现,但并不是搜索引擎营销的直接效果。
-/gbaccaf/-
欢迎来到网站,我公司位于经济发达、交通发达、人口密集的中国经济中心城市深圳。具体地址为龙华街道玉翠社区石头岭龙观路宏玉大厦13楼09室。负责人是黄宗忠。 查看全部
内部信息源与外部信息源搜索引擎优化方法的异同(企业信息发布(一)_)
企业信息发布在网站,成为网页形式的信息源(包括企业内部信息源和外部信息源)
搜索引擎推广的前四个目标,即通过流量的增加,可以转化为企业最终收入的增加,可以称为转化层。
从各种搜索引擎策略到产生收入,期间的中间效应是网站流量增加
用户使用关键词进行搜索(对于分类目录,是分层目录查询)
通过优化客户网站的整个站点,选择一些主要的关键词,配合其他营销方式,使其到达搜索引擎的首页位置,同时增加< @网站,并推动更多长尾 关键词 有机排名提升。结合ppc竞价,我们可以制定精准的竞价关键词和优秀的创意内容,为公司带来更多的订单。
网页优化中更重要的因素之一是网页的标题标签。编写标题标签时通常需要考虑几个因素。
所有网页都应该有自己独特的标题或标签。有很多 网站 犯了非常低级的错误,即所有页面的标题都相同。可能设计师在设计网页的时候来回复制了整个模板,所以HTML文件中的头部信息也被复制了,没有改变。
标题标签应该足够吸引用户的需求。网页在搜索引擎结果中列出,页面的标题来源于标题标签。
标题标签应收录 关键词。
. 转化层是对前面三个目标层次的进一步提升,是各种搜索引擎方法所达到的效果的集中体现,但并不是搜索引擎营销的直接效果。
-/gbaccaf/-
欢迎来到网站,我公司位于经济发达、交通发达、人口密集的中国经济中心城市深圳。具体地址为龙华街道玉翠社区石头岭龙观路宏玉大厦13楼09室。负责人是黄宗忠。
内容分享:SEO搜索引擎优化涉及的内容非常广泛
网站优化 • 优采云 发表了文章 • 0 个评论 • 161 次浏览 • 2022-09-24 19:15
SEO搜索引擎优化涉及的内容范围非常广泛,绝不是在页面上堆放几个关键词那么简单。进行关键字研究以了解学习者对主题内容的需求,网站内容已被扩展以更好地满足学习者的需求。
良好的网站结构和内链有助于提升用户体验,页面优化也让用户更容易掌握关键内容。 网站流量分析和策略改进基于强调用户体验优化的基本原则网站。与相关主题学习网站建立良好的外链关系,有助于相同或相似主题网站的用户更有效地互动,丰富和拓展学习者更有效、更便捷地获取主题知识掌握。可以说,专业学习网站SEO的全过程就是为了让网站更好更强。
可能有人认为专门学习的SEO网站违反了搜索引擎自主选择资源的原则。事实上,合理合法的白帽 SEO 是搜索引擎的“最佳伴侣搜索引擎”。为了给在线学习者提供有效的学习资源,有必要寻找信息来源。基于主题的学习网站旨在对搜索引擎友好、易于收录、内容丰富、主题突出,可以为SEO搜索引擎获取信息源提供便利,满足学习者的信息需求。及时。搜索引擎的有效性和实用价值会得到学习者的信任和肯定。相反,如果一个特定的研究网站是用不容易收录创建的技术构建的,搜索引擎也可能会陷入混乱。
各大SEO搜索引擎从来没有反对过网站SEO。谷歌非常支持白帽搜索引擎优化,专门安排了一批员工在博客、论坛和社交网络上发布信息和回答问题,并积极参与搜索引擎营销行业会议,以各种方式指导站长。搜索引擎SEO优化。
近年来各大门户网站网站对SEO优化人员的需求和肯定都增加了。对此,服务于在线学习的专题学习网站也应以符合SEO要求、体现专题学习策略的方式进行优化构建,更好地发挥其学习价值,而专题学习 设计公司,网站制作公司,全站优化!
最新版本:SEO搜索引擎优化:基础、案例与实战(第2版)
本书系统地介绍了搜索引擎优化(SEO)的方法。全书共分11章,包括SEO概述、搜索引擎概述、SEO准备工作、网站关键词的优化、网站的结构优化、网站@的页面优化>、网站内容优化、网站优化、常用SEO工具、数据监控分析、移动网站SEO。本书内容丰富,实战性强。以数据思维为指导,用成功的实际案例进行讲解。不仅可以让读者了解SEO的基本知识,还可以帮助读者掌握SEO的使用方法,提高网站的排名和排名。流动的方法。
【推荐】
1.根据网站优化实施的思路和核心流程展示,全面介绍有效的SEO实战技术,精选知识内容。 2. 专注实战。没有长篇的理论描述,更多的是写实操技巧。 3. 丰富的例子和练习,易教易学。 4. 大量图标和视频,一目了然,通俗易懂。
【作者】
杨仁、程鹏、姚亚峰(主编)罗世轩、闫涵(副主编)。作者的团队既有长期从事高职电子商务专业网络营销教学的教师,也有具有丰富实践经验的搜索引擎优化人员。 查看全部
内容分享:SEO搜索引擎优化涉及的内容非常广泛
SEO搜索引擎优化涉及的内容范围非常广泛,绝不是在页面上堆放几个关键词那么简单。进行关键字研究以了解学习者对主题内容的需求,网站内容已被扩展以更好地满足学习者的需求。
良好的网站结构和内链有助于提升用户体验,页面优化也让用户更容易掌握关键内容。 网站流量分析和策略改进基于强调用户体验优化的基本原则网站。与相关主题学习网站建立良好的外链关系,有助于相同或相似主题网站的用户更有效地互动,丰富和拓展学习者更有效、更便捷地获取主题知识掌握。可以说,专业学习网站SEO的全过程就是为了让网站更好更强。

可能有人认为专门学习的SEO网站违反了搜索引擎自主选择资源的原则。事实上,合理合法的白帽 SEO 是搜索引擎的“最佳伴侣搜索引擎”。为了给在线学习者提供有效的学习资源,有必要寻找信息来源。基于主题的学习网站旨在对搜索引擎友好、易于收录、内容丰富、主题突出,可以为SEO搜索引擎获取信息源提供便利,满足学习者的信息需求。及时。搜索引擎的有效性和实用价值会得到学习者的信任和肯定。相反,如果一个特定的研究网站是用不容易收录创建的技术构建的,搜索引擎也可能会陷入混乱。
各大SEO搜索引擎从来没有反对过网站SEO。谷歌非常支持白帽搜索引擎优化,专门安排了一批员工在博客、论坛和社交网络上发布信息和回答问题,并积极参与搜索引擎营销行业会议,以各种方式指导站长。搜索引擎SEO优化。
近年来各大门户网站网站对SEO优化人员的需求和肯定都增加了。对此,服务于在线学习的专题学习网站也应以符合SEO要求、体现专题学习策略的方式进行优化构建,更好地发挥其学习价值,而专题学习 设计公司,网站制作公司,全站优化!
最新版本:SEO搜索引擎优化:基础、案例与实战(第2版)
本书系统地介绍了搜索引擎优化(SEO)的方法。全书共分11章,包括SEO概述、搜索引擎概述、SEO准备工作、网站关键词的优化、网站的结构优化、网站@的页面优化>、网站内容优化、网站优化、常用SEO工具、数据监控分析、移动网站SEO。本书内容丰富,实战性强。以数据思维为指导,用成功的实际案例进行讲解。不仅可以让读者了解SEO的基本知识,还可以帮助读者掌握SEO的使用方法,提高网站的排名和排名。流动的方法。

【推荐】
1.根据网站优化实施的思路和核心流程展示,全面介绍有效的SEO实战技术,精选知识内容。 2. 专注实战。没有长篇的理论描述,更多的是写实操技巧。 3. 丰富的例子和练习,易教易学。 4. 大量图标和视频,一目了然,通俗易懂。

【作者】
杨仁、程鹏、姚亚峰(主编)罗世轩、闫涵(副主编)。作者的团队既有长期从事高职电子商务专业网络营销教学的教师,也有具有丰富实践经验的搜索引擎优化人员。
建房产找中介加上大单位销售人员,百度的视频课程
网站优化 • 优采云 发表了文章 • 0 个评论 • 89 次浏览 • 2022-09-02 15:03
内部信息源与外部信息源搜索引擎优化方法的异同百度的视频课程课件/julaolai/523577457.html?frm=real-estate+veteran和正规中介机构合作你所在城市有没有中介机构总部,如果有的话,百度搜索“这家”,联系他们,填写你的销售地址与真实姓名,确定靠谱以后会给你一个官方网站的(这个,很多中介机构进网门槛相对较低,造成机构滥用市场资源)。
有些中介,会自行搜索,去一些专业社区里面发布资源,免费发布的,作用大一些。via建房产找中介加上大单位销售人员。
您好!我们有个大单位的销售人员,合作过一次,但不是很多,可以加微信,详细了解一下。
上海润筑建筑设计有限公司,
对于找中介是大家普遍遇到的问题,给大家谈一下心得体会:1.花钱找个专业公司帮助看房肯定会省心省力,但是大部分中介公司都是提前销售一楼的楼栋,客户在购房成功后才会跟你沟通你报的小区情况2.在网上找一个口碑可靠的,售后服务相对可靠一些,如果你因为个人原因看不了房了,是可以及时跟中介沟通的;3.自己对房产也不是非常了解,也不知道找一个真正的销售是否靠谱,中介不是说靠谱不靠谱,销售看他们的素质,你不要轻易相信的你不懂的信息,要对他们有个基本的了解,比如刚需购房者,必须真正合适你的才是最好的,其次品牌性的的中介公司肯定比小作坊质量好一些,毕竟是国家认证的4.中介费其实现在一直都没有涨到让人无法接受的地步,小几万甚至几万都可以接受,毕竟现在开发商收你中介费基本上都是找中介公司代理你去签约;5.现在金融信贷已经比较普遍,贷款的额度还是很大的,可以通过贷款来解决这个问题,按揭买房必须要找正规中介公司,一旦找到不靠谱的就糟心啦,肯定会拒绝你的,可以一定要亲自过去看看。 查看全部
建房产找中介加上大单位销售人员,百度的视频课程
内部信息源与外部信息源搜索引擎优化方法的异同百度的视频课程课件/julaolai/523577457.html?frm=real-estate+veteran和正规中介机构合作你所在城市有没有中介机构总部,如果有的话,百度搜索“这家”,联系他们,填写你的销售地址与真实姓名,确定靠谱以后会给你一个官方网站的(这个,很多中介机构进网门槛相对较低,造成机构滥用市场资源)。

有些中介,会自行搜索,去一些专业社区里面发布资源,免费发布的,作用大一些。via建房产找中介加上大单位销售人员。
您好!我们有个大单位的销售人员,合作过一次,但不是很多,可以加微信,详细了解一下。

上海润筑建筑设计有限公司,
对于找中介是大家普遍遇到的问题,给大家谈一下心得体会:1.花钱找个专业公司帮助看房肯定会省心省力,但是大部分中介公司都是提前销售一楼的楼栋,客户在购房成功后才会跟你沟通你报的小区情况2.在网上找一个口碑可靠的,售后服务相对可靠一些,如果你因为个人原因看不了房了,是可以及时跟中介沟通的;3.自己对房产也不是非常了解,也不知道找一个真正的销售是否靠谱,中介不是说靠谱不靠谱,销售看他们的素质,你不要轻易相信的你不懂的信息,要对他们有个基本的了解,比如刚需购房者,必须真正合适你的才是最好的,其次品牌性的的中介公司肯定比小作坊质量好一些,毕竟是国家认证的4.中介费其实现在一直都没有涨到让人无法接受的地步,小几万甚至几万都可以接受,毕竟现在开发商收你中介费基本上都是找中介公司代理你去签约;5.现在金融信贷已经比较普遍,贷款的额度还是很大的,可以通过贷款来解决这个问题,按揭买房必须要找正规中介公司,一旦找到不靠谱的就糟心啦,肯定会拒绝你的,可以一定要亲自过去看看。
seo信息优化方法的异同性搜索引擎优化师内部信息源大曝光!
网站优化 • 优采云 发表了文章 • 0 个评论 • 100 次浏览 • 2022-08-21 13:03
内部信息源与外部信息源搜索引擎优化方法的异同性搜索引擎优化师内部信息源大曝光!(seo信息优化网站建设成本要投入多少钱/seo培训机构现在的价格/seo优化客户之间该怎么选择/如何花最少的钱快速提升站点的排名)
odera不可信,作弊太多,相比的话google优化还是可靠的。
我个人认为,国内可信度最高的还是百度。不过全中国只有一家的效果就是非常不好。这个数据没有任何意义,数据说明不了什么。
我来说一个成功的案例吧,我今年春节期间在常州学习的一个微信公众号公开课。然后录制了一整套教学视频。公开课所有嘉宾都会学习一遍教程,然后我听了一遍,只记得好像是有一个叫什么卓越加分点咨询的工作人员,在职位我记得是一个高级seo专家。好像是,我看了一下,好像说3天内来到我们公司工作的学员,就可以获得他们的推荐,会得到他们的佣金。
(老实说他们公司老板真的很豪爽,他们说帮他们招生赚100w)如果真的这么好赚,为什么会在某些行业发现很多机会,而有些行业不赚钱呢?说实话,市场很大,你真的一点机会都没有。分割线---。 查看全部
seo信息优化方法的异同性搜索引擎优化师内部信息源大曝光!
内部信息源与外部信息源搜索引擎优化方法的异同性搜索引擎优化师内部信息源大曝光!(seo信息优化网站建设成本要投入多少钱/seo培训机构现在的价格/seo优化客户之间该怎么选择/如何花最少的钱快速提升站点的排名)

odera不可信,作弊太多,相比的话google优化还是可靠的。
我个人认为,国内可信度最高的还是百度。不过全中国只有一家的效果就是非常不好。这个数据没有任何意义,数据说明不了什么。

我来说一个成功的案例吧,我今年春节期间在常州学习的一个微信公众号公开课。然后录制了一整套教学视频。公开课所有嘉宾都会学习一遍教程,然后我听了一遍,只记得好像是有一个叫什么卓越加分点咨询的工作人员,在职位我记得是一个高级seo专家。好像是,我看了一下,好像说3天内来到我们公司工作的学员,就可以获得他们的推荐,会得到他们的佣金。
(老实说他们公司老板真的很豪爽,他们说帮他们招生赚100w)如果真的这么好赚,为什么会在某些行业发现很多机会,而有些行业不赚钱呢?说实话,市场很大,你真的一点机会都没有。分割线---。
内部信息源与外部信息搜索引擎优化方法的异同
网站优化 • 优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2022-08-13 12:23
内部信息源与外部信息源搜索引擎优化方法的异同我们常用的词汇做seo,就需要首先了解seo需要了解什么知识,就需要了解什么是词汇,什么是我们要了解的其他的词汇。那么我就一一的来介绍下:chinesecentralknowledge是中国的一些基本知识titlewords:因为我们要分析了解很多关键词都是怎么搜的,所以用这个来表示。
有什么好处呢?就是可以我们可以从词汇的深度挖掘来进行采集。我们一般都是通过关键词然后结合我们的产品或者标签来进行一个词汇的搜索。这个是最基本的玩法,比如关键词:内容。我们搜索的词汇都是一些虚拟的相关的内容,其他的类型,比如体育,我们发现有很多的相关的可以进行采集。所以说如果是想做关键词,我们一定要通过这种搜索方式,很多时候通过搜索,是可以发现一些东西。
2.brazilianknowledge(bk):来自香港的一些基本知识whois查询。来自::比如网站是来自怎么样的一个域名,网站的com域名是怎么样的一个是。根据我们的网站去whois我们可以去发现一些信息。也可以根据很多的平台去发现一些联系方式等等。3.redirectlink(rtl):看网站一些引用别人网站的链接,来来源的一些头衔是怎么样的网站。
一般都是可以去发现网站的一些引用的一些渠道。再一个就是百度在做搜索推广的时候也会跟我们的搜索有很多的联系。也是需要关注那些内容来源以及来源方式,百度一般不会被查询到。我们这边就说到了一些,不好意思不排除一些,有些客户实际上会问我一些细节,比如说你能不能去谷歌里面面试,是不是可以就是看你的whois可不可以去认证。
这个是非常的正常的一个,有的时候是确实是这样子的。最后总结下来我们要了解很多的基本知识,然后去分析用户的一些关键词的一些需求,再去去筛选一些网站的相关内容,最后我们确定怎么样的方法的一个优化方式。大家最好都去加一下学习公开课等等,用到seo的一些相关方面,才可以更加有针对性,从而更加的有效果。感谢看到这篇文章的朋友,您能够帮忙转发,添加一下小编的微信,所有的知识在带领大家学习!。 查看全部
内部信息源与外部信息搜索引擎优化方法的异同
内部信息源与外部信息源搜索引擎优化方法的异同我们常用的词汇做seo,就需要首先了解seo需要了解什么知识,就需要了解什么是词汇,什么是我们要了解的其他的词汇。那么我就一一的来介绍下:chinesecentralknowledge是中国的一些基本知识titlewords:因为我们要分析了解很多关键词都是怎么搜的,所以用这个来表示。

有什么好处呢?就是可以我们可以从词汇的深度挖掘来进行采集。我们一般都是通过关键词然后结合我们的产品或者标签来进行一个词汇的搜索。这个是最基本的玩法,比如关键词:内容。我们搜索的词汇都是一些虚拟的相关的内容,其他的类型,比如体育,我们发现有很多的相关的可以进行采集。所以说如果是想做关键词,我们一定要通过这种搜索方式,很多时候通过搜索,是可以发现一些东西。
2.brazilianknowledge(bk):来自香港的一些基本知识whois查询。来自::比如网站是来自怎么样的一个域名,网站的com域名是怎么样的一个是。根据我们的网站去whois我们可以去发现一些信息。也可以根据很多的平台去发现一些联系方式等等。3.redirectlink(rtl):看网站一些引用别人网站的链接,来来源的一些头衔是怎么样的网站。

一般都是可以去发现网站的一些引用的一些渠道。再一个就是百度在做搜索推广的时候也会跟我们的搜索有很多的联系。也是需要关注那些内容来源以及来源方式,百度一般不会被查询到。我们这边就说到了一些,不好意思不排除一些,有些客户实际上会问我一些细节,比如说你能不能去谷歌里面面试,是不是可以就是看你的whois可不可以去认证。
这个是非常的正常的一个,有的时候是确实是这样子的。最后总结下来我们要了解很多的基本知识,然后去分析用户的一些关键词的一些需求,再去去筛选一些网站的相关内容,最后我们确定怎么样的方法的一个优化方式。大家最好都去加一下学习公开课等等,用到seo的一些相关方面,才可以更加有针对性,从而更加的有效果。感谢看到这篇文章的朋友,您能够帮忙转发,添加一下小编的微信,所有的知识在带领大家学习!。
XLNet : 运行机制及和 Bert 的异同比较
网站优化 • 优采云 发表了文章 • 0 个评论 • 103 次浏览 • 2022-07-31 19:37
出品社区:DataFun
注:文末有惊喜,等你呦。
这两天,XLNet 貌似也引起了 NLP 圈的极大关注,从实验数据看,在某些场景下,确实 XLNet 相对 Bert 有很大幅度的提升。就像我们之前说的,感觉 Bert 打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而 XLNet 就是其中比较引人注目的一位。当然,我估计很快我们会看到更多的这个模式下的新工作。未来两年,在两阶段新模式 ( 预训练 + Finetuning ) 下,应该会有更多的好工作涌现出来。根本原因在于:这个模式的潜力还没有被充分挖掘,貌似还有很大的提升空间。当然,这也意味着 NLP 在未来两年会有各种技术或者应用的突破,现在其实是进入 NLP 领域非常好的时机。原因有两个,一个是 NLP 正面临一个技术栈大的改朝换代的时刻,有很多空白等着你去填补,容易出成绩;另外一点,貌似 Bert+Transformer 有统一 NLP 各个应用领域的趋向,这意味着此时进入 NLP 领域,具备学习成本非常低的好处,和之前相比,投入产出比非常合算。这是两个原因。当然,即使如此,想要学好 NLP ,持续的精力投入是必不可少的。有句老话说得好:“永恒的爱大约持续三个月”,这句话其实对于很多对 NLP 感兴趣的同学也成立:“对 NLP 的永恒的热情大约能够持续3到5天”,希望真的有兴趣的同学能坚持一下,起码持续7到8天,凑够一个星期…..
那么 XLNet 和 Bert 比,有什么异同?有什么模型方面的改进?在哪些场景下特别有效?原因又是什么?本文通过论文思想解读及实验结果分析,试图回答上述问题。
首先,XLNet 引入了自回归语言模型以及自编码语言模型的提法,这个思维框架我觉得挺好的,可以先简单说明下。
自回归语言模型 ( Autoregressive LM )
在 ELMO / BERT 出来之前,大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词,这种类型的 LM 被称为自回归语言模型。GPT 就是典型的自回归语言模型。ELMO 尽管看上去利用了上文,也利用了下文,但是本质上仍然是自回归 LM ,这个跟模型具体怎么实现有关系。ELMO 是做了两个方向 ( 从左到右以及从右到左两个方向的语言模型 ) ,但是是分别有两个方向的自回归 LM ,然后把 LSTM 的两个方向的隐节点状态拼接到一起,来体现双向语言模型这个事情的。所以其实是两个自回归语言模型的拼接,本质上仍然是自回归语言模型。
自回归语言模型有优点有缺点,缺点是只能利用上文或者下文的信息,不能同时利用上文和下文的信息,当然,貌似 ELMO 这种双向都做,然后拼接看上去能够解决这个问题,因为融合模式过于简单,所以效果其实并不是太好。它的优点,其实跟下游 NLP 任务有关,比如生成类 NLP 任务,比如文本摘要,机器翻译等,在实际生成内容的时候,就是从左向右的,自回归语言模型天然匹配这个过程。而 Bert 这种 DAE 模式,在生成类 NLP 任务中,就面临训练过程和应用过程不一致的问题,导致生成类的 NLP 任务到目前为止都做不太好。
自编码语言模型 ( Autoencoder LM )
自回归语言模型只能根据上文预测下一个单词,或者反过来,只能根据下文预测前面一个单词。相比而言,Bert 通过在输入 X 中随机 Mask 掉一部分单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被 Mask 掉的单词,如果你对 Denoising Autoencoder 比较熟悉的话,会看出,这确实是典型的 DAE 的思路。那些被 Mask 掉的单词就是在输入侧加入的所谓噪音。类似Bert这种预训练模式,被称为 DAE LM 。
这种 DAE LM 的优缺点正好和自回归 LM 反过来,它能比较自然地融入双向语言模型,同时看到被预测单词的上文和下文,这是好处。缺点是啥呢?主要在输入侧引入 [Mask] 标记,导致预训练阶段和 Fine-tuning 阶段不一致的问题,因为 Fine-tuning 阶段是看不到 [Mask] 标记的。DAE 吗,就要引入噪音,[Mask] 标记就是引入噪音的手段,这个正常。
XLNet 的出发点就是:能否融合自回归 LM 和 DAE LM 两者的优点。就是说如果站在自回归 LM 的角度,如何引入和双向语言模型等价的效果;如果站在 DAE LM 的角度看,它本身是融入双向语言模型的,如何抛掉表面的那个 [Mask] 标记,让预训练和 Fine-tuning 保持一致。当然,XLNet 还讲到了一个 Bert 被 Mask 单词之间相互独立的问题,我相信这个不太重要,原因后面会说。当然,我认为这点不重要的事情,纯粹是个人观点,出错难免,看看就完了,不用较真。
XLNet 做了些什么
上文说过,Bert 这种自编码语言模型的好处是:能够同时利用上文和下文,所以信息利用充分。对于很多 NLP 任务而言,典型的比如阅读理解,在解决问题的时候,是能够同时看到上文和下文的,所以当然应该把下文利用起来。在 Bert 原始论文中,与 GPT1.0 的实验对比分析也可以看出来,BERT 相对 GPT 1.0 的性能提升,主要来自于双向语言模型与单向语言模型的差异。这是 Bert 的好处,很明显,Bert 之后的改进模型,如果不能把双向语言模型用起来,那明显是很吃亏的。当然,GPT 2.0 的作者不信这个邪,坚持沿用 GPT 1.0 单向语言模型的旧瓶,装进去了更高质量更大规模预训练数据的新酒,而它的实验结果也说明了,如果想改善预训练语言模型,走这条扩充预序列模型训练数据的路子,是个多快好但是不省钱的方向。这也进一步说明了,预训练 LM 这条路,还远远没有走完,还有很大的提升空间,比如最简单的提升方法就是加大数据规模,提升数据质量。
但是 Bert 的自编码语言模型也有对应的缺点,就是 XLNet 在文中指出的,第一个预训练阶段因为采取引入 [Mask] 标记来 Mask 掉部分单词的训练模式,而 Fine-tuning 阶段是看不到这种被强行加入的 Mask 标记的,所以两个阶段存在使用模式不一致的情形,这可能会带来一定的性能损失;另外一个是,Bert 在第一个预训练阶段,假设句子中多个单词被 Mask 掉,这些被 Mask 掉的单词之间没有任何关系,是条件独立的,而有时候这些单词之间是有关系的,XLNet 则考虑了这种关系(关于这点原因是否可靠,后面会专门分析)。
上面两点是 XLNet 在第一个预训练阶段,相对 Bert 来说要解决的两个问题。
其实从另外一个角度更好理解 XLNet 的初衷和做法,我觉得这个估计是 XLNet 作者真正的思考出发点,是啥呢?就是说自回归语言模型有个缺点,要么从左到右,要么从右到左,尽管可以类似 ELMO 两个都做,然后再拼接的方式。但是跟 Bert 比,效果明显不足够好(这里面有 RNN 弱于 Transformer 的因素,也有双向语言模型怎么做的因素)。那么,能不能类似 Bert 那样,比较充分地在自回归语言模型中,引入双向语言模型呢?因为 Bert 已经证明了这是非常关键的一点。这一点,想法简单,但是看上去貌似不太好做,因为从左向右的语言模型,如果我们当前根据上文,要预测某个单词 Ti ,那么看上去它没法看到下文的内容。具体怎么做才能让这个模型:看上去仍然是从左向右的输入和预测模式,但是其实内部已经引入了当前单词的下文信息呢?XLNet 在模型方面的主要贡献其实是在这里。
那么 XLNet 是怎么做到这一点的呢?其实思路也比较简洁,可以这么思考:XLNet 仍然遵循两阶段的过程,第一个阶段是语言模型预训练阶段;第二阶段是任务数据 Fine-tuning 阶段。它主要希望改动第一个阶段,就是说不像 Bert 那种带 Mask 符号的 Denoising-autoencoder 的模式,而是采用自回归 LM 的模式。就是说,看上去输入句子 X 仍然是自左向右的输入,看到 Ti 单词的上文 Context_before ,来预测 Ti 这个单词。但是又希望在 Context_before 里,不仅仅看到上文单词,也能看到 Ti 单词后面的下文 Context_after 里的下文单词,这样的话,Bert 里面预训练阶段引入的 Mask 符号就不需要了,于是在预训练阶段,看上去是个标准的从左向右过程,Fine-tuning 当然也是这个过程,于是两个环节就统一起来。当然,这是目标。剩下是怎么做到这一点的问题。
那么,怎么能够在单词 Ti 的上文中 Contenxt_before 中揉入下文 Context_after 的内容呢?你可以想想。XLNet 是这么做的,在预训练阶段,引入 Permutation Language Model 的训练目标。什么意思呢?就是说,比如包含单词 Ti 的当前输入的句子 X ,由顺序的几个单词构成,比如 x1,x2,x3,x4 四个单词顺序构成。我们假设,其中,要预测的单词 Ti 是 x3 ,位置在 Position 3 ,要想让它能够在上文 Context_before 中,也就是 Position 1 或者 Position 2 的位置看到 Position 4 的单词 x4 。可以这么做:假设我们固定住 x3 所在位置,就是它仍然在 Position 3 ,之后随机排列组合句子中的4个单词,在随机排列组合后的各种可能里,再选择一部分作为模型预训练的输入 X 。比如随机排列组合后,抽取出 x4,x2,x3,x1 这一个排列组合作为模型的输入 X 。于是,x3 就能同时看到上文 x2 ,以及下文 x4 的内容了。这就是 XLNet 的基本思想,所以说,看了这个就可以理解上面讲的它的初衷了吧:看上去仍然是个自回归的从左到右的语言模型,但是其实通过对句子中单词排列组合,把一部分 Ti 下文的单词排到 Ti 的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是从左到右在预测后一个单词。
当然,上面讲的仍然是基本思想。难点其实在于具体怎么做才能实现上述思想。首先,需要强调一点,尽管上面讲的是把句子 X 的单词排列组合后,再随机抽取例子作为输入,但是,实际上你是不能这么做的,因为 Fine-tuning 阶段你不可能也去排列组合原始输入。所以,就必须让预训练阶段的输入部分,看上去仍然是 x1,x2,x3,x4 这个输入顺序,但是可以在 Transformer 部分做些工作,来达成我们希望的目标。具体而言,XLNet 采取了 Attention 掩码的机制,你可以理解为,当前的输入句子是 X ,要预测的单词 Ti 是第 i 个单词,前面1到 i-1 个单词,在输入部分观察,并没发生变化,该是谁还是谁。但是在 Transformer 内部,通过 Attention 掩码,从 X 的输入单词里面,也就是 Ti 的上文和下文单词中,随机选择 i-1 个,放到 Ti 的上文位置中,把其它单词的输入通过 Attention 掩码隐藏掉,于是就能够达成我们期望的目标(当然这个所谓放到 Ti 的上文位置,只是一种形象的说法,其实在内部,就是通过 Attention Mask ,把其它没有被选到的单词 Mask 掉,不让它们在预测单词 Ti 的时候发生作用,如此而已。看着就类似于把这些被选中的单词放到了上文 Context_before 的位置了)。具体实现的时候,XLNet 是用“双流自注意力模型”实现的,细节可以参考论文,但是基本思想就如上所述,双流自注意力机制只是实现这个思想的具体方式,理论上,你可以想出其它具体实现方式来实现这个基本思想,也能达成让Ti看到下文单词的目标。
这里简单说下“双流自注意力机制”,一个是内容流自注意力,其实就是标准的 Transformer 的计算过程;主要是引入了 Query 流自注意力,这个是干嘛的呢?其实就是用来代替 Bert 的那个 [Mask] 标记的,因为 XLNet 希望抛掉 [Mask] 标记符号,但是比如知道上文单词 x1,x2 ,要预测单词 x3 ,此时在 x3 对应位置的 Transformer 最高层去预测这个单词,但是输入侧不能看到要预测的单词 x3 ,Bert 其实是直接引入 [Mask] 标记来覆盖掉单词 x3 的内容的,等于说 [Mask] 是个通用的占位符号。而 XLNet 因为要抛掉 [Mask] 标记,但是又不能看到 x3 的输入,于是 Query 流,就直接忽略掉 x3 输入了,只保留这个位置信息,用参数 w 来代表位置的 embedding 编码。其实 XLNet 只是扔了表面的 [Mask] 占位符号,内部还是引入 Query 流来忽略掉被 Mask 的这个单词。和 Bert 比,只是实现方式不同而已。
上面说的 Attention 掩码,我估计你还是没了解它的意思,我再用例子解释一下。Attention Mask 的机制,核心就是说,尽管当前输入看上去仍然是 x1->x2->x3->x4 ,但是我们已经改成随机排列组合的另外一个顺序 x3->x2->x4->x1 了,如果用这个例子用来从左到右训练 LM ,意味着当预测 x2 的时候,它只能看到上文 x3 ;当预测 x4 的时候,只能看到上文 x1 和 x2 ,以此类推……这样,比如对于 x2 来说,就看到了下文 x3 了。这种在输入侧维持表面的 X 句子单词顺序,但是其实在 Transformer 内部,看到的已经是被重新排列组合后的顺序,是通过 Attention 掩码来实现的。如上图所示,输入看上去仍然是 x1,x2,x3,x4 ,可以通过不同的掩码矩阵,让当前单词 Xi 只能看到被排列组合后的顺序 x3->x2->x4->x1 中自己前面的单词。这样就在内部改成了被预测单词同时看到上下文单词,但是输入侧看上去仍然维持原先的单词顺序了。关键要看明白上图右侧那个掩码矩阵,我相信很多人刚开始没看明白,因为我刚开始也没看明白,因为没有标出掩码矩阵的单词坐标,它的坐标是1-2-3-4,就是表面那个 X 的单词顺序,通过掩码矩阵,就能改成你想要的排列组合,并让当前单词看到它该看到的所谓上文,其实是掺杂了上文和下文的内容。这是 attention mask 来实现排列组合的背后的意思。
上面讲的 Permutation Language Model 是 XLNet 的主要理论创新,所以介绍的比较多,从模型角度讲,这个创新还是挺有意思的,因为它开启了自回归语言模型如何引入下文的一个思路,相信对于后续工作会有启发。当然,XLNet 不仅仅做了这些,它还引入了其它的因素,也算是一个当前有效技术的集成体。感觉 XLNet 就是 Bert、GPT 2.0 和 Transformer XL 的综合体变身,首先,它通过 PLM 预训练目标,吸收了 Bert 的双向语言模型;然后,GPT2.0 的核心其实是更多更高质量的预训练数据,这个明显也被 XLNet 吸收进来了;再然后,Transformer XL 的主要思想也被吸收进来,它的主要目标是解决 Transformer 对于长文档 NLP 应用不够友好的问题。
以上是 XLNet 的几个主要改进点,有模型创新方面的,有其它模型引入方面的,也有数据扩充方面的。那么,这些因素各自起到了什么作用呢?在后面我们会谈。在谈不同因素各自作用之前,我们先分析下 XLNet 和 Bert 的异同问题。
与 Bert 的预训练过程的异同问题
尽管看上去,XLNet 在预训练机制引入的 Permutation Language Model 这种新的预训练目标,和 Bert 采用 Mask 标记这种方式,有很大不同。其实你深入思考一下,会发现,两者本质是类似的。区别主要在于:Bert 是直接在输入端显示地通过引入 Mask 标记,在输入侧隐藏掉一部分单词,让这些单词在预测的时候不发挥作用,要求利用上下文中其它单词去预测某个被 Mask 掉的单词;而 XLNet 则抛弃掉输入侧的 Mask 标记,通过 Attention Mask 机制,在 Transformer 内部随机 Mask 掉一部分单词(这个被 Mask 掉的单词比例跟当前单词在句子中的位置有关系,位置越靠前,被 Mask 掉的比例越高,位置越靠后,被 Mask 掉的比例越低),让这些被 Mask 掉的单词在预测某个单词的时候不发生作用。所以,本质上两者并没什么太大的不同,只是 Mask 的位置,Bert 更表面化一些,XLNet 则把这个过程隐藏在了 Transformer 内部而已。这样,就可以抛掉表面的 [Mask] 标记,解决它所说的预训练里带有 [Mask] 标记导致的和 Fine-tuning 过程不一致的问题。至于说 XLNet 说的,Bert 里面被 Mask 掉单词的相互独立问题,也就是说,在预测某个被 Mask 单词的时候,其它被 Mask 单词不起作用,这个问题,你深入思考一下,其实是不重要的,因为 XLNet 在内部 Attention Mask 的时候,也会 Mask 掉一定比例的上下文单词,只要有一部分被 Mask 掉的单词,其实就面临这个问题。而如果训练数据足够大,其实不靠当前这个例子,靠其它例子,也能弥补被 Mask 单词直接的相互关系问题,因为总有其它例子能够学会这些单词的相互依赖关系。
我相信,通过改造 Bert 的预训练过程,其实是可以模拟 XLNet 的 Permutation Language Model 过程的:Bert 目前的做法是,给定输入句子 X ,随机 Mask 掉15%的单词,然后要求利用剩下的85%的单词去预测任意一个被 Mask 掉的单词,被 Mask 掉的单词在这个过程中相互之间没有发挥作用。如果我们把 Bert 的预训练过程改造成:对于输入句子,随机选择其中任意一个单词 Ti ,只把这个单词改成 Mask 标记,假设 Ti 在句子中是第 i 个单词,那么此时随机选择 X 中的任意 i 个单词,只用这 i 个单词去预测被 Mask 掉的单词。当然,这个过程理论上也可以在 Transformer 内采用 attention mask 来实现。如果是这样,其实 Bert 的预训练模式就和 XLNet 是基本等价的了。
或者换个角度思考,假设仍然利用 Bert 目前的 Mask 机制,但是把 Mask 掉15%这个条件极端化,改成,每次一个句子只 Mask 掉一个单词,利用剩下的单词来预测被 Mask 掉的单词。那么,这个过程其实跟 XLNet 的 PLM 也是比较相像的,区别主要在于每次预测被 Mask 掉的单词的时候,利用的上下文更多一些(XLNet 在实现的时候,为了提升效率,其实也是选择每个句子最后末尾的 1/K 单词被预测,假设 K=7 ,意味着一个句子 X ,只有末尾的 1/7 的单词会被预测,这意味着什么呢?意味着至少保留了 6/7 的 Context 单词去预测某个单词,对于最末尾的单词,意味着保留了所有的句子中 X 的其它单词,这其实和上面提到的 Bert 只保留一个被 Mask 单词是一样的)。或者我们站在 Bert 预训练的角度来考虑 XLNet ,如果 XLNet 改成对于句子 X ,只需要预测句子中最后一个单词,而不是最后的 1/K ( 就是假设 K 特别大的情况 ) ,那么其实和 Bert 每个输入句子只 Mask 掉一个单词,两者基本是等价的。
当然,XLNet 这种改造,维持了表面看上去的自回归语言模型的从左向右的模式,这个 Bert 做不到,这个有明显的好处,就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息。所以看上去,XLNet 貌似应该对于生成类型的 NLP 任务,会比 Bert 有明显优势。另外,因为 XLNet 还引入了 Transformer XL 的机制,所以对于长文档输入类型的 NLP 任务,也会比 Bert 有明显优势。
哪些因素在起作用?
如上分析,XLNet 有个好处,但是感觉同时也是个问题,那就是:XLNet 其实同时引入了很多因素在模型里。说是好处,因为实验证明了这样效果确实好,即使是跟 Bert_Large 这种非常强的基准模型比也是,尤其是长文档任务,这个效果提升比较明显;说是问题,是因为其实应该在实验部分充分说明,如果模型起了作用,这些因素各自发挥了多大作用,尤其是在跟 Bert 进行对比的时候,感觉应该把数据规模这个变量磨平进行比较,因为这才是单纯的模型差异导致的性能差异,而不是训练数据量引发的差异。当然,XLNet 最后一组实验是把这个预训练数据规模差异磨平后,和 Bert 比较的,所以信息含量更大些。而前面的几组实验,因为天然存在预训练数据量的差异,所以模型导致的差异到底有多大,看得不太明显。引入了 Transformer-XL 的主要思路:相对位置编码以及分段 RNN 机制。实践已经证明这两点对于长文档任务是很有帮助的。
我们上文提到过,XLNet 起作用的,如果宏观归纳一下,共有三个因素;
1. 与 Bert 采取 De-noising Autoencoder 方式不同的新的预训练目标:Permutation Language Model ( 简称 PLM ) ;这个可以理解为在自回归 LM 模式下,如何采取具体手段,来融入双向语言模型。这个是 XLNet 在模型角度比较大的贡献,确实也打开了 NLP 中两阶段模式潮流的一个新思路。
2. 引入了 Transformer-XL 的主要思路:相对位置编码以及分段 RNN 机制。实践已经证明这两点对于长文档任务是很有帮助的;
加大增加了预训练阶段使用的数据规模;Bert 使用的预训练数据是 BooksCorpus 和英文 Wiki 数据,大小 13G 。XLNet 除了使用这些数据外,另外引入了 Giga5,ClueWeb 以及 Common Crawl 数据,并排掉了其中的一些低质量数据,大小分别是 16G,19G 和 78G 。可以看出,在预训练阶段极大扩充了数据规模,并对质量进行了筛选过滤。这个明显走的是 GPT2.0 的路线。
所以实验部分需要仔细分析,提升到底是上述哪个因素或者是哪几个因素导致的性能提升?
我们把实验分成几个部分来分析。
首先,给人最大的印象是:XLNet 对于阅读理解类任务,相对 Bert ,性能有极大幅度地提升。下面是论文报道的实验结果:
其中,RACE 和 SQuAD 2.0 是文档长度较长的阅读理解任务,任务难度也相对高。可以看出,在这两个任务中,XLNet 相对 Bert_Large ,确实有大幅性能提升 ( Race 提升13.5%,SQuAD 2.0 F1 指标提升8.6 ) 。在 Squad1.1 上提升尽管稍微小些,F1 提升3.9%,但是因为基准高,所以提升也比较明显。
说 XLNet 在阅读理解,尤其是长文档的阅读理解中,性能大幅超过 Bert ,这个是没疑问的。但是,因为 XLNet 融入了上文说的三个因素,所以不确定每个因素在其中起的作用有多大,而对于长文档,Transformer XL 的引入肯定起了比较大的作用,Bert 天然在这种类型任务中有缺点,其它两类因素的作用不清楚。感觉这里应该增加一个基准,就是 Bert 用与 XLNet 相同大小的预训练数据做,这样抹平数据量差异,更好比较模型差异带来的效果差异。当然,我觉得即使是这样,XLNet 应该仍然是比 Bert 效果好的,只是可能不会差距这么大,因为 XLNet 的长文档优势肯定会起作用。
下面我们看下其它类型的 NLP 任务。
GLUE 是个综合的 NLP 任务集合,包含各种类型的任务,因为 ensemble 模式里面包含了各种花式的 trick ,所以重点看上面一组实验,这里比较单纯。从实验数据看,XLNet 相对 Bert 也有性能提升,当然不像阅读理解提升那么大,而且性能提升比较大的集中在 RTE ,MNLI 和 COLA 数据集合,其它任务提升效果还好。而我一直觉得,RTE 在 GLUE 里,是个神奇的存在,如果没有它,很多论文的效果可能没法看,这个是闲话,先不讲了,后面我会单说。
当然,仍然不确定这种性能提升主要来自于 XLNet 的哪个因素,或者哪几个因素各自的贡献,尤其是如果 Bert 加大预训练数据规模后,两者性能差异有多大。感觉这里 Transformer XL 的因素可能发挥的作用不会太大,其它两个因素在起作用,但是作用未知,这里感觉应该补充其它实验。
上面是文本分类任务和信息检索任务,可以看出,相对 Bert,XLNet 效果有提升,但是幅度不算大。仍然是上面的考虑,起作用的三个因素,到底哪个发挥多大作用,从数据方面看不太出来。
下面一组实验可以仔细分析一下,这组实验是排除掉上述第三个数据规模因素的实验的对比,就是说 XLNet 用的是和 Bert 相同规模的预训练数据,所以与 Bert 对比更具备模型方面的可比较性,而没有数据规模的影响。实验结果如下:
如果仔细分析实验数据,实验结果说明:
因为和 Bert 比较,XLNet 使用相同的预训练数据。所以两者的性能差异来自于:Permutation Language Model 预训练目标以及 Transformer XL 的长文档因素。而从中可以看出,DAE+Transformer XL 体现的是长文档因素的差异,和 Bert 比,Race 提升1个点,SQuAD F1 提升3个点,MNLI 提升0.5个点,SST-2 性能稍微下降。这是 Transformer XL 因素解决长文档因素带来的收益,很明显,长文档阅读理解任务提升比较明显,其它任务提升不太明显。
而通过 XLNet 进一步和 DAE+Transformer XL 及 Bert 比,这一点应该拆解出 Permutation Language Model 和 Mask 的方式差异。可以看出:XLNet 相对 DAE+Transformer XL 来说,Race 进一步提升1个点左右;SQuAD 进一步提升1.8个点左右,NMLI 提升1个点左右,SST-B 提升不到1个点。虽然不精准,但是大致是能说明问题的,这个应该大致是 PLM 带来的模型收益。可以看出,PLM 还是普遍有效的,但是提升幅度并非特别巨大。
如果我们结合前面 Race 和 SQuAD 的实验结果看(上面两组实验是三个因素的作用,后面是排除掉数据量差异的结果,所以两者的差距,很可能就是第三个因素:数据规模导致的差异,当然,因为一个是 Bert_base ,一个是 Bert_Large ,所以不具备完全可比性,但是大致估计不会偏离真实结论太远),Race 数据集合三因素同时具备的 XLNet ,超过 Bert 绝对值大约9个多百分点,Transformer 因素 +PLM 因素估计贡献大约在2到4个点之间,那么意味着预训练数据量导致的差异大概在4到5个点左右;类似的,可以看出,SQuAD 2.0 中,预训练数据量导致的差异大约在2到3个点左右,也就是说,估计训练数据量带来的提升,在阅读理解任务中大约占比30%到40%左右。
如果从实验结果归纳一下的话,可以看出:XLNet 综合而言,效果是优于 Bert 的,尤其是在长文档类型任务,效果提升明显。如果进一步拆解的话,因为对比实验不足,只能做个粗略的结论:预训练数据量的提升,大概带来30%左右的性能提升,其它两个模型因素带来剩余的大约70%的性能提升。当然,这个主要指的是 XLNet 性能提升比较明显的阅读理解类任务而言。对于其它类型任务,感觉 Transformer XL 的因素贡献估计不会太大,主要应该是其它两个因素在起作用。
对 NLP 应用任务的影响
XLNet 其实本质上还是 ELMO/GPT/Bert 这一系列两阶段模型的进一步延伸。在将自回归 LM 方向引入双向语言模型方面,感觉打开了一个新思路,这点还是非常对人有启发的。当然,如果深入思考,其实和 Bert 并没有太大的不同。
如果让我推论下 XLNet 的出现,对后续 NLP 工作的影响,我觉得跟 Bert 比,最直接的影响应该有两个,一个是对于 Bert 长文档的应用,因为 Transformer 天然对长文档任务处理有弱点,所以 XLNet 对于长文档 NLP 任务相比 Bert 应该有直接且比较明显的性能提升作用,它在论文中也证明了这点。所以,以后长文档类型的 NLP 应用,XLNet 明显跟 Bert 比占优势。当然,你说我把 Transformer XL 的因素引入 Bert ,然后继续在 Bert 上做改进,明显这也是可以的。
第二点,对于生成类的 NLP 任务,到目前为止,尽管出了一些改进模型,但是从效果看,Bert 仍然不能很好地处理。而因为 XLNet 的预训练模式天然符合下游任务序列生成结果,所以按理说能够直接通过引入 XLNet 来改进生成类 NLP 任务的效果。所以,这点估计是 XLNet 会明显占优势的一个领域。
可以预计的是,很快我们就会看到 XLNet 在文本摘要,机器翻译,信息检索…..等符合上述 XLNet 应用领域特点和优势领域的应用结果,以及在这些任务上的进一步改进模型。当然,这个有点比手速的意思,有意者请尽快动手把结果扔出来。
又给你了一个拼手速的机会,加油吧,少年!
作者介绍:
张俊林,中国中文信息学会理事,中科院软件所博士。目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届优秀图书奖)、《大数据日知录:架构与算法》的作者。 查看全部
XLNet : 运行机制及和 Bert 的异同比较
出品社区:DataFun
注:文末有惊喜,等你呦。
这两天,XLNet 貌似也引起了 NLP 圈的极大关注,从实验数据看,在某些场景下,确实 XLNet 相对 Bert 有很大幅度的提升。就像我们之前说的,感觉 Bert 打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而 XLNet 就是其中比较引人注目的一位。当然,我估计很快我们会看到更多的这个模式下的新工作。未来两年,在两阶段新模式 ( 预训练 + Finetuning ) 下,应该会有更多的好工作涌现出来。根本原因在于:这个模式的潜力还没有被充分挖掘,貌似还有很大的提升空间。当然,这也意味着 NLP 在未来两年会有各种技术或者应用的突破,现在其实是进入 NLP 领域非常好的时机。原因有两个,一个是 NLP 正面临一个技术栈大的改朝换代的时刻,有很多空白等着你去填补,容易出成绩;另外一点,貌似 Bert+Transformer 有统一 NLP 各个应用领域的趋向,这意味着此时进入 NLP 领域,具备学习成本非常低的好处,和之前相比,投入产出比非常合算。这是两个原因。当然,即使如此,想要学好 NLP ,持续的精力投入是必不可少的。有句老话说得好:“永恒的爱大约持续三个月”,这句话其实对于很多对 NLP 感兴趣的同学也成立:“对 NLP 的永恒的热情大约能够持续3到5天”,希望真的有兴趣的同学能坚持一下,起码持续7到8天,凑够一个星期…..
那么 XLNet 和 Bert 比,有什么异同?有什么模型方面的改进?在哪些场景下特别有效?原因又是什么?本文通过论文思想解读及实验结果分析,试图回答上述问题。
首先,XLNet 引入了自回归语言模型以及自编码语言模型的提法,这个思维框架我觉得挺好的,可以先简单说明下。
自回归语言模型 ( Autoregressive LM )
在 ELMO / BERT 出来之前,大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词,这种类型的 LM 被称为自回归语言模型。GPT 就是典型的自回归语言模型。ELMO 尽管看上去利用了上文,也利用了下文,但是本质上仍然是自回归 LM ,这个跟模型具体怎么实现有关系。ELMO 是做了两个方向 ( 从左到右以及从右到左两个方向的语言模型 ) ,但是是分别有两个方向的自回归 LM ,然后把 LSTM 的两个方向的隐节点状态拼接到一起,来体现双向语言模型这个事情的。所以其实是两个自回归语言模型的拼接,本质上仍然是自回归语言模型。
自回归语言模型有优点有缺点,缺点是只能利用上文或者下文的信息,不能同时利用上文和下文的信息,当然,貌似 ELMO 这种双向都做,然后拼接看上去能够解决这个问题,因为融合模式过于简单,所以效果其实并不是太好。它的优点,其实跟下游 NLP 任务有关,比如生成类 NLP 任务,比如文本摘要,机器翻译等,在实际生成内容的时候,就是从左向右的,自回归语言模型天然匹配这个过程。而 Bert 这种 DAE 模式,在生成类 NLP 任务中,就面临训练过程和应用过程不一致的问题,导致生成类的 NLP 任务到目前为止都做不太好。
自编码语言模型 ( Autoencoder LM )
自回归语言模型只能根据上文预测下一个单词,或者反过来,只能根据下文预测前面一个单词。相比而言,Bert 通过在输入 X 中随机 Mask 掉一部分单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被 Mask 掉的单词,如果你对 Denoising Autoencoder 比较熟悉的话,会看出,这确实是典型的 DAE 的思路。那些被 Mask 掉的单词就是在输入侧加入的所谓噪音。类似Bert这种预训练模式,被称为 DAE LM 。
这种 DAE LM 的优缺点正好和自回归 LM 反过来,它能比较自然地融入双向语言模型,同时看到被预测单词的上文和下文,这是好处。缺点是啥呢?主要在输入侧引入 [Mask] 标记,导致预训练阶段和 Fine-tuning 阶段不一致的问题,因为 Fine-tuning 阶段是看不到 [Mask] 标记的。DAE 吗,就要引入噪音,[Mask] 标记就是引入噪音的手段,这个正常。
XLNet 的出发点就是:能否融合自回归 LM 和 DAE LM 两者的优点。就是说如果站在自回归 LM 的角度,如何引入和双向语言模型等价的效果;如果站在 DAE LM 的角度看,它本身是融入双向语言模型的,如何抛掉表面的那个 [Mask] 标记,让预训练和 Fine-tuning 保持一致。当然,XLNet 还讲到了一个 Bert 被 Mask 单词之间相互独立的问题,我相信这个不太重要,原因后面会说。当然,我认为这点不重要的事情,纯粹是个人观点,出错难免,看看就完了,不用较真。
XLNet 做了些什么
上文说过,Bert 这种自编码语言模型的好处是:能够同时利用上文和下文,所以信息利用充分。对于很多 NLP 任务而言,典型的比如阅读理解,在解决问题的时候,是能够同时看到上文和下文的,所以当然应该把下文利用起来。在 Bert 原始论文中,与 GPT1.0 的实验对比分析也可以看出来,BERT 相对 GPT 1.0 的性能提升,主要来自于双向语言模型与单向语言模型的差异。这是 Bert 的好处,很明显,Bert 之后的改进模型,如果不能把双向语言模型用起来,那明显是很吃亏的。当然,GPT 2.0 的作者不信这个邪,坚持沿用 GPT 1.0 单向语言模型的旧瓶,装进去了更高质量更大规模预训练数据的新酒,而它的实验结果也说明了,如果想改善预训练语言模型,走这条扩充预序列模型训练数据的路子,是个多快好但是不省钱的方向。这也进一步说明了,预训练 LM 这条路,还远远没有走完,还有很大的提升空间,比如最简单的提升方法就是加大数据规模,提升数据质量。
但是 Bert 的自编码语言模型也有对应的缺点,就是 XLNet 在文中指出的,第一个预训练阶段因为采取引入 [Mask] 标记来 Mask 掉部分单词的训练模式,而 Fine-tuning 阶段是看不到这种被强行加入的 Mask 标记的,所以两个阶段存在使用模式不一致的情形,这可能会带来一定的性能损失;另外一个是,Bert 在第一个预训练阶段,假设句子中多个单词被 Mask 掉,这些被 Mask 掉的单词之间没有任何关系,是条件独立的,而有时候这些单词之间是有关系的,XLNet 则考虑了这种关系(关于这点原因是否可靠,后面会专门分析)。
上面两点是 XLNet 在第一个预训练阶段,相对 Bert 来说要解决的两个问题。
其实从另外一个角度更好理解 XLNet 的初衷和做法,我觉得这个估计是 XLNet 作者真正的思考出发点,是啥呢?就是说自回归语言模型有个缺点,要么从左到右,要么从右到左,尽管可以类似 ELMO 两个都做,然后再拼接的方式。但是跟 Bert 比,效果明显不足够好(这里面有 RNN 弱于 Transformer 的因素,也有双向语言模型怎么做的因素)。那么,能不能类似 Bert 那样,比较充分地在自回归语言模型中,引入双向语言模型呢?因为 Bert 已经证明了这是非常关键的一点。这一点,想法简单,但是看上去貌似不太好做,因为从左向右的语言模型,如果我们当前根据上文,要预测某个单词 Ti ,那么看上去它没法看到下文的内容。具体怎么做才能让这个模型:看上去仍然是从左向右的输入和预测模式,但是其实内部已经引入了当前单词的下文信息呢?XLNet 在模型方面的主要贡献其实是在这里。
那么 XLNet 是怎么做到这一点的呢?其实思路也比较简洁,可以这么思考:XLNet 仍然遵循两阶段的过程,第一个阶段是语言模型预训练阶段;第二阶段是任务数据 Fine-tuning 阶段。它主要希望改动第一个阶段,就是说不像 Bert 那种带 Mask 符号的 Denoising-autoencoder 的模式,而是采用自回归 LM 的模式。就是说,看上去输入句子 X 仍然是自左向右的输入,看到 Ti 单词的上文 Context_before ,来预测 Ti 这个单词。但是又希望在 Context_before 里,不仅仅看到上文单词,也能看到 Ti 单词后面的下文 Context_after 里的下文单词,这样的话,Bert 里面预训练阶段引入的 Mask 符号就不需要了,于是在预训练阶段,看上去是个标准的从左向右过程,Fine-tuning 当然也是这个过程,于是两个环节就统一起来。当然,这是目标。剩下是怎么做到这一点的问题。
那么,怎么能够在单词 Ti 的上文中 Contenxt_before 中揉入下文 Context_after 的内容呢?你可以想想。XLNet 是这么做的,在预训练阶段,引入 Permutation Language Model 的训练目标。什么意思呢?就是说,比如包含单词 Ti 的当前输入的句子 X ,由顺序的几个单词构成,比如 x1,x2,x3,x4 四个单词顺序构成。我们假设,其中,要预测的单词 Ti 是 x3 ,位置在 Position 3 ,要想让它能够在上文 Context_before 中,也就是 Position 1 或者 Position 2 的位置看到 Position 4 的单词 x4 。可以这么做:假设我们固定住 x3 所在位置,就是它仍然在 Position 3 ,之后随机排列组合句子中的4个单词,在随机排列组合后的各种可能里,再选择一部分作为模型预训练的输入 X 。比如随机排列组合后,抽取出 x4,x2,x3,x1 这一个排列组合作为模型的输入 X 。于是,x3 就能同时看到上文 x2 ,以及下文 x4 的内容了。这就是 XLNet 的基本思想,所以说,看了这个就可以理解上面讲的它的初衷了吧:看上去仍然是个自回归的从左到右的语言模型,但是其实通过对句子中单词排列组合,把一部分 Ti 下文的单词排到 Ti 的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是从左到右在预测后一个单词。
当然,上面讲的仍然是基本思想。难点其实在于具体怎么做才能实现上述思想。首先,需要强调一点,尽管上面讲的是把句子 X 的单词排列组合后,再随机抽取例子作为输入,但是,实际上你是不能这么做的,因为 Fine-tuning 阶段你不可能也去排列组合原始输入。所以,就必须让预训练阶段的输入部分,看上去仍然是 x1,x2,x3,x4 这个输入顺序,但是可以在 Transformer 部分做些工作,来达成我们希望的目标。具体而言,XLNet 采取了 Attention 掩码的机制,你可以理解为,当前的输入句子是 X ,要预测的单词 Ti 是第 i 个单词,前面1到 i-1 个单词,在输入部分观察,并没发生变化,该是谁还是谁。但是在 Transformer 内部,通过 Attention 掩码,从 X 的输入单词里面,也就是 Ti 的上文和下文单词中,随机选择 i-1 个,放到 Ti 的上文位置中,把其它单词的输入通过 Attention 掩码隐藏掉,于是就能够达成我们期望的目标(当然这个所谓放到 Ti 的上文位置,只是一种形象的说法,其实在内部,就是通过 Attention Mask ,把其它没有被选到的单词 Mask 掉,不让它们在预测单词 Ti 的时候发生作用,如此而已。看着就类似于把这些被选中的单词放到了上文 Context_before 的位置了)。具体实现的时候,XLNet 是用“双流自注意力模型”实现的,细节可以参考论文,但是基本思想就如上所述,双流自注意力机制只是实现这个思想的具体方式,理论上,你可以想出其它具体实现方式来实现这个基本思想,也能达成让Ti看到下文单词的目标。

这里简单说下“双流自注意力机制”,一个是内容流自注意力,其实就是标准的 Transformer 的计算过程;主要是引入了 Query 流自注意力,这个是干嘛的呢?其实就是用来代替 Bert 的那个 [Mask] 标记的,因为 XLNet 希望抛掉 [Mask] 标记符号,但是比如知道上文单词 x1,x2 ,要预测单词 x3 ,此时在 x3 对应位置的 Transformer 最高层去预测这个单词,但是输入侧不能看到要预测的单词 x3 ,Bert 其实是直接引入 [Mask] 标记来覆盖掉单词 x3 的内容的,等于说 [Mask] 是个通用的占位符号。而 XLNet 因为要抛掉 [Mask] 标记,但是又不能看到 x3 的输入,于是 Query 流,就直接忽略掉 x3 输入了,只保留这个位置信息,用参数 w 来代表位置的 embedding 编码。其实 XLNet 只是扔了表面的 [Mask] 占位符号,内部还是引入 Query 流来忽略掉被 Mask 的这个单词。和 Bert 比,只是实现方式不同而已。
上面说的 Attention 掩码,我估计你还是没了解它的意思,我再用例子解释一下。Attention Mask 的机制,核心就是说,尽管当前输入看上去仍然是 x1->x2->x3->x4 ,但是我们已经改成随机排列组合的另外一个顺序 x3->x2->x4->x1 了,如果用这个例子用来从左到右训练 LM ,意味着当预测 x2 的时候,它只能看到上文 x3 ;当预测 x4 的时候,只能看到上文 x1 和 x2 ,以此类推……这样,比如对于 x2 来说,就看到了下文 x3 了。这种在输入侧维持表面的 X 句子单词顺序,但是其实在 Transformer 内部,看到的已经是被重新排列组合后的顺序,是通过 Attention 掩码来实现的。如上图所示,输入看上去仍然是 x1,x2,x3,x4 ,可以通过不同的掩码矩阵,让当前单词 Xi 只能看到被排列组合后的顺序 x3->x2->x4->x1 中自己前面的单词。这样就在内部改成了被预测单词同时看到上下文单词,但是输入侧看上去仍然维持原先的单词顺序了。关键要看明白上图右侧那个掩码矩阵,我相信很多人刚开始没看明白,因为我刚开始也没看明白,因为没有标出掩码矩阵的单词坐标,它的坐标是1-2-3-4,就是表面那个 X 的单词顺序,通过掩码矩阵,就能改成你想要的排列组合,并让当前单词看到它该看到的所谓上文,其实是掺杂了上文和下文的内容。这是 attention mask 来实现排列组合的背后的意思。
上面讲的 Permutation Language Model 是 XLNet 的主要理论创新,所以介绍的比较多,从模型角度讲,这个创新还是挺有意思的,因为它开启了自回归语言模型如何引入下文的一个思路,相信对于后续工作会有启发。当然,XLNet 不仅仅做了这些,它还引入了其它的因素,也算是一个当前有效技术的集成体。感觉 XLNet 就是 Bert、GPT 2.0 和 Transformer XL 的综合体变身,首先,它通过 PLM 预训练目标,吸收了 Bert 的双向语言模型;然后,GPT2.0 的核心其实是更多更高质量的预训练数据,这个明显也被 XLNet 吸收进来了;再然后,Transformer XL 的主要思想也被吸收进来,它的主要目标是解决 Transformer 对于长文档 NLP 应用不够友好的问题。
以上是 XLNet 的几个主要改进点,有模型创新方面的,有其它模型引入方面的,也有数据扩充方面的。那么,这些因素各自起到了什么作用呢?在后面我们会谈。在谈不同因素各自作用之前,我们先分析下 XLNet 和 Bert 的异同问题。
与 Bert 的预训练过程的异同问题
尽管看上去,XLNet 在预训练机制引入的 Permutation Language Model 这种新的预训练目标,和 Bert 采用 Mask 标记这种方式,有很大不同。其实你深入思考一下,会发现,两者本质是类似的。区别主要在于:Bert 是直接在输入端显示地通过引入 Mask 标记,在输入侧隐藏掉一部分单词,让这些单词在预测的时候不发挥作用,要求利用上下文中其它单词去预测某个被 Mask 掉的单词;而 XLNet 则抛弃掉输入侧的 Mask 标记,通过 Attention Mask 机制,在 Transformer 内部随机 Mask 掉一部分单词(这个被 Mask 掉的单词比例跟当前单词在句子中的位置有关系,位置越靠前,被 Mask 掉的比例越高,位置越靠后,被 Mask 掉的比例越低),让这些被 Mask 掉的单词在预测某个单词的时候不发生作用。所以,本质上两者并没什么太大的不同,只是 Mask 的位置,Bert 更表面化一些,XLNet 则把这个过程隐藏在了 Transformer 内部而已。这样,就可以抛掉表面的 [Mask] 标记,解决它所说的预训练里带有 [Mask] 标记导致的和 Fine-tuning 过程不一致的问题。至于说 XLNet 说的,Bert 里面被 Mask 掉单词的相互独立问题,也就是说,在预测某个被 Mask 单词的时候,其它被 Mask 单词不起作用,这个问题,你深入思考一下,其实是不重要的,因为 XLNet 在内部 Attention Mask 的时候,也会 Mask 掉一定比例的上下文单词,只要有一部分被 Mask 掉的单词,其实就面临这个问题。而如果训练数据足够大,其实不靠当前这个例子,靠其它例子,也能弥补被 Mask 单词直接的相互关系问题,因为总有其它例子能够学会这些单词的相互依赖关系。
我相信,通过改造 Bert 的预训练过程,其实是可以模拟 XLNet 的 Permutation Language Model 过程的:Bert 目前的做法是,给定输入句子 X ,随机 Mask 掉15%的单词,然后要求利用剩下的85%的单词去预测任意一个被 Mask 掉的单词,被 Mask 掉的单词在这个过程中相互之间没有发挥作用。如果我们把 Bert 的预训练过程改造成:对于输入句子,随机选择其中任意一个单词 Ti ,只把这个单词改成 Mask 标记,假设 Ti 在句子中是第 i 个单词,那么此时随机选择 X 中的任意 i 个单词,只用这 i 个单词去预测被 Mask 掉的单词。当然,这个过程理论上也可以在 Transformer 内采用 attention mask 来实现。如果是这样,其实 Bert 的预训练模式就和 XLNet 是基本等价的了。
或者换个角度思考,假设仍然利用 Bert 目前的 Mask 机制,但是把 Mask 掉15%这个条件极端化,改成,每次一个句子只 Mask 掉一个单词,利用剩下的单词来预测被 Mask 掉的单词。那么,这个过程其实跟 XLNet 的 PLM 也是比较相像的,区别主要在于每次预测被 Mask 掉的单词的时候,利用的上下文更多一些(XLNet 在实现的时候,为了提升效率,其实也是选择每个句子最后末尾的 1/K 单词被预测,假设 K=7 ,意味着一个句子 X ,只有末尾的 1/7 的单词会被预测,这意味着什么呢?意味着至少保留了 6/7 的 Context 单词去预测某个单词,对于最末尾的单词,意味着保留了所有的句子中 X 的其它单词,这其实和上面提到的 Bert 只保留一个被 Mask 单词是一样的)。或者我们站在 Bert 预训练的角度来考虑 XLNet ,如果 XLNet 改成对于句子 X ,只需要预测句子中最后一个单词,而不是最后的 1/K ( 就是假设 K 特别大的情况 ) ,那么其实和 Bert 每个输入句子只 Mask 掉一个单词,两者基本是等价的。
当然,XLNet 这种改造,维持了表面看上去的自回归语言模型的从左向右的模式,这个 Bert 做不到,这个有明显的好处,就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息。所以看上去,XLNet 貌似应该对于生成类型的 NLP 任务,会比 Bert 有明显优势。另外,因为 XLNet 还引入了 Transformer XL 的机制,所以对于长文档输入类型的 NLP 任务,也会比 Bert 有明显优势。
哪些因素在起作用?
如上分析,XLNet 有个好处,但是感觉同时也是个问题,那就是:XLNet 其实同时引入了很多因素在模型里。说是好处,因为实验证明了这样效果确实好,即使是跟 Bert_Large 这种非常强的基准模型比也是,尤其是长文档任务,这个效果提升比较明显;说是问题,是因为其实应该在实验部分充分说明,如果模型起了作用,这些因素各自发挥了多大作用,尤其是在跟 Bert 进行对比的时候,感觉应该把数据规模这个变量磨平进行比较,因为这才是单纯的模型差异导致的性能差异,而不是训练数据量引发的差异。当然,XLNet 最后一组实验是把这个预训练数据规模差异磨平后,和 Bert 比较的,所以信息含量更大些。而前面的几组实验,因为天然存在预训练数据量的差异,所以模型导致的差异到底有多大,看得不太明显。引入了 Transformer-XL 的主要思路:相对位置编码以及分段 RNN 机制。实践已经证明这两点对于长文档任务是很有帮助的。
我们上文提到过,XLNet 起作用的,如果宏观归纳一下,共有三个因素;
1. 与 Bert 采取 De-noising Autoencoder 方式不同的新的预训练目标:Permutation Language Model ( 简称 PLM ) ;这个可以理解为在自回归 LM 模式下,如何采取具体手段,来融入双向语言模型。这个是 XLNet 在模型角度比较大的贡献,确实也打开了 NLP 中两阶段模式潮流的一个新思路。
2. 引入了 Transformer-XL 的主要思路:相对位置编码以及分段 RNN 机制。实践已经证明这两点对于长文档任务是很有帮助的;
加大增加了预训练阶段使用的数据规模;Bert 使用的预训练数据是 BooksCorpus 和英文 Wiki 数据,大小 13G 。XLNet 除了使用这些数据外,另外引入了 Giga5,ClueWeb 以及 Common Crawl 数据,并排掉了其中的一些低质量数据,大小分别是 16G,19G 和 78G 。可以看出,在预训练阶段极大扩充了数据规模,并对质量进行了筛选过滤。这个明显走的是 GPT2.0 的路线。
所以实验部分需要仔细分析,提升到底是上述哪个因素或者是哪几个因素导致的性能提升?
我们把实验分成几个部分来分析。
首先,给人最大的印象是:XLNet 对于阅读理解类任务,相对 Bert ,性能有极大幅度地提升。下面是论文报道的实验结果:
其中,RACE 和 SQuAD 2.0 是文档长度较长的阅读理解任务,任务难度也相对高。可以看出,在这两个任务中,XLNet 相对 Bert_Large ,确实有大幅性能提升 ( Race 提升13.5%,SQuAD 2.0 F1 指标提升8.6 ) 。在 Squad1.1 上提升尽管稍微小些,F1 提升3.9%,但是因为基准高,所以提升也比较明显。

说 XLNet 在阅读理解,尤其是长文档的阅读理解中,性能大幅超过 Bert ,这个是没疑问的。但是,因为 XLNet 融入了上文说的三个因素,所以不确定每个因素在其中起的作用有多大,而对于长文档,Transformer XL 的引入肯定起了比较大的作用,Bert 天然在这种类型任务中有缺点,其它两类因素的作用不清楚。感觉这里应该增加一个基准,就是 Bert 用与 XLNet 相同大小的预训练数据做,这样抹平数据量差异,更好比较模型差异带来的效果差异。当然,我觉得即使是这样,XLNet 应该仍然是比 Bert 效果好的,只是可能不会差距这么大,因为 XLNet 的长文档优势肯定会起作用。
下面我们看下其它类型的 NLP 任务。
GLUE 是个综合的 NLP 任务集合,包含各种类型的任务,因为 ensemble 模式里面包含了各种花式的 trick ,所以重点看上面一组实验,这里比较单纯。从实验数据看,XLNet 相对 Bert 也有性能提升,当然不像阅读理解提升那么大,而且性能提升比较大的集中在 RTE ,MNLI 和 COLA 数据集合,其它任务提升效果还好。而我一直觉得,RTE 在 GLUE 里,是个神奇的存在,如果没有它,很多论文的效果可能没法看,这个是闲话,先不讲了,后面我会单说。
当然,仍然不确定这种性能提升主要来自于 XLNet 的哪个因素,或者哪几个因素各自的贡献,尤其是如果 Bert 加大预训练数据规模后,两者性能差异有多大。感觉这里 Transformer XL 的因素可能发挥的作用不会太大,其它两个因素在起作用,但是作用未知,这里感觉应该补充其它实验。
上面是文本分类任务和信息检索任务,可以看出,相对 Bert,XLNet 效果有提升,但是幅度不算大。仍然是上面的考虑,起作用的三个因素,到底哪个发挥多大作用,从数据方面看不太出来。
下面一组实验可以仔细分析一下,这组实验是排除掉上述第三个数据规模因素的实验的对比,就是说 XLNet 用的是和 Bert 相同规模的预训练数据,所以与 Bert 对比更具备模型方面的可比较性,而没有数据规模的影响。实验结果如下:
如果仔细分析实验数据,实验结果说明:
因为和 Bert 比较,XLNet 使用相同的预训练数据。所以两者的性能差异来自于:Permutation Language Model 预训练目标以及 Transformer XL 的长文档因素。而从中可以看出,DAE+Transformer XL 体现的是长文档因素的差异,和 Bert 比,Race 提升1个点,SQuAD F1 提升3个点,MNLI 提升0.5个点,SST-2 性能稍微下降。这是 Transformer XL 因素解决长文档因素带来的收益,很明显,长文档阅读理解任务提升比较明显,其它任务提升不太明显。
而通过 XLNet 进一步和 DAE+Transformer XL 及 Bert 比,这一点应该拆解出 Permutation Language Model 和 Mask 的方式差异。可以看出:XLNet 相对 DAE+Transformer XL 来说,Race 进一步提升1个点左右;SQuAD 进一步提升1.8个点左右,NMLI 提升1个点左右,SST-B 提升不到1个点。虽然不精准,但是大致是能说明问题的,这个应该大致是 PLM 带来的模型收益。可以看出,PLM 还是普遍有效的,但是提升幅度并非特别巨大。
如果我们结合前面 Race 和 SQuAD 的实验结果看(上面两组实验是三个因素的作用,后面是排除掉数据量差异的结果,所以两者的差距,很可能就是第三个因素:数据规模导致的差异,当然,因为一个是 Bert_base ,一个是 Bert_Large ,所以不具备完全可比性,但是大致估计不会偏离真实结论太远),Race 数据集合三因素同时具备的 XLNet ,超过 Bert 绝对值大约9个多百分点,Transformer 因素 +PLM 因素估计贡献大约在2到4个点之间,那么意味着预训练数据量导致的差异大概在4到5个点左右;类似的,可以看出,SQuAD 2.0 中,预训练数据量导致的差异大约在2到3个点左右,也就是说,估计训练数据量带来的提升,在阅读理解任务中大约占比30%到40%左右。
如果从实验结果归纳一下的话,可以看出:XLNet 综合而言,效果是优于 Bert 的,尤其是在长文档类型任务,效果提升明显。如果进一步拆解的话,因为对比实验不足,只能做个粗略的结论:预训练数据量的提升,大概带来30%左右的性能提升,其它两个模型因素带来剩余的大约70%的性能提升。当然,这个主要指的是 XLNet 性能提升比较明显的阅读理解类任务而言。对于其它类型任务,感觉 Transformer XL 的因素贡献估计不会太大,主要应该是其它两个因素在起作用。
对 NLP 应用任务的影响
XLNet 其实本质上还是 ELMO/GPT/Bert 这一系列两阶段模型的进一步延伸。在将自回归 LM 方向引入双向语言模型方面,感觉打开了一个新思路,这点还是非常对人有启发的。当然,如果深入思考,其实和 Bert 并没有太大的不同。
如果让我推论下 XLNet 的出现,对后续 NLP 工作的影响,我觉得跟 Bert 比,最直接的影响应该有两个,一个是对于 Bert 长文档的应用,因为 Transformer 天然对长文档任务处理有弱点,所以 XLNet 对于长文档 NLP 任务相比 Bert 应该有直接且比较明显的性能提升作用,它在论文中也证明了这点。所以,以后长文档类型的 NLP 应用,XLNet 明显跟 Bert 比占优势。当然,你说我把 Transformer XL 的因素引入 Bert ,然后继续在 Bert 上做改进,明显这也是可以的。
第二点,对于生成类的 NLP 任务,到目前为止,尽管出了一些改进模型,但是从效果看,Bert 仍然不能很好地处理。而因为 XLNet 的预训练模式天然符合下游任务序列生成结果,所以按理说能够直接通过引入 XLNet 来改进生成类 NLP 任务的效果。所以,这点估计是 XLNet 会明显占优势的一个领域。
可以预计的是,很快我们就会看到 XLNet 在文本摘要,机器翻译,信息检索…..等符合上述 XLNet 应用领域特点和优势领域的应用结果,以及在这些任务上的进一步改进模型。当然,这个有点比手速的意思,有意者请尽快动手把结果扔出来。
又给你了一个拼手速的机会,加油吧,少年!
作者介绍:
张俊林,中国中文信息学会理事,中科院软件所博士。目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届优秀图书奖)、《大数据日知录:架构与算法》的作者。
内部信息源与外部源搜索引擎优化方法的异同
网站优化 • 优采云 发表了文章 • 0 个评论 • 85 次浏览 • 2022-07-26 19:08
内部信息源与外部信息源搜索引擎优化方法的异同对我们的整体优化计划有着非常重要的影响,下面我们就来对它们分别做一个分析。本文分为三步说明信息源与外部信息源搜索引擎优化方法的异同。第一步:确定作为参考的信息源对搜索引擎优化有没有重要的影响一般来说,由于搜索引擎受谷歌seo规则影响,它主要是取决于谷歌seo规则的适应性,如果谷歌seo规则适应度低,谷歌就不会采用或者没有可采用的检索方式来告诉你在搜索引擎上只能取这些信息(即不能采用中文来进行检索),而与之相比较,在seo模型中的其他模块,如网站托管、搜索引擎优化等模块都是对网站的整体优化起到推动作用的,都可以来使得网站的整体形象与质量更高一些。
因此,我们在优化一个网站的时候,一般而言,优化思路总是以指导给谷歌seo规则适当的引导为目标来进行整体优化的。第二步:由某个页面或全部页面,快速搜寻到公司的网址如果您在某一个页面或所有页面上,均可以轻松的找到我们的网址,那么这样的信息源就是比较好的搜索引擎优化方法。第三步:找到与产品相关性较高的网址(至少是与其产品相关)大多数的搜索引擎优化方法都不允许从谷歌搜索引擎结果中直接寻找企业网址,就算你已经在谷歌优化很久了。
因此,您必须在为公司的网站提供关于你公司产品的信息时,找到与该产品相关性较高的网址,以方便将来提供该产品的相关信息(根据搜索引擎优化规则,如果你的公司曾经在其他百度搜索引擎有过相关网址,那么就请使用自己的百度网址导航站以方便其他的搜索引擎在搜索这个搜索时得到更精确、更有价值的信息)。另外,我们也需要在谷歌搜索引擎检索网站时,不能仅仅以谷歌的网址导航来搜索,还要结合谷歌seo的标准与谷歌的算法是否按照相关性来进行排名。
寻找对公司网站影响最大的主要权威,名人甚至明星网站上。大家可以通过搜索您网站的标题来搜索对该网站有效的关键词,看看哪些词汇让我们的企业搜索引擎排名上升。特别提醒:如果你的网站的搜索引擎排名不怎么样,我们尽量不要在百度平台进行长期的优化;而在国内做seo优化对于谷歌的利用率要高得多,如果我们必须去谷歌优化而不可能使用百度,那么我们可以考虑通过加速搜索引擎优化方法来提高我们的谷歌排名。
以上只是给大家一个参考,真正实施的时候还是需要根据实际情况来定。——本文由千禾网络成都分公司根据多年的互联网优化经验所写。专注于网站seo的专业团队,积累了丰富的谷歌seo优化经验。我们希望更多的有能力的公司都能利用我们的资源为网站和搜索引擎做好推广。 查看全部
内部信息源与外部源搜索引擎优化方法的异同
内部信息源与外部信息源搜索引擎优化方法的异同对我们的整体优化计划有着非常重要的影响,下面我们就来对它们分别做一个分析。本文分为三步说明信息源与外部信息源搜索引擎优化方法的异同。第一步:确定作为参考的信息源对搜索引擎优化有没有重要的影响一般来说,由于搜索引擎受谷歌seo规则影响,它主要是取决于谷歌seo规则的适应性,如果谷歌seo规则适应度低,谷歌就不会采用或者没有可采用的检索方式来告诉你在搜索引擎上只能取这些信息(即不能采用中文来进行检索),而与之相比较,在seo模型中的其他模块,如网站托管、搜索引擎优化等模块都是对网站的整体优化起到推动作用的,都可以来使得网站的整体形象与质量更高一些。

因此,我们在优化一个网站的时候,一般而言,优化思路总是以指导给谷歌seo规则适当的引导为目标来进行整体优化的。第二步:由某个页面或全部页面,快速搜寻到公司的网址如果您在某一个页面或所有页面上,均可以轻松的找到我们的网址,那么这样的信息源就是比较好的搜索引擎优化方法。第三步:找到与产品相关性较高的网址(至少是与其产品相关)大多数的搜索引擎优化方法都不允许从谷歌搜索引擎结果中直接寻找企业网址,就算你已经在谷歌优化很久了。
因此,您必须在为公司的网站提供关于你公司产品的信息时,找到与该产品相关性较高的网址,以方便将来提供该产品的相关信息(根据搜索引擎优化规则,如果你的公司曾经在其他百度搜索引擎有过相关网址,那么就请使用自己的百度网址导航站以方便其他的搜索引擎在搜索这个搜索时得到更精确、更有价值的信息)。另外,我们也需要在谷歌搜索引擎检索网站时,不能仅仅以谷歌的网址导航来搜索,还要结合谷歌seo的标准与谷歌的算法是否按照相关性来进行排名。

寻找对公司网站影响最大的主要权威,名人甚至明星网站上。大家可以通过搜索您网站的标题来搜索对该网站有效的关键词,看看哪些词汇让我们的企业搜索引擎排名上升。特别提醒:如果你的网站的搜索引擎排名不怎么样,我们尽量不要在百度平台进行长期的优化;而在国内做seo优化对于谷歌的利用率要高得多,如果我们必须去谷歌优化而不可能使用百度,那么我们可以考虑通过加速搜索引擎优化方法来提高我们的谷歌排名。
以上只是给大家一个参考,真正实施的时候还是需要根据实际情况来定。——本文由千禾网络成都分公司根据多年的互联网优化经验所写。专注于网站seo的专业团队,积累了丰富的谷歌seo优化经验。我们希望更多的有能力的公司都能利用我们的资源为网站和搜索引擎做好推广。
是谁给你的自信,让你上网搜索一下就觉得“我啥都懂”的?
网站优化 • 优采云 发表了文章 • 0 个评论 • 83 次浏览 • 2022-06-30 22:26
现在,只要求助于万能的互联网,很多问题都可以轻松地找到答案。不过,这样便捷的手段也可能带来一些负面作用。发表在《实验心理学杂志:综合版》(Journal of Experimental Psychology: General)的一项研究[1]就发现,在使用互联网搜索之后,人们可能会产生“掌握知识”的错觉,从而对自己的能力产生过高的估计。
依赖互联网,对我们的记忆是好是坏?图片来源:
互联网:
史上最好记忆搭档
在一个相互合作的团队当中,人们对信息的处理方式会与单枪匹马时有所不同。合作者们会共同组成交互记忆系统(transactive memory systems)——每个人都只需要掌握一部分知识或技能,然后彼此互相依赖,在需要时进行信息交换即可。在这样的系统中,人们需要拥有两种记忆:内部记忆(“我知道些什么”)和外部记忆(“谁知道什么”)。拥有这两种记忆,人们就能够在团队中贡献自己的力量,并且高效地获取外部信息来解决问题。
而随着科技的发展,交互记忆系统也加入了新的成员。除了人与人之外,人与互联网等外部信息来源之间也可以建立类似的关系。互联网上的信息非常丰富,检索起来也异常便捷,这使得它一跃成为了人类最全能的记忆交互搭档。
不仅如此,互联网还是个“甘于奉献不求回报”的队友。和它一起工作时,人们可以不用给自己分配任何内部记忆的任务,只需要记住搜索方法,剩下的任务就都可以交给互联网了。这些特性也使得人们越来越依赖互联网强大的工作能力,减少了自己储存知识的过程。互联网上的信息检索正在改变人们的思维方式,我们所记住的只是找到信息的方法,而对知识本身的记忆则随之减少[2]。
好搭档带来的
认识偏差
除了改变人们的记忆方式之外,便捷的互联网工具也可能让我们对自己的知识储备产生认识上的偏差。有学者指出,使用互联网查找答案会使人产生一种“我也拥有这些知识”的错觉。
试想,当你想要了解一个学术问题的答案时,去图书馆寻找可能是一个相对漫长而痛苦的过程。这个漫长的过程时刻提醒着你“我并不知道这个问题的答案,所以我要寻找”。而在网上,只要输入关键词,你想要的答案可能立即就会呈现在你眼前。这样轻松获得详尽答案的过程并不是一个“自然”的过程,人们可能会因此将搜索到的知识与自己的内部记忆“合并”,产生自己懂得这些知识的错觉。
为了验证这一设想,耶鲁大学的心理学研究者设计了一系列实验。
首先,研究者找来202名被试,把他们分成了“有网组”和“无网组”。两组被试都要回答一组自然科学类小问题(例如“打火机是如何工作的”),不同的是“有网组”可以上网检索帮助答题,而“无网组”只能靠自己既有的知识进行回答。在答题之后,研究者又给出了一些其他不相干领域的题目,要求被试预测自己回答这些问题的表现。
实验结果发现,使用了互联网的被试在不相干的领域也表现出了显著高于“无网组”的自信。有意思的是,即使研究者给“无网组”被试看过“有网组”被试可以查到的资料之后,上述差异依然存在。由此看来,上网搜索似乎确实让人们产生了自己“更有学问”的错觉。
你的许多信息, 是不是已经存在云端了?然后你就忘了。图片来源:
为了确保结果可靠,研究者们又改变评估方式重新进行了实验,并特意提醒被试在预测答题能力时“不要考虑任何外部资源”。而这一次的实验结果依然相同:“有网组”被试依然相信自己拥有更多的知识,可以更好地回答各种问题。
错觉从何而来?
那么,产生这种现象的原因究竟是什么?是人们真的产生了对知识储备的错觉,还是有其他影响因素?对此,研究者提出了若干种假设。
首先,研究者提出,互联网的运用或许并不是影响了人们对知识储备的认识,而是带来了全面的自信心提升。不过,后续的研究发现,在知识性问题以外的方面,两组被试对答题能力的预测并没有差别。对于那些不能在互联网上找到答案的问题,被试的自我认知并没有发生膨胀。
此后,研究者将注意力转移到了“主动寻找答案”这个过程上。在实验中,“有网组”被试可以主动地上网搜索,而“无网组”一直被动地接受材料,这或许就是造成差异的原因。于是,研究者又重新设计了实验:他们让“无网组”被试也上网获取答案,但他们不需要自己搜索,而是可以直接获取包含答案的网站链接。实验结果显示,“有网组”被试对自己知识储备的评价再一次超过了“无网组”。在此之后,研究者又对实验中的搜索引擎动了手脚——一组被试所用的搜索引擎会将结果完全屏蔽,而另一组只能搜到近一周公布的信息。结果发现,即使是在搜索中遇到困难的被试,他们对自身知识的评价也会显著高于没有经过检索的人。
至此,研究者已经对1712名被试进行了一系列实验,他们终于得出了自己的结论——在使用互联网时,人们主动搜索信息的过程会使他们高估了自己的知识储备和答题能力。
我们如何理解
这项漫长的研究?
不能否认,我们已将互联网当作亲密无间的“记忆伙伴”,而这项研究也提醒我们,互联网可能使我们产生“掌握知识”的错觉。
在互联网之前,人们也会依赖书籍、专家来进行信息的交互。但是这些资源并不是立即可得的。而互联网的便捷性、信息的广泛性则模糊了内部和外部资源的边界,增强了对自我知识储备的错觉。
这一影响看似微不足道,却可能会在决策中产生致命影响。当我们在进行高风险决策时,正确评估自己的能力是十分重要的。错误的高估自己会导致过度自信,从而带来盲目的决定。诚然互联网有着数不清的优点,但在依赖它的同时,也有必要认真审视它对我们产生的影响。(编辑:窗敲雨)
参考资料:
Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.
一个AI
这种名为“我啥都懂”的疾病有三个阶段:
1,我搜到了,我就觉得我会了;
2,我知道去哪搜,我就觉得我会了;
3,我不懂,我也不知道怎么搜,但我就是觉得自己啥都会!
欢迎对号入座。
果壳网
ID:Guokr42
为什么这样的二维码也能扫出来?
长按它,向果壳发送【二维码】
获得答案!
本文来自果壳网,谢绝转载
如有需要请联系
(欢迎转发到朋友圈~) 查看全部
是谁给你的自信,让你上网搜索一下就觉得“我啥都懂”的?
现在,只要求助于万能的互联网,很多问题都可以轻松地找到答案。不过,这样便捷的手段也可能带来一些负面作用。发表在《实验心理学杂志:综合版》(Journal of Experimental Psychology: General)的一项研究[1]就发现,在使用互联网搜索之后,人们可能会产生“掌握知识”的错觉,从而对自己的能力产生过高的估计。
依赖互联网,对我们的记忆是好是坏?图片来源:
互联网:
史上最好记忆搭档
在一个相互合作的团队当中,人们对信息的处理方式会与单枪匹马时有所不同。合作者们会共同组成交互记忆系统(transactive memory systems)——每个人都只需要掌握一部分知识或技能,然后彼此互相依赖,在需要时进行信息交换即可。在这样的系统中,人们需要拥有两种记忆:内部记忆(“我知道些什么”)和外部记忆(“谁知道什么”)。拥有这两种记忆,人们就能够在团队中贡献自己的力量,并且高效地获取外部信息来解决问题。
而随着科技的发展,交互记忆系统也加入了新的成员。除了人与人之外,人与互联网等外部信息来源之间也可以建立类似的关系。互联网上的信息非常丰富,检索起来也异常便捷,这使得它一跃成为了人类最全能的记忆交互搭档。
不仅如此,互联网还是个“甘于奉献不求回报”的队友。和它一起工作时,人们可以不用给自己分配任何内部记忆的任务,只需要记住搜索方法,剩下的任务就都可以交给互联网了。这些特性也使得人们越来越依赖互联网强大的工作能力,减少了自己储存知识的过程。互联网上的信息检索正在改变人们的思维方式,我们所记住的只是找到信息的方法,而对知识本身的记忆则随之减少[2]。
好搭档带来的
认识偏差
除了改变人们的记忆方式之外,便捷的互联网工具也可能让我们对自己的知识储备产生认识上的偏差。有学者指出,使用互联网查找答案会使人产生一种“我也拥有这些知识”的错觉。
试想,当你想要了解一个学术问题的答案时,去图书馆寻找可能是一个相对漫长而痛苦的过程。这个漫长的过程时刻提醒着你“我并不知道这个问题的答案,所以我要寻找”。而在网上,只要输入关键词,你想要的答案可能立即就会呈现在你眼前。这样轻松获得详尽答案的过程并不是一个“自然”的过程,人们可能会因此将搜索到的知识与自己的内部记忆“合并”,产生自己懂得这些知识的错觉。
为了验证这一设想,耶鲁大学的心理学研究者设计了一系列实验。
首先,研究者找来202名被试,把他们分成了“有网组”和“无网组”。两组被试都要回答一组自然科学类小问题(例如“打火机是如何工作的”),不同的是“有网组”可以上网检索帮助答题,而“无网组”只能靠自己既有的知识进行回答。在答题之后,研究者又给出了一些其他不相干领域的题目,要求被试预测自己回答这些问题的表现。

实验结果发现,使用了互联网的被试在不相干的领域也表现出了显著高于“无网组”的自信。有意思的是,即使研究者给“无网组”被试看过“有网组”被试可以查到的资料之后,上述差异依然存在。由此看来,上网搜索似乎确实让人们产生了自己“更有学问”的错觉。
你的许多信息, 是不是已经存在云端了?然后你就忘了。图片来源:
为了确保结果可靠,研究者们又改变评估方式重新进行了实验,并特意提醒被试在预测答题能力时“不要考虑任何外部资源”。而这一次的实验结果依然相同:“有网组”被试依然相信自己拥有更多的知识,可以更好地回答各种问题。
错觉从何而来?
那么,产生这种现象的原因究竟是什么?是人们真的产生了对知识储备的错觉,还是有其他影响因素?对此,研究者提出了若干种假设。
首先,研究者提出,互联网的运用或许并不是影响了人们对知识储备的认识,而是带来了全面的自信心提升。不过,后续的研究发现,在知识性问题以外的方面,两组被试对答题能力的预测并没有差别。对于那些不能在互联网上找到答案的问题,被试的自我认知并没有发生膨胀。
此后,研究者将注意力转移到了“主动寻找答案”这个过程上。在实验中,“有网组”被试可以主动地上网搜索,而“无网组”一直被动地接受材料,这或许就是造成差异的原因。于是,研究者又重新设计了实验:他们让“无网组”被试也上网获取答案,但他们不需要自己搜索,而是可以直接获取包含答案的网站链接。实验结果显示,“有网组”被试对自己知识储备的评价再一次超过了“无网组”。在此之后,研究者又对实验中的搜索引擎动了手脚——一组被试所用的搜索引擎会将结果完全屏蔽,而另一组只能搜到近一周公布的信息。结果发现,即使是在搜索中遇到困难的被试,他们对自身知识的评价也会显著高于没有经过检索的人。
至此,研究者已经对1712名被试进行了一系列实验,他们终于得出了自己的结论——在使用互联网时,人们主动搜索信息的过程会使他们高估了自己的知识储备和答题能力。
我们如何理解
这项漫长的研究?
不能否认,我们已将互联网当作亲密无间的“记忆伙伴”,而这项研究也提醒我们,互联网可能使我们产生“掌握知识”的错觉。
在互联网之前,人们也会依赖书籍、专家来进行信息的交互。但是这些资源并不是立即可得的。而互联网的便捷性、信息的广泛性则模糊了内部和外部资源的边界,增强了对自我知识储备的错觉。
这一影响看似微不足道,却可能会在决策中产生致命影响。当我们在进行高风险决策时,正确评估自己的能力是十分重要的。错误的高估自己会导致过度自信,从而带来盲目的决定。诚然互联网有着数不清的优点,但在依赖它的同时,也有必要认真审视它对我们产生的影响。(编辑:窗敲雨)
参考资料:

Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.
一个AI
这种名为“我啥都懂”的疾病有三个阶段:
1,我搜到了,我就觉得我会了;
2,我知道去哪搜,我就觉得我会了;
3,我不懂,我也不知道怎么搜,但我就是觉得自己啥都会!
欢迎对号入座。
果壳网
ID:Guokr42
为什么这样的二维码也能扫出来?
长按它,向果壳发送【二维码】
获得答案!
本文来自果壳网,谢绝转载
如有需要请联系
(欢迎转发到朋友圈~)
如何进行内部信息源搜索引擎优化方法的异同简单来说
网站优化 • 优采云 发表了文章 • 0 个评论 • 101 次浏览 • 2022-06-26 06:00
内部信息源与外部信息源搜索引擎优化方法的异同简单来说的话,主要是需要进行互补。内部搜索引擎优化主要是想通过传播网页,或者图片,软文等形式吸引用户,进而有效的提高页面的点击量.而外部信息源,是通过上传页面链接等进行文字,图片甚至音频等形式对页面进行推广.当然,我们的目的也是为了提高页面的质量。他们两者的优缺点是不同的。
外部信息源:成本低,效果显著,但用户体验会受到影响。内部搜索引擎优化:成本低,但获得的回报不如外部信息源。如何进行内部搜索引擎优化?外部信息源:大部分在百度新闻源,大家可以查看搜狐新闻源,腾讯新闻源,各大门户网站搜索引擎都会在页面里面发布各种各样的文章.内部搜索引擎优化:在垂直网站发布文章,内容,影片,教程,文献,小说,文章,等内容。
这种策略对于一个网站进行排名,搜索引擎认可,会给网站建议度,分享度等等.对于seo新手来说,是一个好事,可以短时间内,快速积累一定量的内容。如何进行内部搜索引擎优化?准备:一个好的logo,主要说的就是网站名称,网站服务器,域名.网站本身要进行seo优化,必须要具备好的内部数据源.外部信息源:大部分在百度新闻源,大家可以查看搜狐新闻源,腾讯新闻源,各大门户网站搜索引擎都会在页面里面发布各种各样的文章.内部搜索引擎优化:在垂直网站发布文章,内容,影片,教程,文献,小说,文章,等内容。
这种策略对于一个网站进行排名,搜索引擎认可,会给网站建议度,分享度等等.对于seo新手来说,是一个好事,可以短时间内,快速积累一定量的内容。 查看全部
如何进行内部信息源搜索引擎优化方法的异同简单来说
内部信息源与外部信息源搜索引擎优化方法的异同简单来说的话,主要是需要进行互补。内部搜索引擎优化主要是想通过传播网页,或者图片,软文等形式吸引用户,进而有效的提高页面的点击量.而外部信息源,是通过上传页面链接等进行文字,图片甚至音频等形式对页面进行推广.当然,我们的目的也是为了提高页面的质量。他们两者的优缺点是不同的。

外部信息源:成本低,效果显著,但用户体验会受到影响。内部搜索引擎优化:成本低,但获得的回报不如外部信息源。如何进行内部搜索引擎优化?外部信息源:大部分在百度新闻源,大家可以查看搜狐新闻源,腾讯新闻源,各大门户网站搜索引擎都会在页面里面发布各种各样的文章.内部搜索引擎优化:在垂直网站发布文章,内容,影片,教程,文献,小说,文章,等内容。
这种策略对于一个网站进行排名,搜索引擎认可,会给网站建议度,分享度等等.对于seo新手来说,是一个好事,可以短时间内,快速积累一定量的内容。如何进行内部搜索引擎优化?准备:一个好的logo,主要说的就是网站名称,网站服务器,域名.网站本身要进行seo优化,必须要具备好的内部数据源.外部信息源:大部分在百度新闻源,大家可以查看搜狐新闻源,腾讯新闻源,各大门户网站搜索引擎都会在页面里面发布各种各样的文章.内部搜索引擎优化:在垂直网站发布文章,内容,影片,教程,文献,小说,文章,等内容。
这种策略对于一个网站进行排名,搜索引擎认可,会给网站建议度,分享度等等.对于seo新手来说,是一个好事,可以短时间内,快速积累一定量的内容。
彼得·比勒金等 | Dacura平台——历史学研究的数据收集和知识提取新途径
网站优化 • 优采云 发表了文章 • 0 个评论 • 132 次浏览 • 2022-06-25 22:54
当前计算机技术的发展为学者们提供了新的途径对来自互联网的数据进行收集、储存和检索,这为历史科学领域里进行文献综述以及数据收集方法的转型提供了可能。作为一个数据综合维护平台,Dacura系统突出地反映了这一发展趋势的三个方面:第一,它是一种基于知识图谱的数据模型,从而区别于标准的用行与列表达的数据结构;第二,使用网络本体语言(Web Ontology Language,OWL)对数据进行定义;第三,具有基于语义推理的自动处理进程,以筛选掉成千上万与研究议题不相关或者准确度存疑的在线和数据库点击量。Ducara的建立与Seshat数据库处于伴生关系,后者的组建旨在协调量化历史和考古学数据,以此用统计方法对历史动态模型进行测试。以下我们将提供具体的范例来介绍Dacura和Seshat数据库,以说明上文述及的计算机科学的进步从哪些方面能够惠及历史研究者的工作。
对于史学研究者来说,未经审核的数据过剩是一个基本问题,而Dacura平台旨在为学者们提供解决方案。举例来说,假设研究者打算收集量化数据来回答某个特定问题,比如夏威夷岛上的人口增长是否先于1500年左右国家的出现,一个简易的人口压力模型就能做出预测。如果她仅仅在谷歌搜索引擎输入“古代夏威夷人口”,将会得到接近250000个搜索结果(其中一些涉及现代人口统计数据),而且她也没有简单省力的方法去弄清楚,搜索引擎提供的这么多有关古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的维基百科页面仅仅提供了估算数据,而且明显地源于单一的信息源;而无法明确地鉴别数据来源本身就是一个严重的问题)。如果这个研究者代之以谷歌学术,检索的结果数量会减少到大约165000条,尽管她可以指望结果的质量更好,不过鉴别这些论文和学术专著是否与她的问题旨趣直接相关,仍然是个令人生畏的工作。甚至使用JSTOR,这一质量有保证的数据库,也将提供大约60000篇论文给研究者的筛选工作制造障碍。
上述例子表明目前史学研究者所面临的一个中心问题,互联网和出版资源的开放获取为史学工作者们感兴趣的任何研究议题,提供了丰富的信息和材料,然而这些信息没有质量保证,即便是有质量保障的信息源(比如同行评议的开源出版物),信息量也是过剩的。因此对于研究者来说,希望出现这样一种工具:允许研究者建立自己的高质量的、结构化的数据集,为研究者提供解决问题所需要的材料。这种工具要求一种层级结构的(本体)设计,从而让研究者可以较为容易地挖掘出与他们的研究直接相关的检索结果。这个检索工具应该能精确对结果进行索引,研究者检索夏威夷人口的估算值时——正如我们虚构的研究者试图尝试的那样——不仅可以检索到所有与夏威夷人口估算有关的结果,同时也不会检索到与研究题目不相关的其他统计数据和地点信息。简而言之,这样的检索工具必须能够应用集成的词库或词库集作为基本的检索程序的一部分。
除此之外,还有不少检索工具能够提供这种功能:进行跨领域的快速检索特定的、高质量的信息。仅就考古学领域的检索工具(它的第一位创建者是一名考古学家)而言,eHRAF(Human Relations Area Files; )就是业内的一个典范。它提供两个文件档案库(分别是民族志档案和考古学档案),使用高精确度的本体——世界文化概览和考古传统概览(the Outline of World Cultures and Outline of Archaeological Traditions),以及丰富的词库集——文化史料概览(the Outline of Cultural Materials)。因此eHRAF可以从来自将近45万页的考古、民族志原始和二手史料中实现句段检索,能够使用层级结构和布尔搜索策略,轻易地实现信息的搜索和重构。这些检索结果是具体的,并具有极高的质量和专门性,研究者也可以对之进行数量管理。然而,其检索结果的范围仅限于eHRAF数据库囊括的资料。eHRAF之所以能够提供如此高质量的信息检索,是因为其进行了广泛的信息预处理,拥有博士学位的考古学家对每个文档、甚至每个段落都用本体进行了编码。简要来说,该平台提供的简易的高质量信息搜索和检索,其背后却要求巨大的工作量。这一方面意味着eHRAF平台数据扩充比较缓慢,另一方面平台必须要向用户收费。
tDAF(the Digital Archaeological Record; )平台则是另一个检索工具,像前述的eHRAF一样,它也可以提供迅捷的、特定的、高质量的跨领域信息检索服务。包括原始数据集、shapefiles格式的文件和其他类似的数据资料,都能够在tDAF平台上获得,它们被基本的本体组织起来。不同于eHRAF平台,这些信息不是由tDAF的运营人员处理的(尽管他们会进行审核以确保进程的正确性),而主要依赖个体研究者,由他们向平台提交处理好的元数据结构。这一特点令tDAR平台中的信息、档案、文献的数量能相对快速地增长,用户也能够免费使用tDAR平台的信息检索功能,不过为了鼓励提供文献,平台还是会收取少许费用。然而,因为用户提供数据本体和索引,致使材料的细节和精确度存在差异,这意味着搜索的结果可能无法包含所有相关的文档信息。此外,和eHRAF一样,这个平台可供检索的信息也局限在平台数据集中。
OpenContext()则是类似于tDAR的另一个优秀数据库,不过它有一些附加功能,让数据库的检索范围超越了考古学领域。与tDAF类似,考古数据的使用需要一些费用。但不同于tDAF,OC平台的编辑者们同资源贡献者们会一起创建元数据、清理数据以便在网络上发布,而数据资源自身的意义会在这一过程中得到双方的评估;换言之,并不是所有数据都会在平台公开发布,只有那些接受过同行评审、有广泛应用前景的数据才会被发布。一旦与Open Context对接,数据资源就通过关联数据标准(Linked Data standards)与互联网上的数据实现链接。这使得Open Context平台的检索范围超出了档案库的数据,从而克服了eHRAF和tDAR两大平台的局限,同时同行审核又对那些由Open Context直接贡献的信息提供了质量保证,不过审核流程中的信息是基于OC平台的,而非直接链接到的原始信息源,我们认为这是一个较为严重的局限。
我们在这里介绍的,即是比上述三种平台(当然还有许多其他优秀的数据库项目和数据储存平台可供征引介绍)更具有综合性的解决方案:Dacura(dacura. cs.tcd.ie)。这一平台可以跨领域检索特定的高质量信息,它是集数据收集、评估、整理和输出为一体的综合平台,也是Seshat数据库(seshatdatabank. info)的管理系统,后者的功能、特性我们会在下文详述。通过大数据研究的多种新方案的协同开发和运作,Dacura平台在持续的问题和缺陷发现机制的运行中获得助益,并汇集和解决了大量、复杂的历史信息检索、收集过程中面临的问题和需求,因此可以作为一个优秀的研究资源,惠及学院派的史学工作者。
知识图谱技术在诸如谷歌和脸谱等互联网企业的海量和多样信息资源——企业内部会对之加以综合处理和管理——的管理和结构化中,发挥着越来越大的作用。传统的基于表格和行列排列组合的SQL储存解决方案已经不能胜任企业管理的复杂信息的结构及其蕴含的语义,也无法呈现事物间的复杂关系。然而对于数据来说,除了体量庞大和具有技术实力的企业外,知识图谱技术的使用仍然需要专门且难度较高的技术门槛。Dacura设计的目标便是开辟一条路径,让历史研究者们不需要掌握大量的专业知识就可以使用知识图谱技术。Dacura通过以下两个方面来实现这些目标,即它可以自动运行诸多数据——它们来自该平台设置的语义分析模块——的收集和综合处理软件,同时也为用户提供简易的操作工具和界面——而不需要了解隐藏在背后的技术原理。
本文并不旨在为Dacura平台打小广告,毋宁说我们是通过介绍Dacura来进一步阐明一种收集、评估和检索来自互联网和任何一批大数据资源(得益于计算机技术的进步)的途径和方法。我们确信这将为历史科学带来影响深远的冲击。
Dacura平台
Dacura是一个数据综合处理平台。它的设计目的在于,协助历史学者利用丰富的语义知识图谱来建立并管理高质量的数据库。“简明易用”即是该平台创设的一个基础性理念——史学工作者可以对意图收集的数据结构自行定义。该平台运用这些信息结构来进一步支持用户发现、收集、过滤、校正、精炼和分析源于互联网的数据,进而整理出高质量的信息。以下这些具体和详细的信息需要研究者提供给Dacura以开启自动处理的进程:学者与他们研究议题相关的基本信息实体(比如“夏威夷”)的定义;它们的具体内容和特征(如人口估算值)、数据类型和每个属性的计量单位(如数值型)、与数据组内部以及其他数据集其他实体的关系(如夏威夷位于波利尼西亚)。
这一工具的优势之一在于,它能够界定学者意图获取的信息或数据的结构。所有历史科学家都清楚,在史料能被使用之前,其属性和有效性必须得到批判和反思。由于Dacura在执行一次搜索命令以前,处理进程要求所需的数据的一些基本的、精确的属性参数。因此这一运作逻辑鼓励研究者们仔细思考以下问题:当他们展开数据收集工作以前,所需的数据、史料的本质是什么?同时他们采用什么样的视野和方法来提出自己的问题?这样的准备工作为历史学家节省了时间和精力,而辨明有用的信息来源通常也是历史研究中最为困难的任务。Dacura简明和友好的用户交互界面(下文会展开说明)令明确数据界限的工作流程容易起来,同时由于Dacura提供一种灵活的搜索结构,搜索进程能够动态适应,会随着数据被审视的方式,以及聚焦的问题相应地产生变化。
Dacura可以把研究者界定的数据集的结构编译为一种语义网络本体结构。这种本体结构根据万维网联盟(W3C,互联网国际标准的主要制定者)的网络本体语言(OWL)标准制式进行编码。作为一种丰富而灵活的本体语言标准,OWL可以令广泛而多样的约束条件和推理规则被研究者指定到数据收集进程中去,如一个城镇的人口不应该比它所在地区的人口更为庞大。因而与非结构化的自然语言字符串——它们是驱动大多数搜索引擎的结果——形成对比,高度体系化和精确化界定出的本体结构的数据集,其属性参数能够被计算机充分利用,从而为研究者获取特征更为鲜明的检索结果。由此,史学研究者输入和界定的信息结构及其属性参数越丰富,Dacura系统对数据的自动收集和用以分析、优化和管理数据工具的生成也就越容易。
Dacura平台的运行还基于一种语义网络技术。其核心内容是一种资源描述框架(Resource Description Framework, RDF),是一种三元数据库结构(不是那种二维的行与列组成的电子表格),呈现为类似“夏威夷处于波利尼西亚”、“夏威夷拥有岛屿”或是“波利尼西亚拥有岛屿”这样的主谓宾句式结构(subject-predicate-object structure)。这种主谓宾句式结构可以被理解为结点-边-属性(nodes-edges-properties)这样的语义结构,形成一种呈现和储存数据信息的三维视图表格。RDF作为三元存储图形数据结构能够实现无索引的链接,每一个主谓宾句式词串可以直接链接到对应的主谓宾三元组合中去,不需要索引查找。结合上文提及的“夏威夷人口”这一假设的问题语境,波利尼西亚、夏威夷和岛屿这些关键词会被全部链接起来,使得系统不需要索引搜索就可以确定夏威夷是波利尼西亚群岛中的一个。
Dacura平台运用OWL本体来确保语义推理过程中的质量管理以及数据收集工作的正常进行;具体来说,如果上文提及的三元组合存在冲突,Dacura会将之识别出来并作为一个冲突项加以标记以供研究者进一步评估。Dacura被设计成在开放关联数据的原则下生产和使用数据。这一设计理念让以下活动变得更为便利:比如从现有的结构化信息资源里输入信息,通过数据集之间的互通以扩充研究者管理的数据集,这里的互通是经由关联数据链接到公共数据资源(如DBpedia或维基数据,它是维基百科的关联数据版本),同时那些由Dacura组织起来的数据集也能通过类似的方式简易地关联起来。我们在Youtube视频网站上提供了Dacura链接不同资源的视频范例。Dacura平台的一个核心功能即数据收集,包括通过关联数据采集数据,而且作为系统工作流的一部分,平台会通过自动和人工的方式对数据的质量进行评估。因此Dacura不仅能够快捷和便利地收集信息,也能够对信息的质量进行评定。
Dacura平台的工作流把数据的创建和管理分为四个阶段,如图一所示。第一个阶段是数据的收集:确定用于填充研究者数据集的高质量信息的来源。Dacura支持多种方式进行数据收集:它可以在公共数据资源识别出与学者研究相关的数据,也可以部署自动代理进行互联网搜索,再到通过人工力量对信息来源做进一步规范。这套系统的目标在于尽可能大的实现处理进程的自动化,而识别和界定信息来源是为了扩充学者数据集的需要。在这个阶段,系统的目标不在于寻找到那些与研究者感兴趣的研究议题有关的内容实体,而是为了寻找到明确的信息来源,可以用于扩充数据的属性和关系,即那些研究者已经在数据规范中加以定义的属性和关系。
Dacura数据创建和管理进程的第二个步骤是知识提取。这个阶段会从收集的数据来源中提取出精确的信息,并将之纳入到研究者的数据规范所需要的结构中去。尽管自然语言处理和其他的人工智能技术仍然在持续发展,但它们还是很容易出错,因而在通常情况下为了保证数据的高质量,投入一些人力来过滤程序误报也是必须的。Dacura平台采用的工具在筛选、过滤、改进、注释和链接候选信息记录等方面,支持人工用户和自主代理产出知识报告;换言之,信息来源里包含有相关知识的权威解释,并通过链接到网络数据而得到更广泛的扩充。
Dacura数据处理进程的第三个阶段或许是为保证数据质量最为重要的阶段:专家分析。Dacura平台的一大长处便是聚焦数据质量,基于自动代理工具和人工处理确保收集来的数据在准确度和完整性上符合研究者先前提供给平台的数据规范要求。平台首先通过基于语义一致性和有效性测试技术的自动处理工具,对收集来的原始数据加以处理,将不同数据指向并合并到一个综合解释中去,该解释体现了自动处理工具对权威数据——它们准确地反映了真实的状况——最精确的预估。这些综合解释进一步由领域专家——就像本文假设的对夏威夷人口问题感兴趣的学者——来评估,这一步骤允许专家校正讹误继而确认专家意见与自动处理工具之间的不一致。专家们可以编纂具有个人色彩的数据解释(比如特别指明只有某个特定的信息来源是可信的),并在数据集上把这条解释覆盖上去,进而创建一个自定义的数据集,以呈现他们对某些数据的看法。
至于Seshat平台的领域专家,由该平台的管理团队负责征集,主要根据他们在需要评估的相关领域内的出版记录。这些专家都具有相应学术领域的博士学位,相当一部分有学院派的工作背景。专家也会被定期评估,以辨别出经常输入与采集到的数据有讹误的那些人。有人可能会认为通过征询来建立一个专家库似乎不那么有效率,但是我们在Seshat数据库公开的名单中,可以看到目前作为志愿者参与数据评估的专家们的工作质量。本文撰写时数据库的专家数量为77名,而这些志愿专家们的专业领域的覆盖范围表明,将专家评估整合到像Dacura平台这样的数据收集系统是十分可行的。大部分采用了Dacura平台的项目,可能不会有Seshat数据库这般囊括了广阔的学术视野和范围,唯一需要对数据进行评估的专家,可能就是研究者自己。
最后,Dacura支持各类输出工具让数据能够以不同格式输出到第三方平台。Dacura发布了它作为一种关联数据格式的管理数据,所以其他的用户和平台,如上文述及的Open Context,能够毫无困难地访问它。Dacura还提供SPARQL终端——一种针对RDF的查询语言——支持数据的复杂过滤和提取。这便允许智能应用程序以一种之前难以想见的方式实现与数据的交互。对于个人用户来说,Dacura平台能够生成图表、表格、地图和其他的可视化工具,为用户提供便于理解数据的可视化呈现方式。以图表或其他输出方式呈现的数据,可以浏览、检索和选定,令用户能够访问其中与他们的研究主题最为贴合的一部分数据。Dacura还可以实现数据集或它们的子项以更为广泛的数据格式输出,从而用于外部分析,其中包括地理信息系统以及诸如SPSS或者R语言的统计格式。
Dacura的实施:Seshat数据库的元数据模型
作为Dacura在研究实践中发挥作用的范例,图二向读者展示了元数据模型如何被运用到Seshat——全球历史数据库(Global Historical Databank)。Seshat数据库()的目的是组建一个全面而综合的知识体系,这些知识包括人类历史以及史前史,以实证检验有关文化演变的假说,包括宗教、仪式、战争、农业或者其他变量在社会复杂化进程中扮演的角色。迄今为止,Seshat数据库已经被用于区分出一种单一的复杂性维度,可以用来解释人类社会组织中大约四分之三的变化;此外它还被用于论证轴心时代贯穿于欧亚大陆的社会政治转型的假说,超过了一千年的时间跨度。运用适当的统计学技术来考察这类时间尺度较大的问题需要有效和可靠的数据;这也是说,数据能够反映学者们对问题的定义,同时数据在不同案例中以同样的标准被度量。
当Seshat数据库在计划筹建阶段时,正处于开发状态的Dacura被认为对Seshat来说是一个绝佳的数据处理平台。两支团队决定协同开发Dacura和Seshat平台,令双方实现信息共享。由于计算机科学家和历史学家以往不会一同开展工作,所以Dacura和Seshat两大平台的研究团队之间的合作证明跨学科研究能够取得丰硕的成果,当然前提是Dacura团队的计算机专家能够了解历史学家的需求,同时Seshat研究团队也能够理解三元数据结构在收集和管理数据层面的可能性和局限性。
Seshat的运行环境基于两个基本信息:位置信息(Location)和持续时段(Duration)。具体来说,位置信息是地球表面上任意一个点或者多边形区域,其实体被定义为领域(Territory)。Seshat定义了三级结构的领域实体(在Seshat升级后可能实现更多层级结构):
(1)自然地理区域(Natural-Geographic Areas,NGA),它指的是一种大约100x100公里的相邻区域,其中包含有相当均一的生态环境区域。
(2)生物群落(Biomes),指的是一种具有连续性的生物圈或是拥有相似气候条件的区域。
(3)世界性区域(World Regions),它可能是指像民族国家、地区政权或是能以其他特定标准识别的预定义实体。
一个持续时段可以设定为一个单个日期或一个时间段。添加一个持续时段到领域实体层级中去,便可以产生两个有时间限制的实体之一:
(1)人口,指在一个确定的时间段内生活在某个特定领域内的一批人类群体;
(2)一个历史事件,它被定义为在一个确定的时间段内、在某个特定领域内发生的事件。
Seshat数据库能够为特定研究问题提供人口和历史事件的实体类。对于人口,目前有以下几种实体类:
(1)传统,它被定义为人类群体“分享相似的日常生活实践、技术以及社会政治组织,它们在一个相对大的区域空间内呈现出连续性,并且在一段相对较长的时期里保持了延续性”。对于这个实体类来说,考古学传统概览(the Outline of Archaeological Traditions,下文简称OAT)为平台的案例选择提供了通用的抽样范围;同时,文化资料概览(the Outline of Cultural Materials,以下简称OCM)为数据编码提供了词库。
(2)文化群体,它指的是一类人群,他们共享一套规范、信仰、行为、价值、态度等等。对于这个实体类来说,主要的抽样范围来自世界文化概览(the Outline of World Cultures,以下简称OWC),词库同样来自OCM。
(3)政治组织,它指的是基于相似的政府管理形成的独立的政治性联合体。这里有一个用于具体研究项目而创建的实体类范例。图尔钦等人撰写的论文向读者展示了一个由30个案例组成的样本,这些案例根据社会政治组织和地理区域的特点被挑选出来。OCM为这个实体类提供了主要的词库。
(4)聚落,这个实体类的物理空间以及物质设施范围很广,其规模大小和复杂程度的跨度涵盖了临时性营地以及大都市。由于能够被编码的聚落范围庞大,该实体没有界定抽样范围。主要的词库来源仍然是OCM。
(5)认同群体,具有相同的归属感的一群人。跟政治组织类似,这个实体类也是为特定的研究项目创建的,它的抽样也具有随机性的特征。对于这一实体,没有正式的词库,不过OCM在一些特定领域也被使用。
(6)语言群体,它是指使用同一种语言的群体。这一实体类使用的抽样范围是民族语言志平台(Ethnologue,),但是它也没有正式的词库(同样,OCM在一些特定领域也被使用)。
此外,子类层级也能够被添加到实体类中去,以为研究者提供属性更多的数据集。图三便显示了为上述提及的实体类创建的实体子类。
“历史事件”实体则明显地包含近乎无限可能的实体类和子类。故而为了维持一些历史事件实体的秩序结构,DBpedia (/server/ontology/classes/)中的事件实体作为基本的本体得到了使用。正如图二显示的,目前实体类中的事件实体包括:
(1)群体内部冲突,诸如战争、决斗、分封等类似事件。
(2)社会-自然性灾害,如饥荒或瘟疫。
(3)自然灾害,如干旱、洪水、虫害、火山爆发等等。
(4)社会崩坏。
(5)交接仪式,如婚礼、加冕、启动仪式等活动。
(6)社会运动,包括像移民这种身体迁移活动,还有诸如复兴性运动、千禧主义、罢工等社会性运动。
(7)技术性事件,如发明、发现、技术创新等等。
Seshat的内容获取:Dacura的工作流
作为历史学家如何应用Dacura获取数据集的范例,图四为读者展示了传统的实体类数据,如何通过Dacura填充到Seshat数据库中去。图中蓝色矩形之内的流程完全可以实现自动化,而蓝色矩形之外的区域需要把自动分析和专家评估结合起来,确保Seshat数据的有效性和可靠性。我们可以看到,蓝色矩形顶部的处理流程,人口这个实体是由领域范围内的持续时段所定义的。人口实体的特征会通过OAT的词库被分配到传统实体类之中。然后,数据挖掘的工作流会启动自动搜索的进程,根据OCM词库在互联网搜索文化领域的相关信息。在这个节点,研究者也可以使用Dacura检索互联网或者印刷材料获取文化领域的数据。Dacura会在特定的文化领域收集信息,在图四所示的范例中,我们用考古学数据作为例子,系统会对比DBpedia中的数据,以确定关联的数据是否需要纳入其他来源的数据,并且通过自动分析程序评估数据的一致性。前后矛盾的数据(如存在语义矛盾或数值冲突的数据)会输出给研究文化群体或文化领域的研究者和专家做进一步评估。这些研究者或领域专家要么会为文化领域确定一个规范值,要么在冲突无法解决时,给出一个非规范值。不管怎么说,所有收集过来的数据都会囊括进Seshat数据库,并且被标记为规范值或者非规范值,其他研究者可以检索到这些值并对之加以修正或扩展它们的解释。规范数值同时也会输出到DBpedia以协助其他的研究者以及未来的搜索。
研究者也可以输入自己的数据,包括图片、媒体和shapefile格式文件。数据合并的处理流程可允许其他研究者通过关联数据来访问这些共享文件,令之可以被广泛使用。更为重要的意义在于,那些被整合进Seshat或由Dacura生成的数据集中的其他数据,其质量能够不断得到提升,这正是归功于Dacura允许研究者对先前合并的数据进行评注和再评估。换句话说,Dacura不仅可以用于创建和管理巨量数据集,也能确保数据质量能够持续不断地得到提升。
使用Seshat数据库:从Dacura输出数据
到了这一步,关切夏威夷人口估值的研究者便能够通过Seshat数据库——或是她自己利用Dacura生成的数据集——来迅速地获得精确并且可以溯源的人口数据。她可以通过Dacura来开启Seshat数据库,接着在操作界面中选取夏威夷的自然地理区域模块,然后选取她所感兴趣的某个历史时期的夏威夷居住人口的政治组织子级,之后再选择人口这个变量。我们在Youtube上传了一部视频供读者参考。在这个案例中,这位学者获得的有关人口的数据源自Seshat数据库,这个数据是我们上文述及的Dacura数据收集和评估进程的产物。但是我们的研究者还能够使用Dacura创建新本体,以引导她进行更具个性化的搜索,正如我们在上文提到的视频中揭示的那样。
无论是在Seshat平台还是她运用Dacura从其他来源获取的数据,我们的学者都能获得各种类型的结果输出。正如前文述及的那样,Dacura会将数据集作为关联数据发布,并使用SPARQL进行输出。SPARQL是一种RDF的查询语言,后者能够生成文档和原始数据集,还有像图表、表格、地图之类的其他可视化信息。另外一点对史学工作者也至关重要,即SPARQL与GeoSPARQL能够协同运行,这得以让SPARQL数据集整合进入采用了OGC(Open Geospatial Consortium,开放地理空间信息联盟)查询标准(比如GML、WKT等)的地理信息系统中去。此外,Dacura平台上生成的原始文本、媒体或数字数据,也能够被浏览、搜索和挑选,研究者可以访问对研究最有价值的那部分文本、图片、媒体或数据集。Dacura还能够收集或输入的材料——或是它们的子级——以更多格式导出来支持进一步的外部分析。例如,研究者可能会想把有关人口估算值的数据输出到统计分析平台。那么Dacura将会生成逗号分割文件(comma-delimited file),这个文件能够被直接传输到电子表格或是统计数据软件包,如此一来研究者就可以使用任何数据分析的方法,来解答自己的问题。图五展示了一个有关夏威夷人口估算值的简单线性图表,它的生成有赖于Dacura和Seshat平台的数据输出功能,生成了一个CSV文件,并使用Excel制作了一张图表。
我们的这位研究者最初问题的答案是,夏威夷的人口增长确实先于这座岛屿上第一个国家政权的产生,这也正如人口压力模型预测的那样。就答案本身来说,这算不上是个令人印象深刻的结果(实际上或许也是个非常简单化的结论),但是考虑到我们的研究者通过Dacura平台的处理进程,可以在几分钟里收集数据,同时对它们的质量抱有信心,而且还可以访问与之相关的所有附加数据,不能不说是一次令人叹服的研究之旅。
结论
互联网为历史学家提供了大量的信息,然而现状却是,这些信息经常太过丰富,而且缺少质量监控。Dacura便是旨在解决这些问题而被设计开发出来的。它提供一种便捷的、质量有保证的途径,帮助史学工作者在互联网上收集信息,同时提供一个可供管理的质量控制体系。Dacura具有的精心设计的本体(dacura.scss.tcd.ie/ontologies/ dacura-130317.ttl),进而使研究者能够简易地定义和检索到与他们的研究直接相关的信息。Dacura的一体化词库和RDF三元存储结构让用户不需要使用在结果中进行跨领域的详细索引,如此一来,有关给定主题的所有信息,甚至那些相关性不那么明显或作为相关索引的信息,都可以被用户检索到。此外,Dacura提供的用于输出的数据格式非常广泛,从文本到可视化形式再到表格。Dacura虽然不是唯一可用的数据收集和管理程序,但是因为它与Seshat数据库一同被开发出来,因而它为新兴的基于计算机技术的历史和考古数据处理提供了一个独特模型。
从这个角度来说,Dacura展现了一系列可应用于历史学研究的重要新工具。正如肯特在他最近发表的论文中指出的那样,“(历史学家以及)考古学家在获取、管理和分析大量且差异巨大的数据过程中,日益面临挑战。” Dacura平台的问世为这一系列挑战提供了数种解决方案。具体来说,Dacura平台嵌入了(1)一个基于RDF三元存储的语义知识图谱技术,同时运用了(2)网络本体语言(OWL)来进行数据定义,它还嵌入了(3)语义推理模块,该模块是自动进行数据评估的基础,以及(4)它按照关联数据标准实现结果输出。
通过OWL数据定义和知识图谱技术,历史学家可以把收集到的海量数据,以快捷和简易的方式将那些对既定研究主题最为重要的信息精减和筛选出来,并且可以让这些数据以多样的格式输出。语义推理模块为用户提供了一种迅捷的数据评估以及可持续管理的机制。关联数据标准制式下,Dacura允许研究者随时访问那些经由其他学者收集来和评估过的数据。
另外,在像Dacura这样的平台上,计算机科学领域最近取得的新进展,也为那些非历史学领域的学者提供了可用和精确的历史数据。长期以来,那些有关文化稳定和变迁的时空记录,以及人类社会成功或者失败的实践案例,在考古学和历史学学科之外没有得到广泛应用,这是令许多史学工作者倍感沮丧的事情。不过这也没什么好惊讶的,因为对于外行来说,历史数据和材料很难获取也很难理解。然而,像Dacura这样的平台,它们通过自动化方式对历史数据进行收集、评估,对经过检验的精确的历史学数据进行检索,从而为经济学家、政治学家、生态学家、地理学家以及大众提供了一种获取数据途径和模型,让他们得以探索人类历史长河中累积下来的丰富而宝贵的历史记录。
致谢
本文作者向参加了于2015年5月4日至6日在圣塔菲研究所举办的工作坊的与会者表示感谢,在这次工作坊上与会者们讨论了有关数据收集以及高质量信息整合的各种需要,以及Seshat元数据模型的开发事宜。我们还要感谢Dacura平台的研究团队、博士后工作站人员、顾问人员以及专家团队,他们做出了巨大贡献。此外,我们的合作伙伴为我们撰写这篇论文提供了无比宝贵的协助。更多具体信息,也请读者登录Seshat的网页()查看公示的详细清单,包括私人捐赠、合作者、专家、顾问以及他们擅长的专业领域。最后,我们向匿名评审专家致以感谢,正是他们深富洞见的评审意见令我们能够更好地提升论文的质量和水准。
(作者彼得·比勒金[Peter N. Peregrine],劳伦斯大学人类学系,圣塔菲研究所;罗布·布伦南[Rob Brennan],都柏林大学三一学院,统计学和计算机科学学院ADAPT&知识与数据工程项目组;托马斯·柯里[Thomas Currie],埃克塞特大学生命科学系;凯文·费尼[Kevin Feeney],都柏林大学三一学院,计算机科学与统计学院,知识与数据工程项目组;彼得·弗朗索瓦[Pieter François],赫特福德大学人文学院,牛津大学认知与发展人类学研究所;彼得·特钦[Peter Turchin],康涅狄格大学生态与进化生物学系;哈维·怀特霍斯[Harvey Whitehouseg],牛津大学认知与发展人类学研究所。译者纪子凡,南京大学历史学院硕士研究生)
本文注释及更多精彩文章请参阅《全球史评论》第十九辑
首师大全球史中心
公众号ID:gh-cnu
欢迎关注,谢谢大家~ 查看全部
彼得·比勒金等 | Dacura平台——历史学研究的数据收集和知识提取新途径
当前计算机技术的发展为学者们提供了新的途径对来自互联网的数据进行收集、储存和检索,这为历史科学领域里进行文献综述以及数据收集方法的转型提供了可能。作为一个数据综合维护平台,Dacura系统突出地反映了这一发展趋势的三个方面:第一,它是一种基于知识图谱的数据模型,从而区别于标准的用行与列表达的数据结构;第二,使用网络本体语言(Web Ontology Language,OWL)对数据进行定义;第三,具有基于语义推理的自动处理进程,以筛选掉成千上万与研究议题不相关或者准确度存疑的在线和数据库点击量。Ducara的建立与Seshat数据库处于伴生关系,后者的组建旨在协调量化历史和考古学数据,以此用统计方法对历史动态模型进行测试。以下我们将提供具体的范例来介绍Dacura和Seshat数据库,以说明上文述及的计算机科学的进步从哪些方面能够惠及历史研究者的工作。
对于史学研究者来说,未经审核的数据过剩是一个基本问题,而Dacura平台旨在为学者们提供解决方案。举例来说,假设研究者打算收集量化数据来回答某个特定问题,比如夏威夷岛上的人口增长是否先于1500年左右国家的出现,一个简易的人口压力模型就能做出预测。如果她仅仅在谷歌搜索引擎输入“古代夏威夷人口”,将会得到接近250000个搜索结果(其中一些涉及现代人口统计数据),而且她也没有简单省力的方法去弄清楚,搜索引擎提供的这么多有关古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的维基百科页面仅仅提供了估算数据,而且明显地源于单一的信息源;而无法明确地鉴别数据来源本身就是一个严重的问题)。如果这个研究者代之以谷歌学术,检索的结果数量会减少到大约165000条,尽管她可以指望结果的质量更好,不过鉴别这些论文和学术专著是否与她的问题旨趣直接相关,仍然是个令人生畏的工作。甚至使用JSTOR,这一质量有保证的数据库,也将提供大约60000篇论文给研究者的筛选工作制造障碍。
上述例子表明目前史学研究者所面临的一个中心问题,互联网和出版资源的开放获取为史学工作者们感兴趣的任何研究议题,提供了丰富的信息和材料,然而这些信息没有质量保证,即便是有质量保障的信息源(比如同行评议的开源出版物),信息量也是过剩的。因此对于研究者来说,希望出现这样一种工具:允许研究者建立自己的高质量的、结构化的数据集,为研究者提供解决问题所需要的材料。这种工具要求一种层级结构的(本体)设计,从而让研究者可以较为容易地挖掘出与他们的研究直接相关的检索结果。这个检索工具应该能精确对结果进行索引,研究者检索夏威夷人口的估算值时——正如我们虚构的研究者试图尝试的那样——不仅可以检索到所有与夏威夷人口估算有关的结果,同时也不会检索到与研究题目不相关的其他统计数据和地点信息。简而言之,这样的检索工具必须能够应用集成的词库或词库集作为基本的检索程序的一部分。
除此之外,还有不少检索工具能够提供这种功能:进行跨领域的快速检索特定的、高质量的信息。仅就考古学领域的检索工具(它的第一位创建者是一名考古学家)而言,eHRAF(Human Relations Area Files; )就是业内的一个典范。它提供两个文件档案库(分别是民族志档案和考古学档案),使用高精确度的本体——世界文化概览和考古传统概览(the Outline of World Cultures and Outline of Archaeological Traditions),以及丰富的词库集——文化史料概览(the Outline of Cultural Materials)。因此eHRAF可以从来自将近45万页的考古、民族志原始和二手史料中实现句段检索,能够使用层级结构和布尔搜索策略,轻易地实现信息的搜索和重构。这些检索结果是具体的,并具有极高的质量和专门性,研究者也可以对之进行数量管理。然而,其检索结果的范围仅限于eHRAF数据库囊括的资料。eHRAF之所以能够提供如此高质量的信息检索,是因为其进行了广泛的信息预处理,拥有博士学位的考古学家对每个文档、甚至每个段落都用本体进行了编码。简要来说,该平台提供的简易的高质量信息搜索和检索,其背后却要求巨大的工作量。这一方面意味着eHRAF平台数据扩充比较缓慢,另一方面平台必须要向用户收费。
tDAF(the Digital Archaeological Record; )平台则是另一个检索工具,像前述的eHRAF一样,它也可以提供迅捷的、特定的、高质量的跨领域信息检索服务。包括原始数据集、shapefiles格式的文件和其他类似的数据资料,都能够在tDAF平台上获得,它们被基本的本体组织起来。不同于eHRAF平台,这些信息不是由tDAF的运营人员处理的(尽管他们会进行审核以确保进程的正确性),而主要依赖个体研究者,由他们向平台提交处理好的元数据结构。这一特点令tDAR平台中的信息、档案、文献的数量能相对快速地增长,用户也能够免费使用tDAR平台的信息检索功能,不过为了鼓励提供文献,平台还是会收取少许费用。然而,因为用户提供数据本体和索引,致使材料的细节和精确度存在差异,这意味着搜索的结果可能无法包含所有相关的文档信息。此外,和eHRAF一样,这个平台可供检索的信息也局限在平台数据集中。
OpenContext()则是类似于tDAR的另一个优秀数据库,不过它有一些附加功能,让数据库的检索范围超越了考古学领域。与tDAF类似,考古数据的使用需要一些费用。但不同于tDAF,OC平台的编辑者们同资源贡献者们会一起创建元数据、清理数据以便在网络上发布,而数据资源自身的意义会在这一过程中得到双方的评估;换言之,并不是所有数据都会在平台公开发布,只有那些接受过同行评审、有广泛应用前景的数据才会被发布。一旦与Open Context对接,数据资源就通过关联数据标准(Linked Data standards)与互联网上的数据实现链接。这使得Open Context平台的检索范围超出了档案库的数据,从而克服了eHRAF和tDAR两大平台的局限,同时同行审核又对那些由Open Context直接贡献的信息提供了质量保证,不过审核流程中的信息是基于OC平台的,而非直接链接到的原始信息源,我们认为这是一个较为严重的局限。
我们在这里介绍的,即是比上述三种平台(当然还有许多其他优秀的数据库项目和数据储存平台可供征引介绍)更具有综合性的解决方案:Dacura(dacura. cs.tcd.ie)。这一平台可以跨领域检索特定的高质量信息,它是集数据收集、评估、整理和输出为一体的综合平台,也是Seshat数据库(seshatdatabank. info)的管理系统,后者的功能、特性我们会在下文详述。通过大数据研究的多种新方案的协同开发和运作,Dacura平台在持续的问题和缺陷发现机制的运行中获得助益,并汇集和解决了大量、复杂的历史信息检索、收集过程中面临的问题和需求,因此可以作为一个优秀的研究资源,惠及学院派的史学工作者。
知识图谱技术在诸如谷歌和脸谱等互联网企业的海量和多样信息资源——企业内部会对之加以综合处理和管理——的管理和结构化中,发挥着越来越大的作用。传统的基于表格和行列排列组合的SQL储存解决方案已经不能胜任企业管理的复杂信息的结构及其蕴含的语义,也无法呈现事物间的复杂关系。然而对于数据来说,除了体量庞大和具有技术实力的企业外,知识图谱技术的使用仍然需要专门且难度较高的技术门槛。Dacura设计的目标便是开辟一条路径,让历史研究者们不需要掌握大量的专业知识就可以使用知识图谱技术。Dacura通过以下两个方面来实现这些目标,即它可以自动运行诸多数据——它们来自该平台设置的语义分析模块——的收集和综合处理软件,同时也为用户提供简易的操作工具和界面——而不需要了解隐藏在背后的技术原理。
本文并不旨在为Dacura平台打小广告,毋宁说我们是通过介绍Dacura来进一步阐明一种收集、评估和检索来自互联网和任何一批大数据资源(得益于计算机技术的进步)的途径和方法。我们确信这将为历史科学带来影响深远的冲击。
Dacura平台
Dacura是一个数据综合处理平台。它的设计目的在于,协助历史学者利用丰富的语义知识图谱来建立并管理高质量的数据库。“简明易用”即是该平台创设的一个基础性理念——史学工作者可以对意图收集的数据结构自行定义。该平台运用这些信息结构来进一步支持用户发现、收集、过滤、校正、精炼和分析源于互联网的数据,进而整理出高质量的信息。以下这些具体和详细的信息需要研究者提供给Dacura以开启自动处理的进程:学者与他们研究议题相关的基本信息实体(比如“夏威夷”)的定义;它们的具体内容和特征(如人口估算值)、数据类型和每个属性的计量单位(如数值型)、与数据组内部以及其他数据集其他实体的关系(如夏威夷位于波利尼西亚)。
这一工具的优势之一在于,它能够界定学者意图获取的信息或数据的结构。所有历史科学家都清楚,在史料能被使用之前,其属性和有效性必须得到批判和反思。由于Dacura在执行一次搜索命令以前,处理进程要求所需的数据的一些基本的、精确的属性参数。因此这一运作逻辑鼓励研究者们仔细思考以下问题:当他们展开数据收集工作以前,所需的数据、史料的本质是什么?同时他们采用什么样的视野和方法来提出自己的问题?这样的准备工作为历史学家节省了时间和精力,而辨明有用的信息来源通常也是历史研究中最为困难的任务。Dacura简明和友好的用户交互界面(下文会展开说明)令明确数据界限的工作流程容易起来,同时由于Dacura提供一种灵活的搜索结构,搜索进程能够动态适应,会随着数据被审视的方式,以及聚焦的问题相应地产生变化。
Dacura可以把研究者界定的数据集的结构编译为一种语义网络本体结构。这种本体结构根据万维网联盟(W3C,互联网国际标准的主要制定者)的网络本体语言(OWL)标准制式进行编码。作为一种丰富而灵活的本体语言标准,OWL可以令广泛而多样的约束条件和推理规则被研究者指定到数据收集进程中去,如一个城镇的人口不应该比它所在地区的人口更为庞大。因而与非结构化的自然语言字符串——它们是驱动大多数搜索引擎的结果——形成对比,高度体系化和精确化界定出的本体结构的数据集,其属性参数能够被计算机充分利用,从而为研究者获取特征更为鲜明的检索结果。由此,史学研究者输入和界定的信息结构及其属性参数越丰富,Dacura系统对数据的自动收集和用以分析、优化和管理数据工具的生成也就越容易。
Dacura平台的运行还基于一种语义网络技术。其核心内容是一种资源描述框架(Resource Description Framework, RDF),是一种三元数据库结构(不是那种二维的行与列组成的电子表格),呈现为类似“夏威夷处于波利尼西亚”、“夏威夷拥有岛屿”或是“波利尼西亚拥有岛屿”这样的主谓宾句式结构(subject-predicate-object structure)。这种主谓宾句式结构可以被理解为结点-边-属性(nodes-edges-properties)这样的语义结构,形成一种呈现和储存数据信息的三维视图表格。RDF作为三元存储图形数据结构能够实现无索引的链接,每一个主谓宾句式词串可以直接链接到对应的主谓宾三元组合中去,不需要索引查找。结合上文提及的“夏威夷人口”这一假设的问题语境,波利尼西亚、夏威夷和岛屿这些关键词会被全部链接起来,使得系统不需要索引搜索就可以确定夏威夷是波利尼西亚群岛中的一个。
Dacura平台运用OWL本体来确保语义推理过程中的质量管理以及数据收集工作的正常进行;具体来说,如果上文提及的三元组合存在冲突,Dacura会将之识别出来并作为一个冲突项加以标记以供研究者进一步评估。Dacura被设计成在开放关联数据的原则下生产和使用数据。这一设计理念让以下活动变得更为便利:比如从现有的结构化信息资源里输入信息,通过数据集之间的互通以扩充研究者管理的数据集,这里的互通是经由关联数据链接到公共数据资源(如DBpedia或维基数据,它是维基百科的关联数据版本),同时那些由Dacura组织起来的数据集也能通过类似的方式简易地关联起来。我们在Youtube视频网站上提供了Dacura链接不同资源的视频范例。Dacura平台的一个核心功能即数据收集,包括通过关联数据采集数据,而且作为系统工作流的一部分,平台会通过自动和人工的方式对数据的质量进行评估。因此Dacura不仅能够快捷和便利地收集信息,也能够对信息的质量进行评定。
Dacura平台的工作流把数据的创建和管理分为四个阶段,如图一所示。第一个阶段是数据的收集:确定用于填充研究者数据集的高质量信息的来源。Dacura支持多种方式进行数据收集:它可以在公共数据资源识别出与学者研究相关的数据,也可以部署自动代理进行互联网搜索,再到通过人工力量对信息来源做进一步规范。这套系统的目标在于尽可能大的实现处理进程的自动化,而识别和界定信息来源是为了扩充学者数据集的需要。在这个阶段,系统的目标不在于寻找到那些与研究者感兴趣的研究议题有关的内容实体,而是为了寻找到明确的信息来源,可以用于扩充数据的属性和关系,即那些研究者已经在数据规范中加以定义的属性和关系。
Dacura数据创建和管理进程的第二个步骤是知识提取。这个阶段会从收集的数据来源中提取出精确的信息,并将之纳入到研究者的数据规范所需要的结构中去。尽管自然语言处理和其他的人工智能技术仍然在持续发展,但它们还是很容易出错,因而在通常情况下为了保证数据的高质量,投入一些人力来过滤程序误报也是必须的。Dacura平台采用的工具在筛选、过滤、改进、注释和链接候选信息记录等方面,支持人工用户和自主代理产出知识报告;换言之,信息来源里包含有相关知识的权威解释,并通过链接到网络数据而得到更广泛的扩充。
Dacura数据处理进程的第三个阶段或许是为保证数据质量最为重要的阶段:专家分析。Dacura平台的一大长处便是聚焦数据质量,基于自动代理工具和人工处理确保收集来的数据在准确度和完整性上符合研究者先前提供给平台的数据规范要求。平台首先通过基于语义一致性和有效性测试技术的自动处理工具,对收集来的原始数据加以处理,将不同数据指向并合并到一个综合解释中去,该解释体现了自动处理工具对权威数据——它们准确地反映了真实的状况——最精确的预估。这些综合解释进一步由领域专家——就像本文假设的对夏威夷人口问题感兴趣的学者——来评估,这一步骤允许专家校正讹误继而确认专家意见与自动处理工具之间的不一致。专家们可以编纂具有个人色彩的数据解释(比如特别指明只有某个特定的信息来源是可信的),并在数据集上把这条解释覆盖上去,进而创建一个自定义的数据集,以呈现他们对某些数据的看法。
至于Seshat平台的领域专家,由该平台的管理团队负责征集,主要根据他们在需要评估的相关领域内的出版记录。这些专家都具有相应学术领域的博士学位,相当一部分有学院派的工作背景。专家也会被定期评估,以辨别出经常输入与采集到的数据有讹误的那些人。有人可能会认为通过征询来建立一个专家库似乎不那么有效率,但是我们在Seshat数据库公开的名单中,可以看到目前作为志愿者参与数据评估的专家们的工作质量。本文撰写时数据库的专家数量为77名,而这些志愿专家们的专业领域的覆盖范围表明,将专家评估整合到像Dacura平台这样的数据收集系统是十分可行的。大部分采用了Dacura平台的项目,可能不会有Seshat数据库这般囊括了广阔的学术视野和范围,唯一需要对数据进行评估的专家,可能就是研究者自己。
最后,Dacura支持各类输出工具让数据能够以不同格式输出到第三方平台。Dacura发布了它作为一种关联数据格式的管理数据,所以其他的用户和平台,如上文述及的Open Context,能够毫无困难地访问它。Dacura还提供SPARQL终端——一种针对RDF的查询语言——支持数据的复杂过滤和提取。这便允许智能应用程序以一种之前难以想见的方式实现与数据的交互。对于个人用户来说,Dacura平台能够生成图表、表格、地图和其他的可视化工具,为用户提供便于理解数据的可视化呈现方式。以图表或其他输出方式呈现的数据,可以浏览、检索和选定,令用户能够访问其中与他们的研究主题最为贴合的一部分数据。Dacura还可以实现数据集或它们的子项以更为广泛的数据格式输出,从而用于外部分析,其中包括地理信息系统以及诸如SPSS或者R语言的统计格式。
Dacura的实施:Seshat数据库的元数据模型
作为Dacura在研究实践中发挥作用的范例,图二向读者展示了元数据模型如何被运用到Seshat——全球历史数据库(Global Historical Databank)。Seshat数据库()的目的是组建一个全面而综合的知识体系,这些知识包括人类历史以及史前史,以实证检验有关文化演变的假说,包括宗教、仪式、战争、农业或者其他变量在社会复杂化进程中扮演的角色。迄今为止,Seshat数据库已经被用于区分出一种单一的复杂性维度,可以用来解释人类社会组织中大约四分之三的变化;此外它还被用于论证轴心时代贯穿于欧亚大陆的社会政治转型的假说,超过了一千年的时间跨度。运用适当的统计学技术来考察这类时间尺度较大的问题需要有效和可靠的数据;这也是说,数据能够反映学者们对问题的定义,同时数据在不同案例中以同样的标准被度量。
当Seshat数据库在计划筹建阶段时,正处于开发状态的Dacura被认为对Seshat来说是一个绝佳的数据处理平台。两支团队决定协同开发Dacura和Seshat平台,令双方实现信息共享。由于计算机科学家和历史学家以往不会一同开展工作,所以Dacura和Seshat两大平台的研究团队之间的合作证明跨学科研究能够取得丰硕的成果,当然前提是Dacura团队的计算机专家能够了解历史学家的需求,同时Seshat研究团队也能够理解三元数据结构在收集和管理数据层面的可能性和局限性。
Seshat的运行环境基于两个基本信息:位置信息(Location)和持续时段(Duration)。具体来说,位置信息是地球表面上任意一个点或者多边形区域,其实体被定义为领域(Territory)。Seshat定义了三级结构的领域实体(在Seshat升级后可能实现更多层级结构):
(1)自然地理区域(Natural-Geographic Areas,NGA),它指的是一种大约100x100公里的相邻区域,其中包含有相当均一的生态环境区域。
(2)生物群落(Biomes),指的是一种具有连续性的生物圈或是拥有相似气候条件的区域。
(3)世界性区域(World Regions),它可能是指像民族国家、地区政权或是能以其他特定标准识别的预定义实体。
一个持续时段可以设定为一个单个日期或一个时间段。添加一个持续时段到领域实体层级中去,便可以产生两个有时间限制的实体之一:
(1)人口,指在一个确定的时间段内生活在某个特定领域内的一批人类群体;
(2)一个历史事件,它被定义为在一个确定的时间段内、在某个特定领域内发生的事件。
Seshat数据库能够为特定研究问题提供人口和历史事件的实体类。对于人口,目前有以下几种实体类:
(1)传统,它被定义为人类群体“分享相似的日常生活实践、技术以及社会政治组织,它们在一个相对大的区域空间内呈现出连续性,并且在一段相对较长的时期里保持了延续性”。对于这个实体类来说,考古学传统概览(the Outline of Archaeological Traditions,下文简称OAT)为平台的案例选择提供了通用的抽样范围;同时,文化资料概览(the Outline of Cultural Materials,以下简称OCM)为数据编码提供了词库。
(2)文化群体,它指的是一类人群,他们共享一套规范、信仰、行为、价值、态度等等。对于这个实体类来说,主要的抽样范围来自世界文化概览(the Outline of World Cultures,以下简称OWC),词库同样来自OCM。

(3)政治组织,它指的是基于相似的政府管理形成的独立的政治性联合体。这里有一个用于具体研究项目而创建的实体类范例。图尔钦等人撰写的论文向读者展示了一个由30个案例组成的样本,这些案例根据社会政治组织和地理区域的特点被挑选出来。OCM为这个实体类提供了主要的词库。
(4)聚落,这个实体类的物理空间以及物质设施范围很广,其规模大小和复杂程度的跨度涵盖了临时性营地以及大都市。由于能够被编码的聚落范围庞大,该实体没有界定抽样范围。主要的词库来源仍然是OCM。
(5)认同群体,具有相同的归属感的一群人。跟政治组织类似,这个实体类也是为特定的研究项目创建的,它的抽样也具有随机性的特征。对于这一实体,没有正式的词库,不过OCM在一些特定领域也被使用。
(6)语言群体,它是指使用同一种语言的群体。这一实体类使用的抽样范围是民族语言志平台(Ethnologue,),但是它也没有正式的词库(同样,OCM在一些特定领域也被使用)。
此外,子类层级也能够被添加到实体类中去,以为研究者提供属性更多的数据集。图三便显示了为上述提及的实体类创建的实体子类。
“历史事件”实体则明显地包含近乎无限可能的实体类和子类。故而为了维持一些历史事件实体的秩序结构,DBpedia (/server/ontology/classes/)中的事件实体作为基本的本体得到了使用。正如图二显示的,目前实体类中的事件实体包括:
(1)群体内部冲突,诸如战争、决斗、分封等类似事件。
(2)社会-自然性灾害,如饥荒或瘟疫。
(3)自然灾害,如干旱、洪水、虫害、火山爆发等等。
(4)社会崩坏。
(5)交接仪式,如婚礼、加冕、启动仪式等活动。
(6)社会运动,包括像移民这种身体迁移活动,还有诸如复兴性运动、千禧主义、罢工等社会性运动。
(7)技术性事件,如发明、发现、技术创新等等。
Seshat的内容获取:Dacura的工作流
作为历史学家如何应用Dacura获取数据集的范例,图四为读者展示了传统的实体类数据,如何通过Dacura填充到Seshat数据库中去。图中蓝色矩形之内的流程完全可以实现自动化,而蓝色矩形之外的区域需要把自动分析和专家评估结合起来,确保Seshat数据的有效性和可靠性。我们可以看到,蓝色矩形顶部的处理流程,人口这个实体是由领域范围内的持续时段所定义的。人口实体的特征会通过OAT的词库被分配到传统实体类之中。然后,数据挖掘的工作流会启动自动搜索的进程,根据OCM词库在互联网搜索文化领域的相关信息。在这个节点,研究者也可以使用Dacura检索互联网或者印刷材料获取文化领域的数据。Dacura会在特定的文化领域收集信息,在图四所示的范例中,我们用考古学数据作为例子,系统会对比DBpedia中的数据,以确定关联的数据是否需要纳入其他来源的数据,并且通过自动分析程序评估数据的一致性。前后矛盾的数据(如存在语义矛盾或数值冲突的数据)会输出给研究文化群体或文化领域的研究者和专家做进一步评估。这些研究者或领域专家要么会为文化领域确定一个规范值,要么在冲突无法解决时,给出一个非规范值。不管怎么说,所有收集过来的数据都会囊括进Seshat数据库,并且被标记为规范值或者非规范值,其他研究者可以检索到这些值并对之加以修正或扩展它们的解释。规范数值同时也会输出到DBpedia以协助其他的研究者以及未来的搜索。
研究者也可以输入自己的数据,包括图片、媒体和shapefile格式文件。数据合并的处理流程可允许其他研究者通过关联数据来访问这些共享文件,令之可以被广泛使用。更为重要的意义在于,那些被整合进Seshat或由Dacura生成的数据集中的其他数据,其质量能够不断得到提升,这正是归功于Dacura允许研究者对先前合并的数据进行评注和再评估。换句话说,Dacura不仅可以用于创建和管理巨量数据集,也能确保数据质量能够持续不断地得到提升。
使用Seshat数据库:从Dacura输出数据
到了这一步,关切夏威夷人口估值的研究者便能够通过Seshat数据库——或是她自己利用Dacura生成的数据集——来迅速地获得精确并且可以溯源的人口数据。她可以通过Dacura来开启Seshat数据库,接着在操作界面中选取夏威夷的自然地理区域模块,然后选取她所感兴趣的某个历史时期的夏威夷居住人口的政治组织子级,之后再选择人口这个变量。我们在Youtube上传了一部视频供读者参考。在这个案例中,这位学者获得的有关人口的数据源自Seshat数据库,这个数据是我们上文述及的Dacura数据收集和评估进程的产物。但是我们的研究者还能够使用Dacura创建新本体,以引导她进行更具个性化的搜索,正如我们在上文提到的视频中揭示的那样。
无论是在Seshat平台还是她运用Dacura从其他来源获取的数据,我们的学者都能获得各种类型的结果输出。正如前文述及的那样,Dacura会将数据集作为关联数据发布,并使用SPARQL进行输出。SPARQL是一种RDF的查询语言,后者能够生成文档和原始数据集,还有像图表、表格、地图之类的其他可视化信息。另外一点对史学工作者也至关重要,即SPARQL与GeoSPARQL能够协同运行,这得以让SPARQL数据集整合进入采用了OGC(Open Geospatial Consortium,开放地理空间信息联盟)查询标准(比如GML、WKT等)的地理信息系统中去。此外,Dacura平台上生成的原始文本、媒体或数字数据,也能够被浏览、搜索和挑选,研究者可以访问对研究最有价值的那部分文本、图片、媒体或数据集。Dacura还能够收集或输入的材料——或是它们的子级——以更多格式导出来支持进一步的外部分析。例如,研究者可能会想把有关人口估算值的数据输出到统计分析平台。那么Dacura将会生成逗号分割文件(comma-delimited file),这个文件能够被直接传输到电子表格或是统计数据软件包,如此一来研究者就可以使用任何数据分析的方法,来解答自己的问题。图五展示了一个有关夏威夷人口估算值的简单线性图表,它的生成有赖于Dacura和Seshat平台的数据输出功能,生成了一个CSV文件,并使用Excel制作了一张图表。
我们的这位研究者最初问题的答案是,夏威夷的人口增长确实先于这座岛屿上第一个国家政权的产生,这也正如人口压力模型预测的那样。就答案本身来说,这算不上是个令人印象深刻的结果(实际上或许也是个非常简单化的结论),但是考虑到我们的研究者通过Dacura平台的处理进程,可以在几分钟里收集数据,同时对它们的质量抱有信心,而且还可以访问与之相关的所有附加数据,不能不说是一次令人叹服的研究之旅。
结论
互联网为历史学家提供了大量的信息,然而现状却是,这些信息经常太过丰富,而且缺少质量监控。Dacura便是旨在解决这些问题而被设计开发出来的。它提供一种便捷的、质量有保证的途径,帮助史学工作者在互联网上收集信息,同时提供一个可供管理的质量控制体系。Dacura具有的精心设计的本体(dacura.scss.tcd.ie/ontologies/ dacura-130317.ttl),进而使研究者能够简易地定义和检索到与他们的研究直接相关的信息。Dacura的一体化词库和RDF三元存储结构让用户不需要使用在结果中进行跨领域的详细索引,如此一来,有关给定主题的所有信息,甚至那些相关性不那么明显或作为相关索引的信息,都可以被用户检索到。此外,Dacura提供的用于输出的数据格式非常广泛,从文本到可视化形式再到表格。Dacura虽然不是唯一可用的数据收集和管理程序,但是因为它与Seshat数据库一同被开发出来,因而它为新兴的基于计算机技术的历史和考古数据处理提供了一个独特模型。
从这个角度来说,Dacura展现了一系列可应用于历史学研究的重要新工具。正如肯特在他最近发表的论文中指出的那样,“(历史学家以及)考古学家在获取、管理和分析大量且差异巨大的数据过程中,日益面临挑战。” Dacura平台的问世为这一系列挑战提供了数种解决方案。具体来说,Dacura平台嵌入了(1)一个基于RDF三元存储的语义知识图谱技术,同时运用了(2)网络本体语言(OWL)来进行数据定义,它还嵌入了(3)语义推理模块,该模块是自动进行数据评估的基础,以及(4)它按照关联数据标准实现结果输出。
通过OWL数据定义和知识图谱技术,历史学家可以把收集到的海量数据,以快捷和简易的方式将那些对既定研究主题最为重要的信息精减和筛选出来,并且可以让这些数据以多样的格式输出。语义推理模块为用户提供了一种迅捷的数据评估以及可持续管理的机制。关联数据标准制式下,Dacura允许研究者随时访问那些经由其他学者收集来和评估过的数据。
另外,在像Dacura这样的平台上,计算机科学领域最近取得的新进展,也为那些非历史学领域的学者提供了可用和精确的历史数据。长期以来,那些有关文化稳定和变迁的时空记录,以及人类社会成功或者失败的实践案例,在考古学和历史学学科之外没有得到广泛应用,这是令许多史学工作者倍感沮丧的事情。不过这也没什么好惊讶的,因为对于外行来说,历史数据和材料很难获取也很难理解。然而,像Dacura这样的平台,它们通过自动化方式对历史数据进行收集、评估,对经过检验的精确的历史学数据进行检索,从而为经济学家、政治学家、生态学家、地理学家以及大众提供了一种获取数据途径和模型,让他们得以探索人类历史长河中累积下来的丰富而宝贵的历史记录。
致谢
本文作者向参加了于2015年5月4日至6日在圣塔菲研究所举办的工作坊的与会者表示感谢,在这次工作坊上与会者们讨论了有关数据收集以及高质量信息整合的各种需要,以及Seshat元数据模型的开发事宜。我们还要感谢Dacura平台的研究团队、博士后工作站人员、顾问人员以及专家团队,他们做出了巨大贡献。此外,我们的合作伙伴为我们撰写这篇论文提供了无比宝贵的协助。更多具体信息,也请读者登录Seshat的网页()查看公示的详细清单,包括私人捐赠、合作者、专家、顾问以及他们擅长的专业领域。最后,我们向匿名评审专家致以感谢,正是他们深富洞见的评审意见令我们能够更好地提升论文的质量和水准。
(作者彼得·比勒金[Peter N. Peregrine],劳伦斯大学人类学系,圣塔菲研究所;罗布·布伦南[Rob Brennan],都柏林大学三一学院,统计学和计算机科学学院ADAPT&知识与数据工程项目组;托马斯·柯里[Thomas Currie],埃克塞特大学生命科学系;凯文·费尼[Kevin Feeney],都柏林大学三一学院,计算机科学与统计学院,知识与数据工程项目组;彼得·弗朗索瓦[Pieter François],赫特福德大学人文学院,牛津大学认知与发展人类学研究所;彼得·特钦[Peter Turchin],康涅狄格大学生态与进化生物学系;哈维·怀特霍斯[Harvey Whitehouseg],牛津大学认知与发展人类学研究所。译者纪子凡,南京大学历史学院硕士研究生)
本文注释及更多精彩文章请参阅《全球史评论》第十九辑
首师大全球史中心
公众号ID:gh-cnu
欢迎关注,谢谢大家~
裴健:搜索皆智能,智能皆搜索
网站优化 • 优采云 发表了文章 • 0 个评论 • 77 次浏览 • 2022-06-18 01:11
作者 | 陈大鑫
编辑 | 丛 末
6月23日,加拿大西门菲莎大学教授裴健在第二届北京智源大会上做了《智能搜索:从工具到思维方式和心智》的报告。
裴老师最近当选为加拿大工程院院士,现在是加拿大皇家科学院和加拿大工程院的两院院士。裴老师是国际著名的数据科学、数据挖掘和数据管理专家,专长于通过数据战略制定、数据资产管理、数据资源整合和数据产品设计研发把数据和技术转化为业务能力和效益。他同时是多家企业的顾问,提供高端战略咨询和技术咨询服务。其论著被引用九万七千多次。有关裴健老师的更多独家信息,请移步 一文。北京智源大会是智源研究院主办的年度国际性人工智能高端学术交流活动,2019年举办了首届大会,今年为第二届。大会参会官网:。裴健老师在这次的演讲中提出了三个核心观点:第一,搜索皆智能,搜索以人为核心,以满足人的信息需求为目的,所以它天然就包含了智能成分。第二,智能皆搜索,我们要做到智能必须要用到搜索的方法,目前人工智能的很多应用都是搜索任务,智能和搜索同行。第三,智能搜索不仅是一个单纯的技术问题,更是一个与人相关的问题,我们必须要一起努力,使得每个人都不会被落下,让智能搜索服务全人类。在演讲最后,中国人民大学教授、智源首席科学家文继荣与裴健老师进行了精彩的问答互动:智能搜索和智能推荐可能比我们想象中更深刻地影响到我们每天的生活,比如你有一个问题,你的第一反应是不是去搜一下?或者说你想获取什么信息,你会第一时间打开如头条、微博、知乎这样的一些APP,然后去看它给你推荐了一些什么?做搜索、推荐、数据分析的人责任是非常重大的,如果这方面做得不好,在极端情况下就有可能改变我们下一代甚至改变人类的思维方式,改变我们对世界的看法,因为一个人对整个世界的看法更多地是由他接收到的信息、他的经历所塑造的。
如果我们的信息推送和用户检索到的信息是有问题的,比如刚刚提到的信息是有偏见的,比如我看什么就给我推荐什么,那我就进入了信息减法的世界,我可能会失去了解这个世界的更多可能性。通过这次精彩的演讲和问答互动,我们可以从智能推荐或者个性化推荐等技术中看到一些人文关怀和哲学反思。人文关怀:老人会不会因为不会用智能手机、不会用电脑而享受不了智能搜索带来的红利?比如说残疾人和在偏远地区、经济不发达地区的人会不会因为达不到智能搜索的入门门槛而被慢慢抛弃?我们应该如何解决这些问题?哲学反思:随着我们越来越依靠智能搜索、个性化推荐,我们是否会失去了解这个世界的更多可能性?我们是否会失去一部分原有的“自由意志”?究竟是我们驯化了这个信息流世界还是被其驯化?以下为裴健演讲正文:今天我报告的题目是智能搜索:从技术工具到思维心智。首先,让我们来简单回顾一下搜索的基本概念。在搜索当中,我们假定用户有信息需求。用户的信息需求往往不能直接被搜索系统直接理解,于是用户把信息需求转化为搜索系统的查询。搜索系统得到用户的查询,找到相应的结果,可能是一些文档、图片、图像或者是生成的内容,返回给用户。用户可以根据这些是否是所需要的,产生相应的反馈,搜索系统根据用户的反馈来决定是否需要去对搜索进行增强。这样一个过程不断循环,直到用户信息需求得到了满足,整个搜索过程就结束了。
这个过程听起来非常得完美,很简洁。但在实际当中,搜索并不是那么简单,要比这个复杂得多。
1
搜索皆智能在实际生活当中,“用户信息需求是固定的”这个假设命题其实是个伪命题。在很多情况下,用户的信息需求不断变化。更麻烦的是,用户本身可能并不清楚自己的信息需求到底是什么。举个例子来说,比如我听说某个小区有新型肺炎的新感染案例,发出一个“新冠肺炎感染病例”的查询,那么这个查询到底是想问什么呢?用户自己可能并不清楚,在很多时候用户可能是发出一个查询先问一下,看搜索引擎给返回什么样的信息。用户和搜索引擎的交互过程就是一个探索的过程,用户的信息需求在不断变化。在“新冠肺炎感染病例”的例子里,用户可能想问的是这个感染病例是不是得到了治疗?感染病例的具体情况是怎样的?看到搜索引擎的回答后,用户可能马上想到这个感染案例对小区的生活,如出行、购物等,有什么影响?大家可以看到信息需求是不断变化的,我们在搜索过程中不能假定用户的信息需求是不变的。信息系统必须想办法去理解用户的真实信息需求,为用户提供探索的工具。因此,搜索本身从一开始就是智能的,因为它把人摆在了整个过程的中心。
下面举个例子来讲一下搜索过程为什么是一个探索的过程。在VLDB-2019的会议上,我的研究小组发表了一篇社团搜索的文章。和很多已有的社团搜索工作不太一样,我们假定在每一个网络节点上都有一个数据库。如果这个网络结点是一个人,那么这个数据库就可以是这个人以往购买东西的整个历史。如果这个网络结点是一个论文作者,那这个数据库就是他以前发表的所有论文的集合。我们关心在这样一个网络里面怎样找到社团?
我们希望社团内成员之间不但有很密切的网络连接关系,还能在数据库上又有非常相似的模式。这样社团有什么用呢?举例来说,在论文作者的数据网络上,用户可能关心的是能不能找到那些用数据挖掘方法来研究人脸识别和图象检索的社团?我们的搜索首先形成了一个查询模式a1。
同时,我们的搜索算法还能够提供针对a1的各种细化,比如b1、b2、直到b8。在这些细化当中我们会专门看各个具体的分支,包括算法具体分支和问题具体分支。这些分支给用户带来探索方向和探索方便。这种探索可以进一步往下走。比如说b8可以进一步探索到c1、c2两种具体的情况。整个过程是一个不断深入、不断尝试、不断修正的探索过程。
2
智能皆搜索搜索皆智能,搜索要用到大量的人工智能技术,所以我们要通过人工智能技术去理解用户的信息需求。同时,智能很复杂,智能的每一个任务都需要多多少少用到搜索技术。什么是智能?智能是关于连接的,我们需要把不同的数据、不同的知识点连接起来;智能是关于推理的,我们需要对数据、对知识进行相应的推理;智能是关于泛化的,我们有具体的观察,我们希望通过若干具体的观察、具体的例子来泛化来概括成通用的规律;智能还需要去做具体化,我们有一些通用的原则,要把它用到具体的事例里面,提高具体事例处理的效率和效果。所有这些都需要搜索相应的数据,搜索相应的知识,搜索相应的连接。所以智能皆搜索,智能离不开搜索,智能必须通过搜索来实现。
下面举个一个我们KDD 2016论文中的例子来介绍我们怎么通过搜索来达到知识发现。我们可以在WordNet的网络上面找到很有意思的一些社团,每一个社团内部非常相似,社团成员之间有很强的关联,同时,社团之间非常对立,有非常大的差异。
当我们把这个问题用在形容词网络里面,我们就找到了大家在胶片上看到的Group1和Group2这样对立的社团,所以我们把它叫做gangs in war。大家仔细看,每一个社团内部是一组同义组,Group1和Group2之间是反义词关系。我们用智能搜索带给我们新知识,我们可以在词的网络上自动发现同义词和反义词。
刚才我们讲了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者紧密结合,搜索和智能同行。这里包括两个意思,第一,我们需要用搜索的技术来达到更好的人工智能。像我刚才举的例子,我们可以通过很好的搜索来自动的发现知识,同时我们需要用很多的智能技术和计算来使得搜索更加有效。这里的智能不单单只是人工智能,还包括了很多真正的人的智能,因为我们最终的搜索是为人服务的。
这里举一个例子,这是我们最近刚刚完成的一个论文,我们研究的是基于Web-scale的多语言问答系统。问答系统有很多,在很多商用的搜索引擎里面都有相应的问答功能。当一个用户给出一个问题,例如说想知道感冒症状,搜索引擎可以总结出像下图左边的信息卡,这个信息卡上会列出相应的感冒的症状甚至是治疗的方法。这给用户带来了很多的便利,在一定程度上这也是对知识的抽取和总结。
当搜索引擎给出这样一个答案时,这个答案是否满足了用户的信息需求?这个答案的知识是否正确?是否有用?我们希望能够得到用户的反馈,我们希望用户用人的智能来帮助机器进行学习。这里有一个挑战。很多情况下,用户看过答案但并不一定给出一个显式的反馈,理解人的反馈是一个非常复杂的过程。在这篇论文里面,我们系统地研究了如何观察、推理用户对搜索引擎所给出的问答信息的反馈,如何对用户的行为进行挖掘,抽取相应的反馈信号,用这些信号来改进我们的QA系统。
上图是在一个全球化商业搜索引擎数据集上面所做的实验结果。当我们的系统考虑了用户真正的已知反馈之后,整个搜索效果比不用这个反馈的系统好得多。同时,我们可以看到一个非常有意思的现象:这种智能搜索所发现的知识可以在不同的领域进行迁移。
举个例子来说,在整个模型建立的过程中,我们用的是英语数据,在英语数据里面,我们抽取了相应的问答和相应的用户反馈。英语里发现的知识完全是可以往别的语言迁移,如德语和法语。迁移的效果很好,在法语的数据集上面我们用了很少的大概5K的数据就能够达到如果没有跨语言的迁移、没有反馈的时候需要用50K的数据才能达到的效果。也就是说,通过应用用户的反馈,我们能够大大减少相应的数据需求,我们的确可以通过智能化的方法理解用户,并让用户把人类智能来帮助我们的机器。我们的技术已经在一个大型商用搜索引擎的多语言服务中上线应用。
3
智能搜索,与人相关因为搜索的主体是人,所以搜索并不简单是一个技术问题。最近在《纽约时报》有一篇很好的文章,题目就是Tech is global. right?:技术是全球化的,对吗?对,技术是全球化的。
这篇文章谈到了很多先进的美国企业把相应的技术和平台用到别的国家和地区效果不好。这里面涉及到很多因素,特别是很多与人有关的因素,例如说本地化、可理解性、文化、公平性、隐私保护、模型的复杂性、安全性等等。如果我们要把智能搜索做好,就必须密切考虑人的因素。其中,深度学习模型的复杂性是一个重要的因素。我们最近刚刚完成了一篇KDD2020的论文在这方面做了一些探索。模型复杂性本身是一个很复杂的问题。在很多场合下,人们可能只是简单地比较两个模型之间的准确度或者别的一些性能指标,但哪怕两个模型的性能在测试集上是完全一样的,并不意味着这两个模型的本质是一样的,也不意味着它们捕捉了同样的客观现实。
举个具体例子,上图这两个模型在相应的数据点上是完全一致的,但是这两个模型其实差得非常远。因此我们需要有一个系统的方法来衡量模型的复杂度、来衡量模型到底有没有对数据过拟合。我们的KDD2020上的论文就在这方面给出了一些新的方法。与模型和搜索方法很相关的另外一个问题是可解释性,一个模型要获得大家的信任,它必须有良好的可解释性。我们认为,模型的可解释性一定要满足两个原则。第一是准确性:如果我用一个模型来解释另外一个模型,那这两个模型必须在数学上等价。如果不等价,解释就可能会有问题。第二,模型的解释必须是一致的。一致是什么意思呢?如果我有两个非常相似的样例,它们相应的解释也应该非常相似,这才能够符合人的直觉。可解释性问题的核心是把一个黑盒子转化为一个白盒子。
我们KDD2018的论文通过把一个深度网络转化为一个基于内部神经元状态的向量,给出基于多胞体(polytope)的解释。这样所得到的解释是精确的:从数学上解释的模型和原来的深度网络等价。同时,解释也是是一致的:如果两个点很相近,它们落在同一个多胞体里面,它们就会遵从相应的相同的线性分类器,所以它们的相应解释也会是一样的。
在今年的ICDE论文中,我们把解释模型推到了云端。以往的解释工具往往需要知道整个模型的参数,甚至要知道相应的很多训练数据。在今年的ICDE论文里,我们提出可以把整个模型作为一个黑盒,然后给出准确和一致的解释,不需要知道模型的参数和训练数据。这里核心的想法是:如果我们有若干的样例,这些样例落在同一个多胞体里面,它们就应该遵循同一个线性分类器,于是我们可以建造一个线性方程式系统,用此来为我们提供相应的解释。关于怎么样把智能搜索做好,我们讲了很多。但是我们应该要充分认识到一点,智能搜索也在不断地改变我们的心智。
在国外大家经常说这句话:如果你遇到一个不了解的事情怎么办?用搜索引擎查一下(google it)。在国内也有俗语叫:内事问度娘,外事问谷歌。搜索的过程和结果很深刻地改变了人类的思维和学习方式。在某些方面搜索拓宽了我们获取信息的渠道和速度,使得我们更聪明。但在另一些方面,我们可能会过度依赖智能搜索,在很多地方会变得笨了。这里,信息的准确性和公平性变得非常重要。在这次的疫情当中,我们都知道虚假信息是非常严重的一个问题。很多小道消息、虚假消息通过社交媒体传播产生了很坏的作用。最近推特干了一件很有意思的事情,他们用了一个简单聪明的办法来对付虚假消息。他们观测到有很多人在社交媒体里面看到一个有意思的标题就转发了,但并没有看过那个文章。于是推特在你转发一个没有看过内容的推特时,提示用户其实没有看过这篇文章。这个提示对于降低虚假消息的传播会有很大的帮助。但是这种帮助是有代价的,它需要我们牺牲一定的隐私。推特需要知道你看过什么才知道你有没有看过自己转发的东西。这里有一个挑战性的均衡:我们到底需要保留什么样的隐私,怎么样制止虚假消息的传播。
我们知道抖音在国内外都非常成功,已经出现了一代新的人类叫作Tik TOK Generation。它们通过智能的搜索和推荐技术把人与人连接起来,把内容和内容连接起来。在内容创造上Tik TOK Generation以及这类新媒体有一些重要的特点。其中之一就是媒体内容本身不是那么重要,反而对媒体的评论和媒体的跟进会更重要。大家经常跑到很多新媒体上并不是看它真正的内容,而是看后面跟着的评论。由于智能搜索和智能推荐技术的发展使得人与人之间的连接、内容与内容之间的连接、人与内容之间的连接更加容易、更加广泛。很多人原来并不需要互相认识,但是通过这个智能搜索和智能推荐他们会联系在一起,形成长期的交互,这就导致了我们现在面临着新一代所谓的热情经济。
跟传统的零工经济经济相比,热情经济有一系列新特点。举例来说,热情经济从业者不断地产生新内容,不断地吸引更多的观众获得相应的营收,这是以往很多经济模式不具备的。同时由于智能搜索、智能推荐和平台的连接作用使受众面会大大提高,更多有创意的产品和服务可以以更低的成本推向服务市场,这些也给我们带来很多新机会和新挑战。热情经济完全是基于新的技术、新的软件、新的媒体。智能搜索是热情经济的核心技术,通过技术的进步使得平台更加有效、内容开发更加方便、创业更加快捷、创业者和受众的联系更加紧密、交互更加方便。智能搜索彻底改变了我们的生活。可以说智能搜索已经变成了我们无时无刻、无处不在的需求和工具。智能搜索同时也会产生很多新的挑战。其中一个核心的挑战是我们怎么确保智能搜索服务于社会的每一个人,没有人因为各种限制而被智能搜索遗弃。
举个例子来说,老人们会不会因为不会用智能手机而享受不了智能搜索带来的红利?又比如说,残疾人、偏远地区和经济不发达地区的人们会不会因为达不到智能搜索的基础设施入门门槛而被抛弃?这些都是我们需要考虑的问题。我们都知道现在医院挂号经常需要用智能手机来预约,但是很多老人,特别是那些七八十岁、八九十岁的老人,并不会使用智能手机,用起来也很不方便。他们怎么才能获得信息渠道并消费这些信息?这些都是我们做智能搜索的人需要认真考虑和抓紧行动的方向。我个人认为智能搜索远远不仅仅是一个技术问题,也远远不仅仅是一个人工智能的问题,它是一个非常复杂的全社会的系统工程。
问答环节 文继荣:对智能搜索和智能推荐来说,所谓的智能就是越来越了解你,以人为中心来了解你,它给你的信息越来越趋近于你过去的兴趣和经历,但是这样会不会使你失去了解这个世界多样性的可能?在整个大的框架方面或者在整个研究方向上面,有没有更多的深刻思考?裴健:智能搜索化、智能推荐已经成为下一代人类重要的信息入口,也是非常重要的信息出口。只能搜索把握了这一进一出,对未来的人类有很大的塑造能力。这也许是大家做技术的时候并没有特别深思的一个问题。我们一点一滴的技术贡献会怎样改变未来人类学习的方式、思考的方式和所知所行。这里面涉及很多问题。例如说我们可以通过可适应性使得我们的教育效率提高,使得一个人更容易学习。但是可适应性在一定程度下又可能有缺陷。我们如果过分迁就人类的惰性,就可能会使一部分最聪明的人失去了挑战更高高度的机会。再例如,到底让智能搜索受众学什么?怎么保证整个环境公平性?大家开始去思考,但是远远没有答案。我在演讲的最后也强调了这不是简单的技术问题,这是全社会的很复杂的问题。观众发问:感觉像谷歌、百度这些巨头已经形成了垄断,其它的搜索引擎或者其它的新的搜索工具经历了多年都没有成长起来。请问这些研究智能搜索方向的人除了到这些巨头公司工作以外,还有没有更好的出路?裴健:搜索仍在不断地创新,现在所有商用搜索引擎最头疼的事情是越来越多的高质量信息不在公开的互联网上,而在相对封闭的社交媒体上。
例如说在朋友圈有很多质量高的信息源,但这种信息源是通用搜索引擎查不到的。怎样把这些信息源整合起来形成一种更强大的搜索能力?这是一个有意思的研究方向。现在很多的搜索跟广告、商业模式结合起来,是商业驱动、利润引导。最近原谷歌的两位高管创办了一个新公司,这个公司做的搜索引擎Neeva号称不会有广告,而且要打通一些社交媒体,使得搜索的面更广。这些新业务模式不管成功与否都是非常有意义的尝试。智能搜索从就业、创业的角度来说有很广阔的前景。同时智能搜索会涉及到我们生活中的方方面面,例如说在IOT环境下怎么做智能搜索?这些都是现有的面向通用web搜索所不能涵盖的,也会是很有意思的方面。文继荣:现在搜索引擎不管从主要的核心功能还是到形态上已经几十年没有变化了,实际上现在很多东西都在变,比如说裴老师讲的热情经济,还有国内的一个网红经济,现在都是影响非常大的。我昨天看了一个新闻说的非常好玩,浙江余姚区网红可以评为国家级创新人才,不知道真的假的。实际上这个世界在飞速的变化,可能很多时候你认为没有变化空间的时候就是会开始很大变化的时期。就搜索来说,我觉得就直观感受而言还远远达不到我们真正想要了解的世界。这次新冠病毒期间,我觉得甚至可以开一个研讨会来讨论一下这中间的很多问题,人们在获取信息时出现了很多问题,有虚假信息问题也有信息多样性问题。这些信息对大家的影响是巨大的,你可以经常感觉到整个朋友圈都在转发和讨论一个信息。尤其大家在家里没办法面对面交谈,你可以通过控制信息来控制大家的观点和情绪,这个事情我觉得是非常重要的。我们人类将来会走向更加数字化的阶段,从搜索和推荐的角度对信息进行获取和处理,我觉得我们到了一个全新的时期,我们需要去探索。
查看全部
裴健:搜索皆智能,智能皆搜索
作者 | 陈大鑫
编辑 | 丛 末
6月23日,加拿大西门菲莎大学教授裴健在第二届北京智源大会上做了《智能搜索:从工具到思维方式和心智》的报告。
裴老师最近当选为加拿大工程院院士,现在是加拿大皇家科学院和加拿大工程院的两院院士。裴老师是国际著名的数据科学、数据挖掘和数据管理专家,专长于通过数据战略制定、数据资产管理、数据资源整合和数据产品设计研发把数据和技术转化为业务能力和效益。他同时是多家企业的顾问,提供高端战略咨询和技术咨询服务。其论著被引用九万七千多次。有关裴健老师的更多独家信息,请移步 一文。北京智源大会是智源研究院主办的年度国际性人工智能高端学术交流活动,2019年举办了首届大会,今年为第二届。大会参会官网:。裴健老师在这次的演讲中提出了三个核心观点:第一,搜索皆智能,搜索以人为核心,以满足人的信息需求为目的,所以它天然就包含了智能成分。第二,智能皆搜索,我们要做到智能必须要用到搜索的方法,目前人工智能的很多应用都是搜索任务,智能和搜索同行。第三,智能搜索不仅是一个单纯的技术问题,更是一个与人相关的问题,我们必须要一起努力,使得每个人都不会被落下,让智能搜索服务全人类。在演讲最后,中国人民大学教授、智源首席科学家文继荣与裴健老师进行了精彩的问答互动:智能搜索和智能推荐可能比我们想象中更深刻地影响到我们每天的生活,比如你有一个问题,你的第一反应是不是去搜一下?或者说你想获取什么信息,你会第一时间打开如头条、微博、知乎这样的一些APP,然后去看它给你推荐了一些什么?做搜索、推荐、数据分析的人责任是非常重大的,如果这方面做得不好,在极端情况下就有可能改变我们下一代甚至改变人类的思维方式,改变我们对世界的看法,因为一个人对整个世界的看法更多地是由他接收到的信息、他的经历所塑造的。
如果我们的信息推送和用户检索到的信息是有问题的,比如刚刚提到的信息是有偏见的,比如我看什么就给我推荐什么,那我就进入了信息减法的世界,我可能会失去了解这个世界的更多可能性。通过这次精彩的演讲和问答互动,我们可以从智能推荐或者个性化推荐等技术中看到一些人文关怀和哲学反思。人文关怀:老人会不会因为不会用智能手机、不会用电脑而享受不了智能搜索带来的红利?比如说残疾人和在偏远地区、经济不发达地区的人会不会因为达不到智能搜索的入门门槛而被慢慢抛弃?我们应该如何解决这些问题?哲学反思:随着我们越来越依靠智能搜索、个性化推荐,我们是否会失去了解这个世界的更多可能性?我们是否会失去一部分原有的“自由意志”?究竟是我们驯化了这个信息流世界还是被其驯化?以下为裴健演讲正文:今天我报告的题目是智能搜索:从技术工具到思维心智。首先,让我们来简单回顾一下搜索的基本概念。在搜索当中,我们假定用户有信息需求。用户的信息需求往往不能直接被搜索系统直接理解,于是用户把信息需求转化为搜索系统的查询。搜索系统得到用户的查询,找到相应的结果,可能是一些文档、图片、图像或者是生成的内容,返回给用户。用户可以根据这些是否是所需要的,产生相应的反馈,搜索系统根据用户的反馈来决定是否需要去对搜索进行增强。这样一个过程不断循环,直到用户信息需求得到了满足,整个搜索过程就结束了。
这个过程听起来非常得完美,很简洁。但在实际当中,搜索并不是那么简单,要比这个复杂得多。
1
搜索皆智能在实际生活当中,“用户信息需求是固定的”这个假设命题其实是个伪命题。在很多情况下,用户的信息需求不断变化。更麻烦的是,用户本身可能并不清楚自己的信息需求到底是什么。举个例子来说,比如我听说某个小区有新型肺炎的新感染案例,发出一个“新冠肺炎感染病例”的查询,那么这个查询到底是想问什么呢?用户自己可能并不清楚,在很多时候用户可能是发出一个查询先问一下,看搜索引擎给返回什么样的信息。用户和搜索引擎的交互过程就是一个探索的过程,用户的信息需求在不断变化。在“新冠肺炎感染病例”的例子里,用户可能想问的是这个感染病例是不是得到了治疗?感染病例的具体情况是怎样的?看到搜索引擎的回答后,用户可能马上想到这个感染案例对小区的生活,如出行、购物等,有什么影响?大家可以看到信息需求是不断变化的,我们在搜索过程中不能假定用户的信息需求是不变的。信息系统必须想办法去理解用户的真实信息需求,为用户提供探索的工具。因此,搜索本身从一开始就是智能的,因为它把人摆在了整个过程的中心。
下面举个例子来讲一下搜索过程为什么是一个探索的过程。在VLDB-2019的会议上,我的研究小组发表了一篇社团搜索的文章。和很多已有的社团搜索工作不太一样,我们假定在每一个网络节点上都有一个数据库。如果这个网络结点是一个人,那么这个数据库就可以是这个人以往购买东西的整个历史。如果这个网络结点是一个论文作者,那这个数据库就是他以前发表的所有论文的集合。我们关心在这样一个网络里面怎样找到社团?
我们希望社团内成员之间不但有很密切的网络连接关系,还能在数据库上又有非常相似的模式。这样社团有什么用呢?举例来说,在论文作者的数据网络上,用户可能关心的是能不能找到那些用数据挖掘方法来研究人脸识别和图象检索的社团?我们的搜索首先形成了一个查询模式a1。
同时,我们的搜索算法还能够提供针对a1的各种细化,比如b1、b2、直到b8。在这些细化当中我们会专门看各个具体的分支,包括算法具体分支和问题具体分支。这些分支给用户带来探索方向和探索方便。这种探索可以进一步往下走。比如说b8可以进一步探索到c1、c2两种具体的情况。整个过程是一个不断深入、不断尝试、不断修正的探索过程。
2
智能皆搜索搜索皆智能,搜索要用到大量的人工智能技术,所以我们要通过人工智能技术去理解用户的信息需求。同时,智能很复杂,智能的每一个任务都需要多多少少用到搜索技术。什么是智能?智能是关于连接的,我们需要把不同的数据、不同的知识点连接起来;智能是关于推理的,我们需要对数据、对知识进行相应的推理;智能是关于泛化的,我们有具体的观察,我们希望通过若干具体的观察、具体的例子来泛化来概括成通用的规律;智能还需要去做具体化,我们有一些通用的原则,要把它用到具体的事例里面,提高具体事例处理的效率和效果。所有这些都需要搜索相应的数据,搜索相应的知识,搜索相应的连接。所以智能皆搜索,智能离不开搜索,智能必须通过搜索来实现。
下面举个一个我们KDD 2016论文中的例子来介绍我们怎么通过搜索来达到知识发现。我们可以在WordNet的网络上面找到很有意思的一些社团,每一个社团内部非常相似,社团成员之间有很强的关联,同时,社团之间非常对立,有非常大的差异。
当我们把这个问题用在形容词网络里面,我们就找到了大家在胶片上看到的Group1和Group2这样对立的社团,所以我们把它叫做gangs in war。大家仔细看,每一个社团内部是一组同义组,Group1和Group2之间是反义词关系。我们用智能搜索带给我们新知识,我们可以在词的网络上自动发现同义词和反义词。
刚才我们讲了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者紧密结合,搜索和智能同行。这里包括两个意思,第一,我们需要用搜索的技术来达到更好的人工智能。像我刚才举的例子,我们可以通过很好的搜索来自动的发现知识,同时我们需要用很多的智能技术和计算来使得搜索更加有效。这里的智能不单单只是人工智能,还包括了很多真正的人的智能,因为我们最终的搜索是为人服务的。
这里举一个例子,这是我们最近刚刚完成的一个论文,我们研究的是基于Web-scale的多语言问答系统。问答系统有很多,在很多商用的搜索引擎里面都有相应的问答功能。当一个用户给出一个问题,例如说想知道感冒症状,搜索引擎可以总结出像下图左边的信息卡,这个信息卡上会列出相应的感冒的症状甚至是治疗的方法。这给用户带来了很多的便利,在一定程度上这也是对知识的抽取和总结。
当搜索引擎给出这样一个答案时,这个答案是否满足了用户的信息需求?这个答案的知识是否正确?是否有用?我们希望能够得到用户的反馈,我们希望用户用人的智能来帮助机器进行学习。这里有一个挑战。很多情况下,用户看过答案但并不一定给出一个显式的反馈,理解人的反馈是一个非常复杂的过程。在这篇论文里面,我们系统地研究了如何观察、推理用户对搜索引擎所给出的问答信息的反馈,如何对用户的行为进行挖掘,抽取相应的反馈信号,用这些信号来改进我们的QA系统。
上图是在一个全球化商业搜索引擎数据集上面所做的实验结果。当我们的系统考虑了用户真正的已知反馈之后,整个搜索效果比不用这个反馈的系统好得多。同时,我们可以看到一个非常有意思的现象:这种智能搜索所发现的知识可以在不同的领域进行迁移。
举个例子来说,在整个模型建立的过程中,我们用的是英语数据,在英语数据里面,我们抽取了相应的问答和相应的用户反馈。英语里发现的知识完全是可以往别的语言迁移,如德语和法语。迁移的效果很好,在法语的数据集上面我们用了很少的大概5K的数据就能够达到如果没有跨语言的迁移、没有反馈的时候需要用50K的数据才能达到的效果。也就是说,通过应用用户的反馈,我们能够大大减少相应的数据需求,我们的确可以通过智能化的方法理解用户,并让用户把人类智能来帮助我们的机器。我们的技术已经在一个大型商用搜索引擎的多语言服务中上线应用。
3
智能搜索,与人相关因为搜索的主体是人,所以搜索并不简单是一个技术问题。最近在《纽约时报》有一篇很好的文章,题目就是Tech is global. right?:技术是全球化的,对吗?对,技术是全球化的。
这篇文章谈到了很多先进的美国企业把相应的技术和平台用到别的国家和地区效果不好。这里面涉及到很多因素,特别是很多与人有关的因素,例如说本地化、可理解性、文化、公平性、隐私保护、模型的复杂性、安全性等等。如果我们要把智能搜索做好,就必须密切考虑人的因素。其中,深度学习模型的复杂性是一个重要的因素。我们最近刚刚完成了一篇KDD2020的论文在这方面做了一些探索。模型复杂性本身是一个很复杂的问题。在很多场合下,人们可能只是简单地比较两个模型之间的准确度或者别的一些性能指标,但哪怕两个模型的性能在测试集上是完全一样的,并不意味着这两个模型的本质是一样的,也不意味着它们捕捉了同样的客观现实。
举个具体例子,上图这两个模型在相应的数据点上是完全一致的,但是这两个模型其实差得非常远。因此我们需要有一个系统的方法来衡量模型的复杂度、来衡量模型到底有没有对数据过拟合。我们的KDD2020上的论文就在这方面给出了一些新的方法。与模型和搜索方法很相关的另外一个问题是可解释性,一个模型要获得大家的信任,它必须有良好的可解释性。我们认为,模型的可解释性一定要满足两个原则。第一是准确性:如果我用一个模型来解释另外一个模型,那这两个模型必须在数学上等价。如果不等价,解释就可能会有问题。第二,模型的解释必须是一致的。一致是什么意思呢?如果我有两个非常相似的样例,它们相应的解释也应该非常相似,这才能够符合人的直觉。可解释性问题的核心是把一个黑盒子转化为一个白盒子。
我们KDD2018的论文通过把一个深度网络转化为一个基于内部神经元状态的向量,给出基于多胞体(polytope)的解释。这样所得到的解释是精确的:从数学上解释的模型和原来的深度网络等价。同时,解释也是是一致的:如果两个点很相近,它们落在同一个多胞体里面,它们就会遵从相应的相同的线性分类器,所以它们的相应解释也会是一样的。
在今年的ICDE论文中,我们把解释模型推到了云端。以往的解释工具往往需要知道整个模型的参数,甚至要知道相应的很多训练数据。在今年的ICDE论文里,我们提出可以把整个模型作为一个黑盒,然后给出准确和一致的解释,不需要知道模型的参数和训练数据。这里核心的想法是:如果我们有若干的样例,这些样例落在同一个多胞体里面,它们就应该遵循同一个线性分类器,于是我们可以建造一个线性方程式系统,用此来为我们提供相应的解释。关于怎么样把智能搜索做好,我们讲了很多。但是我们应该要充分认识到一点,智能搜索也在不断地改变我们的心智。
在国外大家经常说这句话:如果你遇到一个不了解的事情怎么办?用搜索引擎查一下(google it)。在国内也有俗语叫:内事问度娘,外事问谷歌。搜索的过程和结果很深刻地改变了人类的思维和学习方式。在某些方面搜索拓宽了我们获取信息的渠道和速度,使得我们更聪明。但在另一些方面,我们可能会过度依赖智能搜索,在很多地方会变得笨了。这里,信息的准确性和公平性变得非常重要。在这次的疫情当中,我们都知道虚假信息是非常严重的一个问题。很多小道消息、虚假消息通过社交媒体传播产生了很坏的作用。最近推特干了一件很有意思的事情,他们用了一个简单聪明的办法来对付虚假消息。他们观测到有很多人在社交媒体里面看到一个有意思的标题就转发了,但并没有看过那个文章。于是推特在你转发一个没有看过内容的推特时,提示用户其实没有看过这篇文章。这个提示对于降低虚假消息的传播会有很大的帮助。但是这种帮助是有代价的,它需要我们牺牲一定的隐私。推特需要知道你看过什么才知道你有没有看过自己转发的东西。这里有一个挑战性的均衡:我们到底需要保留什么样的隐私,怎么样制止虚假消息的传播。
我们知道抖音在国内外都非常成功,已经出现了一代新的人类叫作Tik TOK Generation。它们通过智能的搜索和推荐技术把人与人连接起来,把内容和内容连接起来。在内容创造上Tik TOK Generation以及这类新媒体有一些重要的特点。其中之一就是媒体内容本身不是那么重要,反而对媒体的评论和媒体的跟进会更重要。大家经常跑到很多新媒体上并不是看它真正的内容,而是看后面跟着的评论。由于智能搜索和智能推荐技术的发展使得人与人之间的连接、内容与内容之间的连接、人与内容之间的连接更加容易、更加广泛。很多人原来并不需要互相认识,但是通过这个智能搜索和智能推荐他们会联系在一起,形成长期的交互,这就导致了我们现在面临着新一代所谓的热情经济。
跟传统的零工经济经济相比,热情经济有一系列新特点。举例来说,热情经济从业者不断地产生新内容,不断地吸引更多的观众获得相应的营收,这是以往很多经济模式不具备的。同时由于智能搜索、智能推荐和平台的连接作用使受众面会大大提高,更多有创意的产品和服务可以以更低的成本推向服务市场,这些也给我们带来很多新机会和新挑战。热情经济完全是基于新的技术、新的软件、新的媒体。智能搜索是热情经济的核心技术,通过技术的进步使得平台更加有效、内容开发更加方便、创业更加快捷、创业者和受众的联系更加紧密、交互更加方便。智能搜索彻底改变了我们的生活。可以说智能搜索已经变成了我们无时无刻、无处不在的需求和工具。智能搜索同时也会产生很多新的挑战。其中一个核心的挑战是我们怎么确保智能搜索服务于社会的每一个人,没有人因为各种限制而被智能搜索遗弃。
举个例子来说,老人们会不会因为不会用智能手机而享受不了智能搜索带来的红利?又比如说,残疾人、偏远地区和经济不发达地区的人们会不会因为达不到智能搜索的基础设施入门门槛而被抛弃?这些都是我们需要考虑的问题。我们都知道现在医院挂号经常需要用智能手机来预约,但是很多老人,特别是那些七八十岁、八九十岁的老人,并不会使用智能手机,用起来也很不方便。他们怎么才能获得信息渠道并消费这些信息?这些都是我们做智能搜索的人需要认真考虑和抓紧行动的方向。我个人认为智能搜索远远不仅仅是一个技术问题,也远远不仅仅是一个人工智能的问题,它是一个非常复杂的全社会的系统工程。
问答环节 文继荣:对智能搜索和智能推荐来说,所谓的智能就是越来越了解你,以人为中心来了解你,它给你的信息越来越趋近于你过去的兴趣和经历,但是这样会不会使你失去了解这个世界多样性的可能?在整个大的框架方面或者在整个研究方向上面,有没有更多的深刻思考?裴健:智能搜索化、智能推荐已经成为下一代人类重要的信息入口,也是非常重要的信息出口。只能搜索把握了这一进一出,对未来的人类有很大的塑造能力。这也许是大家做技术的时候并没有特别深思的一个问题。我们一点一滴的技术贡献会怎样改变未来人类学习的方式、思考的方式和所知所行。这里面涉及很多问题。例如说我们可以通过可适应性使得我们的教育效率提高,使得一个人更容易学习。但是可适应性在一定程度下又可能有缺陷。我们如果过分迁就人类的惰性,就可能会使一部分最聪明的人失去了挑战更高高度的机会。再例如,到底让智能搜索受众学什么?怎么保证整个环境公平性?大家开始去思考,但是远远没有答案。我在演讲的最后也强调了这不是简单的技术问题,这是全社会的很复杂的问题。观众发问:感觉像谷歌、百度这些巨头已经形成了垄断,其它的搜索引擎或者其它的新的搜索工具经历了多年都没有成长起来。请问这些研究智能搜索方向的人除了到这些巨头公司工作以外,还有没有更好的出路?裴健:搜索仍在不断地创新,现在所有商用搜索引擎最头疼的事情是越来越多的高质量信息不在公开的互联网上,而在相对封闭的社交媒体上。
例如说在朋友圈有很多质量高的信息源,但这种信息源是通用搜索引擎查不到的。怎样把这些信息源整合起来形成一种更强大的搜索能力?这是一个有意思的研究方向。现在很多的搜索跟广告、商业模式结合起来,是商业驱动、利润引导。最近原谷歌的两位高管创办了一个新公司,这个公司做的搜索引擎Neeva号称不会有广告,而且要打通一些社交媒体,使得搜索的面更广。这些新业务模式不管成功与否都是非常有意义的尝试。智能搜索从就业、创业的角度来说有很广阔的前景。同时智能搜索会涉及到我们生活中的方方面面,例如说在IOT环境下怎么做智能搜索?这些都是现有的面向通用web搜索所不能涵盖的,也会是很有意思的方面。文继荣:现在搜索引擎不管从主要的核心功能还是到形态上已经几十年没有变化了,实际上现在很多东西都在变,比如说裴老师讲的热情经济,还有国内的一个网红经济,现在都是影响非常大的。我昨天看了一个新闻说的非常好玩,浙江余姚区网红可以评为国家级创新人才,不知道真的假的。实际上这个世界在飞速的变化,可能很多时候你认为没有变化空间的时候就是会开始很大变化的时期。就搜索来说,我觉得就直观感受而言还远远达不到我们真正想要了解的世界。这次新冠病毒期间,我觉得甚至可以开一个研讨会来讨论一下这中间的很多问题,人们在获取信息时出现了很多问题,有虚假信息问题也有信息多样性问题。这些信息对大家的影响是巨大的,你可以经常感觉到整个朋友圈都在转发和讨论一个信息。尤其大家在家里没办法面对面交谈,你可以通过控制信息来控制大家的观点和情绪,这个事情我觉得是非常重要的。我们人类将来会走向更加数字化的阶段,从搜索和推荐的角度对信息进行获取和处理,我觉得我们到了一个全新的时期,我们需要去探索。
直通车推广精准人群组合这些点一起介绍一下
网站优化 • 优采云 发表了文章 • 0 个评论 • 107 次浏览 • 2022-06-05 00:01
内部信息源与外部信息源搜索引擎优化方法的异同天猫和京东平台直通车/钻展/直通车推广精准人群组合这些点一起介绍一下国内的一些直通车推广渠道:广告最大的特点是,流量获取的对象比较单一,更多是广告位,展示次数/个数、广告位竞价等,其次是转化率。站外广告渠道:百度信息流、头条信息流、站外扶持广告。站内广告渠道:除了公域流量,广告主主要需要的是靠站内的自然搜索来提升流量。
站外推广渠道:线下广告和户外。广告优化:在具体账户建设过程中,出价策略和素材选择是可以根据不同市场进行区分。直通车推广优化是基于数据分析进行操作和优化,以ppc最小精准人群来实现所在账户的最佳定位。策略是在整个过程中最具操作性的方面,策略既可以短期通过行业预估和实际效果的对比,进行分析,优化人群,也可以长期全面优化。
如人群偏好,价格预估,兴趣点,创意点击率转化率等。广告渠道淘宝平台:搜索渠道,女装、男装、包包、女包、包包、男包、鞋、包、笔记本等。其他行业也可作为一个参考。信息流渠道:百家号,东方头条,优看电商,斗鱼,游族网等等。百度信息流:北京大学清华大学上海交通大学浙江大学北京航空航天大学等985高校和普通高校等。
头条信息流:当前主要以生活娱乐场景为主。同时作为广告主打的信息流可以投放医疗相关,社保相关等。广告渠道是非常多的,为什么我们不将这些渠道优化分开,综合推广,例如一套账户下有主推产品有广告优化人群,而有了产品、人群、素材,不仅可以操作全类目,也可以操作针对性强的投放渠道,全面,系统,高效的为广告主打造产品和整体账户打造品牌效应。ppc推广渠道内容出价优化(。
一)计算广告推广渠道测试
1、哪些行业可以放大推广力度?比如男装很多小类目可以少量放大点击数和点击率,但是北上广有几百万件上千万件的客户群体,那单点投放就是几百万个亿,如果少量放大就可以超过几百万个亿的数量级。
2、不同行业怎么计算cpc?非地域型地域类推广,同一类投放同一产品可以同一行业投放这样的投放方式。其次是由于产品和地域定位有异,比如3c的产品可以放大点击率和转化率等,地域类的产品或者潜在用户定位城市,那么同一地域相同行业投放定位城市,都会觉得cpc比较高。地域类可以理解为双定位,一定产品或者某一段区域投放相同产品比如一个城市定位1万,另一个城市定位1万5,而定位一个城市1万5和定位某个城市1万5的cpc就相当了。不同定位,需要投放的cpc有差异。另外不同类型推广在同一城市或者异地不同定位,cpc有相差很大的。 查看全部
直通车推广精准人群组合这些点一起介绍一下
内部信息源与外部信息源搜索引擎优化方法的异同天猫和京东平台直通车/钻展/直通车推广精准人群组合这些点一起介绍一下国内的一些直通车推广渠道:广告最大的特点是,流量获取的对象比较单一,更多是广告位,展示次数/个数、广告位竞价等,其次是转化率。站外广告渠道:百度信息流、头条信息流、站外扶持广告。站内广告渠道:除了公域流量,广告主主要需要的是靠站内的自然搜索来提升流量。
站外推广渠道:线下广告和户外。广告优化:在具体账户建设过程中,出价策略和素材选择是可以根据不同市场进行区分。直通车推广优化是基于数据分析进行操作和优化,以ppc最小精准人群来实现所在账户的最佳定位。策略是在整个过程中最具操作性的方面,策略既可以短期通过行业预估和实际效果的对比,进行分析,优化人群,也可以长期全面优化。
如人群偏好,价格预估,兴趣点,创意点击率转化率等。广告渠道淘宝平台:搜索渠道,女装、男装、包包、女包、包包、男包、鞋、包、笔记本等。其他行业也可作为一个参考。信息流渠道:百家号,东方头条,优看电商,斗鱼,游族网等等。百度信息流:北京大学清华大学上海交通大学浙江大学北京航空航天大学等985高校和普通高校等。
头条信息流:当前主要以生活娱乐场景为主。同时作为广告主打的信息流可以投放医疗相关,社保相关等。广告渠道是非常多的,为什么我们不将这些渠道优化分开,综合推广,例如一套账户下有主推产品有广告优化人群,而有了产品、人群、素材,不仅可以操作全类目,也可以操作针对性强的投放渠道,全面,系统,高效的为广告主打造产品和整体账户打造品牌效应。ppc推广渠道内容出价优化(。
一)计算广告推广渠道测试
1、哪些行业可以放大推广力度?比如男装很多小类目可以少量放大点击数和点击率,但是北上广有几百万件上千万件的客户群体,那单点投放就是几百万个亿,如果少量放大就可以超过几百万个亿的数量级。
2、不同行业怎么计算cpc?非地域型地域类推广,同一类投放同一产品可以同一行业投放这样的投放方式。其次是由于产品和地域定位有异,比如3c的产品可以放大点击率和转化率等,地域类的产品或者潜在用户定位城市,那么同一地域相同行业投放定位城市,都会觉得cpc比较高。地域类可以理解为双定位,一定产品或者某一段区域投放相同产品比如一个城市定位1万,另一个城市定位1万5,而定位一个城市1万5和定位某个城市1万5的cpc就相当了。不同定位,需要投放的cpc有差异。另外不同类型推广在同一城市或者异地不同定位,cpc有相差很大的。
整站优化与SEO优化有什么区别呢?
网站优化 • 优采云 发表了文章 • 0 个评论 • 106 次浏览 • 2022-05-14 19:37
seo优化和整站优化的区别
整站优化与SEO优化的区别有哪些?优化网站seo的方法有很多,但是很多人会把整个网站优化和关键词优化混在一起,但是优化的方式完全不同。整站点优化和关键词优化有关。两者都是根据搜索引擎发布网站内容,推广网站,实现用户体验,增加访问量和排名,但也有很大不同。
关键词优化:主要是指为网站选择合适的目标关键词,然后对这些目标关键词进行排序和优化。这个过程就是关键词优化,我们也可以把关键词优化定义为网站关键词排序过程。
全网站优化:所谓全网站优化是网站搜索引擎优化(SEO)的高级应用,是更高层次的网站营销策略。全网站优化服务并不是针对特定的关键词,而是着眼于增强网站搜索引擎的友好性。通过提高网站质量,可以获得更好的排名权重和搜索流量。
1、查找引擎友好度
整站优化:通过批改不利于查找引擎的弊端要素以及对网站整体结构的调整来取得查找引擎的友好度;
关键词排名优化:侧重于网页中关键词堆砌与外部链接建造,不对网站结构与网站内部是否存在一些不利于查找引擎的要素进行批改优化;
2、优化办法不同
整站优化:是通过对网站的整体优化来达到前进网站整体关键词排名,包括抢手关键词、产品关键词以及更多长尾词的排名;
关键词排名优化:依据客户供给的少数几个关键词进行优化,通过批改登陆页以及增加剧多外部链接来达到前进关键词排名;
3、优化效果不一样
整站优化:更合适网站的可持续性展开,通过合理地优化网站结构层次,利于网站办理与用户对网站的认知,而且整站优化的效果是累积有用,是不断地良性展开;
关键词排名优化:只针对单个网站的批改优化,优化效果不能持续,一起存在必定的风险性。
4、查核办法不同
整站优化:以前进网站流量/转化率等作为优化效果的查核标准;
关键词排名优化:以指定关键词在查找引擎的排名作为查核标准;
5、出资回报率不一样
整站优化:是前进网站整体关键词排名效果,所吸引到的网站阅读者更具有针对性,更利于效果转化;
关键词排名优化:只针对少数关键词进行优化,所吸引到的网站阅读者局限大,不利于效果转化;
其实从专业的角度而言,关键词排名其实包含在整站优化之中,关键词所需要的优化时间会比较短、见效快;而整站优化则需要一个长期持续的优化时间,通过长时间的积累,能更加稳定企业需求的营销效果。
以上就是关于“整站优化与SEO优化的区别有哪些?”的相关内容,希望对您有帮助,若您对SEO感兴趣,欢迎随时咨询我司。
end 查看全部
整站优化与SEO优化有什么区别呢?
seo优化和整站优化的区别
整站优化与SEO优化的区别有哪些?优化网站seo的方法有很多,但是很多人会把整个网站优化和关键词优化混在一起,但是优化的方式完全不同。整站点优化和关键词优化有关。两者都是根据搜索引擎发布网站内容,推广网站,实现用户体验,增加访问量和排名,但也有很大不同。
关键词优化:主要是指为网站选择合适的目标关键词,然后对这些目标关键词进行排序和优化。这个过程就是关键词优化,我们也可以把关键词优化定义为网站关键词排序过程。
全网站优化:所谓全网站优化是网站搜索引擎优化(SEO)的高级应用,是更高层次的网站营销策略。全网站优化服务并不是针对特定的关键词,而是着眼于增强网站搜索引擎的友好性。通过提高网站质量,可以获得更好的排名权重和搜索流量。
1、查找引擎友好度
整站优化:通过批改不利于查找引擎的弊端要素以及对网站整体结构的调整来取得查找引擎的友好度;
关键词排名优化:侧重于网页中关键词堆砌与外部链接建造,不对网站结构与网站内部是否存在一些不利于查找引擎的要素进行批改优化;
2、优化办法不同
整站优化:是通过对网站的整体优化来达到前进网站整体关键词排名,包括抢手关键词、产品关键词以及更多长尾词的排名;
关键词排名优化:依据客户供给的少数几个关键词进行优化,通过批改登陆页以及增加剧多外部链接来达到前进关键词排名;
3、优化效果不一样
整站优化:更合适网站的可持续性展开,通过合理地优化网站结构层次,利于网站办理与用户对网站的认知,而且整站优化的效果是累积有用,是不断地良性展开;
关键词排名优化:只针对单个网站的批改优化,优化效果不能持续,一起存在必定的风险性。
4、查核办法不同
整站优化:以前进网站流量/转化率等作为优化效果的查核标准;
关键词排名优化:以指定关键词在查找引擎的排名作为查核标准;
5、出资回报率不一样
整站优化:是前进网站整体关键词排名效果,所吸引到的网站阅读者更具有针对性,更利于效果转化;
关键词排名优化:只针对少数关键词进行优化,所吸引到的网站阅读者局限大,不利于效果转化;
其实从专业的角度而言,关键词排名其实包含在整站优化之中,关键词所需要的优化时间会比较短、见效快;而整站优化则需要一个长期持续的优化时间,通过长时间的积累,能更加稳定企业需求的营销效果。
以上就是关于“整站优化与SEO优化的区别有哪些?”的相关内容,希望对您有帮助,若您对SEO感兴趣,欢迎随时咨询我司。
end
白帽、黑帽、灰帽SEO优化的对比区别
网站优化 • 优采云 发表了文章 • 0 个评论 • 81 次浏览 • 2022-05-13 20:47
点击上方“输赢” →点击右上角“...”
→点选“设为星标★”为输赢加上星标。
很多新人对于seo也许不是很了解,但在互联网上seo却处处可见,我们平时浏览的新闻、视频、网页等等,都是与SEO技术有关的,很多大型的网站都有SEO技术人员,他们的目标就是为网站带来流量和知名度,从而进行变现。
一、白帽SEO
白帽SEO顾名思义就是一种公正的手法,是一种符合主流搜索引擎的思维方法,它与黑帽是相反的,白帽SEO一直被这个行业内认为是最好的SEO优化手法,它采用符合主流的SEO思维,合理的去优化网站,合理的与其他网站建立链接,提高用户体验。白帽SEO关注的是长远利益,一般通过这种方法提升的排名时间更长、更稳定。
二、黑帽SEO
黑帽SEO说白了就是使用一些搜索引擎禁止的方式,快速的增加网站的排名,它能够在短期内提升你网站的排名,但是不够稳定,随时都可能因为搜索引擎算法的改变而面临惩罚。
一、白帽SEO的常用手法:
1、架构设计
要做好白帽SEO,网站的整体架构肯定是重要的,是要符合搜索引擎规则的,链接结构、页面、404、500、首页文章的版块、内页的文章等等,这些东西在做网站前都要规划好。一个好的网站架构能够帮助搜索引擎蜘蛛更好的进行抓取和收录。用户的体验也会更好。
下图是一些架构设计没有做好的网站,就会出现下面的一些问题,这样的网站是不会被搜索引擎收录的。
2、TKD设置
TKD就是我们常说的网站的标题,关键词和描述。你要优化关键词的数量在你设置TKD的时候一定要想好。一般来说,首页的权重最高,关键词建议做主词,然后是栏目页和详情页,可以做长尾词或者拓展词。各个页面的TKD不要做一样的。不能恶意的堆积,这样不利于搜索引擎的识别,也不利于用户的体验。
下图是一个设置好的TDK:
3、内容质量
白帽的重心就是做好内容的质量,给用户提供他所需要的,能解决他问题的,高质量的内容是关键。用户搜索的是他想解决的问题,如果千篇一律都是重复的,没用的。他就不会继续看下去了。所以原创的内容很重要,一般来说,原创内容的比重要占到80%左右,这样能够更好的被收录。
如果你的内容不是原创,或者抄袭的过多,就会像下图一样,你觉得如果你是搜索引擎你会收录这样的内容吗?
二、黑帽SEO的常用手法:
1、关键词堆积
很多人优化网站的时候,堆积了大量的关键词,让搜索引擎认为网页是有相关性的,关键词的堆积技术是利于一串很长的重复性的关键词来迷惑搜索引擎。实际上这些关键词有时候与网页内容并没有关系。这类办法很少能有用处。
下图就是一个关键词堆积的例子:
2、隐藏文字
隐藏文字是这网页的HTML中放入有关键词的文章,这些字不会被用户所看到,只能被搜索引擎所看到。有几种常见的形式,如超小号的文字,跟网页背景相同颜色的文字,放着表格标签里面的文字等等。
3、页面跳转
通过JavaScript等技术,让用户在进入到这个页面之后迅速跳转到另一个页面。
三、灰帽SEO的介绍:
简单理解:游走于白帽与黑帽之间,一直属于擦边球,很多时候是无法鉴定的。灰帽SEO而言是做一部分站点基础的,甚至于白帽一样用心做站点基础也有很多。为了加快速度排名,再结合一些作弊的手法来进行快速排名。这里建议大家尤其新手,刚入门的时候不要想着什么黑帽SEO、灰帽SEO,就老老实实做白帽吧。白帽是任何形式SEO基础,只有很强的白帽基础才有可能延伸出来黑帽与灰帽。按照搜索引擎这两年的发展,只要安安心心做内容,解决用户搜索需求,即使光写文章,排名依然是指日可待的。
那么白帽SEO技术怎么做?
一、初步准备:
1.服务器选择
总之,要选择快速稳定的云服务器,尽量是建立独立的IP空间,这是不容易坐在搜索引擎,因为其他网站的问题。
2.网站备案
域名由工业和信息化部备案,以提高搜索引擎的信任度。
3.网站目录设置搜索引擎蜘蛛目录以查看爬行轨迹。
4.百度站长工具、搜狗站长工具和360站长工具都是尽可能多的添加,方便以后各种搜索引擎的优化和调整,背景非常强大。
5.进行安全扫描,如360网站安全工具等。
二、站内优化:
1.官方网站设计,尽量采用平面结构,使用面包屑导航,便于蜘蛛掌握分层。
2.使用robot.txt文件。主要内容是尽可能被搜索引擎抓取。如果有站点地图,可以直接在此处设置站点地图地址,也可以在主控形状的背景下提交。
3.301永久重定向,集中域名权重。
4.404个错误页。
5.Favicon图标设置。
6、标题、关键词、描述设置、关键词布局密度分布等。
7.站内代码优化、标签优化、冗余代码处理、JS和CSS代码封装、nofollow、h标记使用等。
8.站点地图设置(站点地图、百度地图)
9.URL设置,网站比较合适的深度不超过三层,URL尽可能静态
10.图片优化,尽量不要对图片使用PNG,透明图片除外。图片使用alt和标题标签来增加搜索引擎抓取的概率。
11.文章内容中重要关键词的内链设置
12.文章内容的伪原创性优于60%。尽量修改文章的开头和结尾,然后合并长尾关键字。
13.应尽可能使用target=“_blank”在新页面上打开外部链接,以避免客户因关闭而失去官方网站。
三、站外优化:
1.百度、搜狗、360、神马、谷歌、必应、有道等搜索引擎提交网站。
2.友情链接交换与第三方垂直行业网站包容应用
3.第三方媒体软文本加链接和锚文本(外链掌握数量和频率)
4.百度搜索口碑业务提交、相应评论、第三方行业知名信息评论、消息等。 查看全部
白帽、黑帽、灰帽SEO优化的对比区别
点击上方“输赢” →点击右上角“...”
→点选“设为星标★”为输赢加上星标。
很多新人对于seo也许不是很了解,但在互联网上seo却处处可见,我们平时浏览的新闻、视频、网页等等,都是与SEO技术有关的,很多大型的网站都有SEO技术人员,他们的目标就是为网站带来流量和知名度,从而进行变现。
一、白帽SEO
白帽SEO顾名思义就是一种公正的手法,是一种符合主流搜索引擎的思维方法,它与黑帽是相反的,白帽SEO一直被这个行业内认为是最好的SEO优化手法,它采用符合主流的SEO思维,合理的去优化网站,合理的与其他网站建立链接,提高用户体验。白帽SEO关注的是长远利益,一般通过这种方法提升的排名时间更长、更稳定。
二、黑帽SEO
黑帽SEO说白了就是使用一些搜索引擎禁止的方式,快速的增加网站的排名,它能够在短期内提升你网站的排名,但是不够稳定,随时都可能因为搜索引擎算法的改变而面临惩罚。
一、白帽SEO的常用手法:
1、架构设计
要做好白帽SEO,网站的整体架构肯定是重要的,是要符合搜索引擎规则的,链接结构、页面、404、500、首页文章的版块、内页的文章等等,这些东西在做网站前都要规划好。一个好的网站架构能够帮助搜索引擎蜘蛛更好的进行抓取和收录。用户的体验也会更好。
下图是一些架构设计没有做好的网站,就会出现下面的一些问题,这样的网站是不会被搜索引擎收录的。
2、TKD设置
TKD就是我们常说的网站的标题,关键词和描述。你要优化关键词的数量在你设置TKD的时候一定要想好。一般来说,首页的权重最高,关键词建议做主词,然后是栏目页和详情页,可以做长尾词或者拓展词。各个页面的TKD不要做一样的。不能恶意的堆积,这样不利于搜索引擎的识别,也不利于用户的体验。
下图是一个设置好的TDK:
3、内容质量
白帽的重心就是做好内容的质量,给用户提供他所需要的,能解决他问题的,高质量的内容是关键。用户搜索的是他想解决的问题,如果千篇一律都是重复的,没用的。他就不会继续看下去了。所以原创的内容很重要,一般来说,原创内容的比重要占到80%左右,这样能够更好的被收录。
如果你的内容不是原创,或者抄袭的过多,就会像下图一样,你觉得如果你是搜索引擎你会收录这样的内容吗?
二、黑帽SEO的常用手法:
1、关键词堆积
很多人优化网站的时候,堆积了大量的关键词,让搜索引擎认为网页是有相关性的,关键词的堆积技术是利于一串很长的重复性的关键词来迷惑搜索引擎。实际上这些关键词有时候与网页内容并没有关系。这类办法很少能有用处。
下图就是一个关键词堆积的例子:
2、隐藏文字
隐藏文字是这网页的HTML中放入有关键词的文章,这些字不会被用户所看到,只能被搜索引擎所看到。有几种常见的形式,如超小号的文字,跟网页背景相同颜色的文字,放着表格标签里面的文字等等。
3、页面跳转
通过JavaScript等技术,让用户在进入到这个页面之后迅速跳转到另一个页面。
三、灰帽SEO的介绍:
简单理解:游走于白帽与黑帽之间,一直属于擦边球,很多时候是无法鉴定的。灰帽SEO而言是做一部分站点基础的,甚至于白帽一样用心做站点基础也有很多。为了加快速度排名,再结合一些作弊的手法来进行快速排名。这里建议大家尤其新手,刚入门的时候不要想着什么黑帽SEO、灰帽SEO,就老老实实做白帽吧。白帽是任何形式SEO基础,只有很强的白帽基础才有可能延伸出来黑帽与灰帽。按照搜索引擎这两年的发展,只要安安心心做内容,解决用户搜索需求,即使光写文章,排名依然是指日可待的。
那么白帽SEO技术怎么做?
一、初步准备:
1.服务器选择
总之,要选择快速稳定的云服务器,尽量是建立独立的IP空间,这是不容易坐在搜索引擎,因为其他网站的问题。
2.网站备案
域名由工业和信息化部备案,以提高搜索引擎的信任度。
3.网站目录设置搜索引擎蜘蛛目录以查看爬行轨迹。
4.百度站长工具、搜狗站长工具和360站长工具都是尽可能多的添加,方便以后各种搜索引擎的优化和调整,背景非常强大。
5.进行安全扫描,如360网站安全工具等。
二、站内优化:
1.官方网站设计,尽量采用平面结构,使用面包屑导航,便于蜘蛛掌握分层。
2.使用robot.txt文件。主要内容是尽可能被搜索引擎抓取。如果有站点地图,可以直接在此处设置站点地图地址,也可以在主控形状的背景下提交。
3.301永久重定向,集中域名权重。
4.404个错误页。
5.Favicon图标设置。
6、标题、关键词、描述设置、关键词布局密度分布等。
7.站内代码优化、标签优化、冗余代码处理、JS和CSS代码封装、nofollow、h标记使用等。
8.站点地图设置(站点地图、百度地图)
9.URL设置,网站比较合适的深度不超过三层,URL尽可能静态
10.图片优化,尽量不要对图片使用PNG,透明图片除外。图片使用alt和标题标签来增加搜索引擎抓取的概率。
11.文章内容中重要关键词的内链设置
12.文章内容的伪原创性优于60%。尽量修改文章的开头和结尾,然后合并长尾关键字。
13.应尽可能使用target=“_blank”在新页面上打开外部链接,以避免客户因关闭而失去官方网站。
三、站外优化:
1.百度、搜狗、360、神马、谷歌、必应、有道等搜索引擎提交网站。
2.友情链接交换与第三方垂直行业网站包容应用
3.第三方媒体软文本加链接和锚文本(外链掌握数量和频率)
4.百度搜索口碑业务提交、相应评论、第三方行业知名信息评论、消息等。
探究搜索引擎结果页信息检索模式:基于过程数据
网站优化 • 优采云 发表了文章 • 0 个评论 • 122 次浏览 • 2022-05-05 17:19
导读
近日,一项基于过程数据探究搜索引擎结果页信息检索模式的文章发表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。论文作者为阿尔伯塔大学博士生高一珠(第一作者兼通讯作者)、教授崔迎、副教授Okan Bulut,以及乔治亚大学助理教授翟小铭和澳门大学助理教授陈孚,具体信息如下:
Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.
背景介绍
当前,搜索引擎已成为最常用的信息问题解决的工具,而网络信息搜索也成为信息技术时代的必要技能之一。当用户在搜索引擎输入关键词,搜索引擎完成搜索后,在搜索引擎结果页 (search engine result page, SERP)上往往会呈现出庞大的、差异化的信息源 (information source)。此时,用户常常需要通过检索信息源内的信息来获得目标信息。每个信息源可视为一个信息块 (information patch),而对于嵌套于信息块内信息的检索以及不同信息块的检索则直接影响着信息问题解决。
研究者们聚焦于单层超文本 (single-layered hypertexts) 构成的信息环境,提出了一些信息检索理论,并完成了许多信息检索模式的研究。例如,Pirolli和Card (1999) 提出著名的信息检索理论 (information foraging theory, IFT) ,该理论认为用户对搜索引擎结果页上信息块的检索类似于人类祖先的觅食行为,并表示当访问某个信息块时,用户会持续权衡其信息收益和认知消耗,当信息收益低于认知消耗时,该用户便退出当前信息块,返回到搜索引擎结果页检索其它信息块或者结束当前信息检索任务。基于该理论,Reader 和 Payne (2007) 总结了两种信息检索模式:Sampling 和 Satisficing 。Sampling的模式是指用户浏览尽可能多信息块,而Satisficing的模式则是指用户会依次浏览搜索引擎结果页上的信息块,当检索到能够解决其信息问题的信息块时便不再浏览其它信息块。
然而,现实场景中,信息普遍以多层超文本 (multi-layered hypertexts) 的形式嵌套于信息空间中,单层超文本的研究显然无法很好解答信息检索模式的问题。因此,少量研究者开始关注多层超文本信息环境下的信息检索模式。Jenkins et al. (2003) 采用出声思维方法挖掘出 Breadth-first 和 Depth-first 两种模式 (表1)。Juvina 和 van Oostendorp (2006) 对过程数据中提取的single-unit measures (如路径长度) 进行主成分分析辨别出 Flimsy, Content-focus, Laborious, 和 Divergent四种模式(表1)。但是这些研究存在一些局限:首先,这些研究的样本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 导致结果具有比较低的外部效度;其次,single-unit measures 并不利用过程数据中事件序列信息,因此一些检索模式 (i.e., Laborious) 对信息问题解决的影响仍然是不清楚的;最后,不同类型的信息问题会影响到用户信息检索模式,但是以往研究并未考虑信息问题的类型。
Table 1 Explanations of web navigation patterns in multi-layered hypertext environments
本研究通过对用户在解决信息定位问题 (explicit information-locating task) 以及信息评价问题 (amorphous information-evaluating task) 产生的过程数据进行分析,来探究多层超文本信息环境下用户在搜索引擎结果页的信息检索模式。因此,本研究的目的主要包括:1)挖掘信息定位问题和信息评价问题的信息检索模式;2)比较不同检索模式在解决信息定位问题和信息评价问题的有效性。
研究方法
本研究采用2012年PIAAC中PSTRE (problem-solving in technology-rich environments) 测验的两道题目:购买图书和可靠性网页,它们分别属于信息定位问题和信息评价问题,具体而言,购买图书题目要求用户找到满足条件的图书,并且题干中清晰地界定了目标图书条件(价格、邮寄日期等),可靠性网页题目要求用户找到提供最可靠的治疗关节扭伤方法的网页,但题干中并未对信息可靠性进行定义,用户需要依据自身经验评价网页信息可靠性。对于购买图书题目,搜索引擎结果页显示六个信息块,其中五个包括嵌套页,对于可靠性网页题目,搜索引擎结果页展现五个信息块,其中三个包括嵌套页(表2),嵌套页信息对正确解决这两道题目都是必要的。本研究分别对美国和英国两个国家的数据进行潜在类别分析 (Latent Class Analysis, LCA) 和全路径序列分析 (full-path sequence analysis) ,LCA分析基于被试对每个网页(即主页和嵌套页)的浏览次数,依据相对拟合和绝对拟合指标,归类概率以及LMR等将被试分类,全路径序列分析旨在刻画各组代表性的信息检索模式。
Table 2 The links structure and the corresponding web pages for the two tasks
Note. H indicates the homepage. N denotes the nested web page.
研究结果与讨论
由于英国的分析结果与美国的结果类似,在此仅呈现美国的分析结果。对于信息定位问题而言, LCA分析显示五类别模型与数据拟合最好,同时,通过分组进行全路径序列分析,可以辨别出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息检索模式(图1),例如,尽管嵌套页内的信息对于解决该任务是必要的,但组1(图1)并不关注嵌套页内信息,而是仅仅浏览主页信息。
Figure 1 Representative sequences selected for the five classes of the explicit information-locating task
Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
对于信息评价问题而言, 综合LCA各模型指标,四类别模型与数据拟合最好。针对分类参与者进行全路径序列分析,可辨别出Sampling, Breadth-first, Laborious, Flimsy 信息检索模式(图2)。
Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task
Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
对比两类信息问题发现,Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位问题和信息评价问题中,但Satisficing 模式只出现在信息定位问题中。进一步Pearson’s 检验表明,Sampling模式组在信息评价任务中表现最好,Satisficing 模式组则在信息定位任务中表现最好。
本研究的结果增进了我们对信息检索过程的认识。具体来说,Sampling 和 Satisficing 同样适用于多层超文本构成的信息环境,Satisficing模式在信息定位问题中的特异性表明,当目标信息被清晰界定后, Satisficing 模式便足够获取全局最优信息块,而当目标信息模糊不定时,用户则需要通过尽可能多地浏览不同信息块 (Sampling) 来获取最优信息块。因此,当用户检索引擎结果页信息时,信息可接受标准和信息收益/认知消耗间的权衡共同影响用户的信息检索模式。
征稿启事
为增进学会内部的学术交流,也为提升公众对教育统计测量领域的认知,学会将定期通过本公众号发布各类专题文章,特邀请学会同仁们参与投稿。
稿件内容:
与教育统计测量相关的理论,方法,技术、应用和创新
稿件形式:
1.论文速递:将您最新发表的论文,写成通俗易懂的科普短文。
2.研究前沿:将您认为有价值的本领域国内外研究,整理成介绍短文。
稿件字数:
2000字左右,图表不限
收稿邮箱:
注意事项:
1.稿件使用word文件,注明作者和所在单位,以及原文出处。
2.我们将根据投稿的选题和质量安排稿件发布的时间。如需修改,我们会进一步与您沟通。 查看全部
探究搜索引擎结果页信息检索模式:基于过程数据
导读
近日,一项基于过程数据探究搜索引擎结果页信息检索模式的文章发表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。论文作者为阿尔伯塔大学博士生高一珠(第一作者兼通讯作者)、教授崔迎、副教授Okan Bulut,以及乔治亚大学助理教授翟小铭和澳门大学助理教授陈孚,具体信息如下:
Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.
背景介绍
当前,搜索引擎已成为最常用的信息问题解决的工具,而网络信息搜索也成为信息技术时代的必要技能之一。当用户在搜索引擎输入关键词,搜索引擎完成搜索后,在搜索引擎结果页 (search engine result page, SERP)上往往会呈现出庞大的、差异化的信息源 (information source)。此时,用户常常需要通过检索信息源内的信息来获得目标信息。每个信息源可视为一个信息块 (information patch),而对于嵌套于信息块内信息的检索以及不同信息块的检索则直接影响着信息问题解决。
研究者们聚焦于单层超文本 (single-layered hypertexts) 构成的信息环境,提出了一些信息检索理论,并完成了许多信息检索模式的研究。例如,Pirolli和Card (1999) 提出著名的信息检索理论 (information foraging theory, IFT) ,该理论认为用户对搜索引擎结果页上信息块的检索类似于人类祖先的觅食行为,并表示当访问某个信息块时,用户会持续权衡其信息收益和认知消耗,当信息收益低于认知消耗时,该用户便退出当前信息块,返回到搜索引擎结果页检索其它信息块或者结束当前信息检索任务。基于该理论,Reader 和 Payne (2007) 总结了两种信息检索模式:Sampling 和 Satisficing 。Sampling的模式是指用户浏览尽可能多信息块,而Satisficing的模式则是指用户会依次浏览搜索引擎结果页上的信息块,当检索到能够解决其信息问题的信息块时便不再浏览其它信息块。
然而,现实场景中,信息普遍以多层超文本 (multi-layered hypertexts) 的形式嵌套于信息空间中,单层超文本的研究显然无法很好解答信息检索模式的问题。因此,少量研究者开始关注多层超文本信息环境下的信息检索模式。Jenkins et al. (2003) 采用出声思维方法挖掘出 Breadth-first 和 Depth-first 两种模式 (表1)。Juvina 和 van Oostendorp (2006) 对过程数据中提取的single-unit measures (如路径长度) 进行主成分分析辨别出 Flimsy, Content-focus, Laborious, 和 Divergent四种模式(表1)。但是这些研究存在一些局限:首先,这些研究的样本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 导致结果具有比较低的外部效度;其次,single-unit measures 并不利用过程数据中事件序列信息,因此一些检索模式 (i.e., Laborious) 对信息问题解决的影响仍然是不清楚的;最后,不同类型的信息问题会影响到用户信息检索模式,但是以往研究并未考虑信息问题的类型。
Table 1 Explanations of web navigation patterns in multi-layered hypertext environments
本研究通过对用户在解决信息定位问题 (explicit information-locating task) 以及信息评价问题 (amorphous information-evaluating task) 产生的过程数据进行分析,来探究多层超文本信息环境下用户在搜索引擎结果页的信息检索模式。因此,本研究的目的主要包括:1)挖掘信息定位问题和信息评价问题的信息检索模式;2)比较不同检索模式在解决信息定位问题和信息评价问题的有效性。
研究方法
本研究采用2012年PIAAC中PSTRE (problem-solving in technology-rich environments) 测验的两道题目:购买图书和可靠性网页,它们分别属于信息定位问题和信息评价问题,具体而言,购买图书题目要求用户找到满足条件的图书,并且题干中清晰地界定了目标图书条件(价格、邮寄日期等),可靠性网页题目要求用户找到提供最可靠的治疗关节扭伤方法的网页,但题干中并未对信息可靠性进行定义,用户需要依据自身经验评价网页信息可靠性。对于购买图书题目,搜索引擎结果页显示六个信息块,其中五个包括嵌套页,对于可靠性网页题目,搜索引擎结果页展现五个信息块,其中三个包括嵌套页(表2),嵌套页信息对正确解决这两道题目都是必要的。本研究分别对美国和英国两个国家的数据进行潜在类别分析 (Latent Class Analysis, LCA) 和全路径序列分析 (full-path sequence analysis) ,LCA分析基于被试对每个网页(即主页和嵌套页)的浏览次数,依据相对拟合和绝对拟合指标,归类概率以及LMR等将被试分类,全路径序列分析旨在刻画各组代表性的信息检索模式。
Table 2 The links structure and the corresponding web pages for the two tasks
Note. H indicates the homepage. N denotes the nested web page.
研究结果与讨论
由于英国的分析结果与美国的结果类似,在此仅呈现美国的分析结果。对于信息定位问题而言, LCA分析显示五类别模型与数据拟合最好,同时,通过分组进行全路径序列分析,可以辨别出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息检索模式(图1),例如,尽管嵌套页内的信息对于解决该任务是必要的,但组1(图1)并不关注嵌套页内信息,而是仅仅浏览主页信息。
Figure 1 Representative sequences selected for the five classes of the explicit information-locating task
Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
对于信息评价问题而言, 综合LCA各模型指标,四类别模型与数据拟合最好。针对分类参与者进行全路径序列分析,可辨别出Sampling, Breadth-first, Laborious, Flimsy 信息检索模式(图2)。
Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task
Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
对比两类信息问题发现,Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位问题和信息评价问题中,但Satisficing 模式只出现在信息定位问题中。进一步Pearson’s 检验表明,Sampling模式组在信息评价任务中表现最好,Satisficing 模式组则在信息定位任务中表现最好。
本研究的结果增进了我们对信息检索过程的认识。具体来说,Sampling 和 Satisficing 同样适用于多层超文本构成的信息环境,Satisficing模式在信息定位问题中的特异性表明,当目标信息被清晰界定后, Satisficing 模式便足够获取全局最优信息块,而当目标信息模糊不定时,用户则需要通过尽可能多地浏览不同信息块 (Sampling) 来获取最优信息块。因此,当用户检索引擎结果页信息时,信息可接受标准和信息收益/认知消耗间的权衡共同影响用户的信息检索模式。
征稿启事
为增进学会内部的学术交流,也为提升公众对教育统计测量领域的认知,学会将定期通过本公众号发布各类专题文章,特邀请学会同仁们参与投稿。
稿件内容:
与教育统计测量相关的理论,方法,技术、应用和创新
稿件形式:
1.论文速递:将您最新发表的论文,写成通俗易懂的科普短文。
2.研究前沿:将您认为有价值的本领域国内外研究,整理成介绍短文。
稿件字数:
2000字左右,图表不限
收稿邮箱:
注意事项:
1.稿件使用word文件,注明作者和所在单位,以及原文出处。
2.我们将根据投稿的选题和质量安排稿件发布的时间。如需修改,我们会进一步与您沟通。
App Store上的应用怎么做SEO/ASO?seo与aso的区别
网站优化 • 优采云 发表了文章 • 0 个评论 • 95 次浏览 • 2022-05-05 17:15
APP Store Optimization也称ASO,即应用商店优化,广义指苹果App Store商店优化,安卓Google Play商店优化,也包括国内豌豆荚,应用宝和海外一些第三方的应用平台优化。旨在提升商店排名,提高应用下载量和应用收入(内购+广告)
简单的从以下几个方面介绍一下ASO。
1.ASO与SEO?
ASO与人们常说的SEO有什么区别?其实ASO是SEO的一种特殊形式,SEO泛指所有搜索引擎的优化,通过对内容和TDK的优化,使网站在目标搜索引擎(谷歌,百度,bing等)中获得更高的排名和流量,而ASO特指在应用商店对app优化以提升App的排名。
SEO 数据维度:关键词数据包括站内搜索、网站浏览路径、来源关键词及搜索引擎等。作用在于了解用户搜索行为,为产品、设计及 SEO 策略指导方向,提供目标。
ASO 数据维度:关键词数据包括关键词覆盖及排名数据、搜索结果数、关键词热度、关键词搜索指数。作用在于了解关键词的情况,明确前期优化方向,并在优化中后期根据数据变动及时调整优化策略。
SEO 优化效果:搜索结果、展示量、点击量和展示位置;索引情况:被搜索引擎检索的情况;流量:网站流量的提升,包括 PV、UV、注册用户;收益:网站参与度、付费用户、ROI。
ASO 优化效果:搜索结果、搜索展示量;排名情况:榜单排名,及关键词搜索排名;流量:自然流量(新增下载)的提升;收益:app 注册、活跃、留存、付费。
2.为什么做ASO?
ASO是官方认可,合理合规的App优化手段,在ASO面前,众生平等。只要你切中了关键词,新发行的App也可以在短期内冲到前三。
ASO是不需要任何费用的,当然有预算买量会起到催化效果,不过催化剂不一定都是正向的。
3.ASO包括哪些内容?
①基础
通过编辑商店中的内容,标题,副标题,描述等信息来覆盖关键词。通过商店内的版本更新,伴随着描述更新,从而在规则合理的前提下实现关键词覆盖增多。
权重:标题 > 副标题 > App关键词
另外,通过不同语言来增强关键词覆盖。
例如,对于中国市场,可以准备中文(简体),英文(英国),英文(澳大利亚)三个版本的关键词,能够提升关键词排名,但版本间关键词无法相互组词。不过覆盖关键词多了,可能会分摊权重,这种情况下重点关键词需要多次重复。 查看全部
App Store上的应用怎么做SEO/ASO?seo与aso的区别
APP Store Optimization也称ASO,即应用商店优化,广义指苹果App Store商店优化,安卓Google Play商店优化,也包括国内豌豆荚,应用宝和海外一些第三方的应用平台优化。旨在提升商店排名,提高应用下载量和应用收入(内购+广告)
简单的从以下几个方面介绍一下ASO。
1.ASO与SEO?
ASO与人们常说的SEO有什么区别?其实ASO是SEO的一种特殊形式,SEO泛指所有搜索引擎的优化,通过对内容和TDK的优化,使网站在目标搜索引擎(谷歌,百度,bing等)中获得更高的排名和流量,而ASO特指在应用商店对app优化以提升App的排名。
SEO 数据维度:关键词数据包括站内搜索、网站浏览路径、来源关键词及搜索引擎等。作用在于了解用户搜索行为,为产品、设计及 SEO 策略指导方向,提供目标。
ASO 数据维度:关键词数据包括关键词覆盖及排名数据、搜索结果数、关键词热度、关键词搜索指数。作用在于了解关键词的情况,明确前期优化方向,并在优化中后期根据数据变动及时调整优化策略。
SEO 优化效果:搜索结果、展示量、点击量和展示位置;索引情况:被搜索引擎检索的情况;流量:网站流量的提升,包括 PV、UV、注册用户;收益:网站参与度、付费用户、ROI。
ASO 优化效果:搜索结果、搜索展示量;排名情况:榜单排名,及关键词搜索排名;流量:自然流量(新增下载)的提升;收益:app 注册、活跃、留存、付费。
2.为什么做ASO?
ASO是官方认可,合理合规的App优化手段,在ASO面前,众生平等。只要你切中了关键词,新发行的App也可以在短期内冲到前三。
ASO是不需要任何费用的,当然有预算买量会起到催化效果,不过催化剂不一定都是正向的。
3.ASO包括哪些内容?
①基础
通过编辑商店中的内容,标题,副标题,描述等信息来覆盖关键词。通过商店内的版本更新,伴随着描述更新,从而在规则合理的前提下实现关键词覆盖增多。
权重:标题 > 副标题 > App关键词
另外,通过不同语言来增强关键词覆盖。
例如,对于中国市场,可以准备中文(简体),英文(英国),英文(澳大利亚)三个版本的关键词,能够提升关键词排名,但版本间关键词无法相互组词。不过覆盖关键词多了,可能会分摊权重,这种情况下重点关键词需要多次重复。
r+10万计划让网站具有非常好的竞争力
网站优化 • 优采云 发表了文章 • 0 个评论 • 86 次浏览 • 2022-05-02 19:01
内部信息源与外部信息源搜索引擎优化方法的异同和对比展开一下。对于在京东搜索商品,大部分情况下,买家是想知道商品的基本信息,因此只关注内部信息源。如一些网站和邮件,非常积极的开发和推广外部信息源,然而到底对搜索引擎优化提高了什么价值?上图是主要的几家在线购物平台对比。左边是京东,右边是天猫。下面进行图文分析:京东在前端页面不到一半的时间点进行主动主营信息源营销,这非常重要,否则不仅影响转化率,也影响搜索。
网上各种传言有云,京东在上线iab2014百万计划的时候,要花大力气在这方面推广。不过,个人不看好。网上有人说京东要赚取微利营销,这没有一个可靠的说法。在2012年已经在r+10万计划,2013年京东确认对供应商进行了促销,并且正在补贴。2014年初,对经销商要求零售品达到r+10万计划,而不是1万计划,显然r+10万计划并不适合。
而对于大品牌来说,r+10万计划至少会让网站具有非常好的竞争力。实际上,2014年初的大促,r+10万计划也被买断了。我没有不相信一些供应商是大品牌,但是缺乏说服力。再者,一个有效的计划,必须是试销,而不是发大财,发了大财公司肯定不会管你。即使前期投入了大量资金做内部引流,后期仍然需要全面投入,并收效甚微。
天猫通过内部广告推广提高了网站认知度,搜索优化提高了流量。这实际上是很少见的。天猫的目标是挖掘商品中的潜在流量。除了专门针对大品牌的搜索营销之外,在大型促销后,天猫还开始主动营销。从用户数据来看,信息源营销促进网站发展的速度也是很快的。其中有个例子如果看这里:该如何告诉竞争对手你的预算呢?京东从2013年开始推动其内部信息源营销,并在2014年投入了大约9亿。
在京东2014百万大促中,经过专家研讨,个人认为这一算法是可靠的。但是从天猫的表现来看,京东的投入似乎有所亏损。然而搜索优化是做对搜索而言有作用的营销。大数据分析促进转化率提高,对价格敏感的用户转化率提高,以及最后也提高了品牌在搜索中的曝光率。但是搜索优化本身对网站产生的价值无法估量。需要重视:2.内部搜索优化与外部搜索优化是由同一个专业团队组成,具有同样的目标,将同一种在搜索引擎上采用策略。
显然,对于京东来说,从一开始京东对供应商就有足够高的要求,那么可靠的内部搜索优化应该是可以起到鼓励效果的。2015-8-11。 查看全部
r+10万计划让网站具有非常好的竞争力
内部信息源与外部信息源搜索引擎优化方法的异同和对比展开一下。对于在京东搜索商品,大部分情况下,买家是想知道商品的基本信息,因此只关注内部信息源。如一些网站和邮件,非常积极的开发和推广外部信息源,然而到底对搜索引擎优化提高了什么价值?上图是主要的几家在线购物平台对比。左边是京东,右边是天猫。下面进行图文分析:京东在前端页面不到一半的时间点进行主动主营信息源营销,这非常重要,否则不仅影响转化率,也影响搜索。
网上各种传言有云,京东在上线iab2014百万计划的时候,要花大力气在这方面推广。不过,个人不看好。网上有人说京东要赚取微利营销,这没有一个可靠的说法。在2012年已经在r+10万计划,2013年京东确认对供应商进行了促销,并且正在补贴。2014年初,对经销商要求零售品达到r+10万计划,而不是1万计划,显然r+10万计划并不适合。
而对于大品牌来说,r+10万计划至少会让网站具有非常好的竞争力。实际上,2014年初的大促,r+10万计划也被买断了。我没有不相信一些供应商是大品牌,但是缺乏说服力。再者,一个有效的计划,必须是试销,而不是发大财,发了大财公司肯定不会管你。即使前期投入了大量资金做内部引流,后期仍然需要全面投入,并收效甚微。
天猫通过内部广告推广提高了网站认知度,搜索优化提高了流量。这实际上是很少见的。天猫的目标是挖掘商品中的潜在流量。除了专门针对大品牌的搜索营销之外,在大型促销后,天猫还开始主动营销。从用户数据来看,信息源营销促进网站发展的速度也是很快的。其中有个例子如果看这里:该如何告诉竞争对手你的预算呢?京东从2013年开始推动其内部信息源营销,并在2014年投入了大约9亿。
在京东2014百万大促中,经过专家研讨,个人认为这一算法是可靠的。但是从天猫的表现来看,京东的投入似乎有所亏损。然而搜索优化是做对搜索而言有作用的营销。大数据分析促进转化率提高,对价格敏感的用户转化率提高,以及最后也提高了品牌在搜索中的曝光率。但是搜索优化本身对网站产生的价值无法估量。需要重视:2.内部搜索优化与外部搜索优化是由同一个专业团队组成,具有同样的目标,将同一种在搜索引擎上采用策略。
显然,对于京东来说,从一开始京东对供应商就有足够高的要求,那么可靠的内部搜索优化应该是可以起到鼓励效果的。2015-8-11。
12 个优化 Docker 镜像安全性的技巧
网站优化 • 优采云 发表了文章 • 0 个评论 • 80 次浏览 • 2022-05-02 03:19
作者 |Marius出品|
本文介绍了 12 个优化 Docker 镜像安全性的技巧。每个技巧都解释了底层的攻击载体,以及一个或多个缓解方法。这些技巧包括了避免泄露构建密钥、以非 root 用户身份运行,或如何确保使用最新的依赖和更新等。
1前言
当你是刚开始使用 Docker 的新手时,你很可能会创建不安全的 Docker 镜像,使攻击者很容易借此接管容器,甚至可能接管整个主机,然后渗透到你公司的其他基础设施中。
可以被滥用来接管你的系统的攻击向量有很多,例如:
下面的各个章节讲解了能够优化你的镜像安全性的各种方法。它们是按重要性 / 影响程度排序的,也就是说排名靠前的方法更重要。
2避免泄露构建密钥
构建密钥是只在构建 Docker 镜像时需要的凭证(不是在运行时)。例如,你可能想在你的镜像中包含某个应用程序的一个编译版本,这个应用的源代码是闭源的,并且其 Git 存储库是有访问保护的。在构建镜像时,你需要克隆 Git 存储库(这需要构建密钥,例如该存储库的 SSH 访问密钥),从源代码构建应用程序,然后再删除源代码(和密钥)。
“泄露“构建密钥是说你不小心把这种密钥烘焙到了你的镜像的某个层中。这种情况很严重,因为拉取你的镜像的所有人都可以检索到这些机密。这个问题源于这样一个事实,即 Docker 镜像是以纯粹的加法方式逐层构建的。你在一个层中删除的文件只是被“标记”为已删除,但拉取你镜像的人们仍然可以使用高级工具访问它们。
可以使用以下两种方法之一来避免泄露构建密钥。
多阶段构建
Docker 多阶段构建(官方文档)有许多用例,例如加快你的镜像构建速度,或减少镜像大小。本系列的其他文章会详细介绍其他用例。总之,你也可以通过多阶段构建来避免泄露构建密钥,如下所示:
BuildKit 的密钥背景知识如果你使用 docker build 进行构建,可以实际执行构建的后端选项不止一个。其中较新和较快的后端是 BuildKit,你需要在 Linux 上设置环境变量 DOCKER_BUILDKIT=1 来显式启用它。注意,BuildKit 在 Windows/MacOS 的 Docker for Desktop 上是默认启用的。
正如这里的文档所解释的(阅读它们以了解更多细节),BuildKit 构建引擎支持 Dockerfile 中的额外语法。要使用构建密钥,请在你的 Dockerfile 中放入类似下面这样的内容:
RUN --mount=type=secret,id=mysecret,dst=/foobar
当 RUN 语句被执行时,密钥将对这个构建容器可用,但不会将密钥本身(这里是:/foobar 文件夹)放入构建的镜像中。你需要在运行 docker build 命令时指定密钥的源文件 / 文件夹(位于主机上)的路径,例如:
docker build --secret id=mysecret,src=mysecret.txt -t sometag
不过有一点需要注意:你不能通过 docker-compose up --build 来构建需要密钥的镜像,因为 Docker-compose 还不支持用于构建的 --secret 参数,见 GitHub 问题。如果你依赖 docker-compose 的构建,请使用方法 1(多阶段构建)。
题外话:不要推送在开发机上构建的镜像
你应该一直在一个干净的环境中构建和推送镜像(例如 CI/CD 管道),其中构建代理会将你的存储库克隆到一个新目录。
使用本地开发机器进行构建的问题是,你的本地 Git 存储库的“工作树“可能是脏的。例如,它可能包含有开发过程中需要的密钥文件,例如对中转甚至生产服务器的访问密钥。如果没有通过.dockerignore 排除这些文件,那么 Dockerfile 中的“COPY . .“等语句可能会意外导致这些密钥泄露到最终镜像中。
3以非 root 用户身份运行
默认情况下,当有人通过“docker runyourImage:yourTag“运行你的镜像时,这个容器(以及你在 ENTRYPOINT/CMD 中的程序)会以 root 用户身份运行(在容器和主机上)。这给了一个使用某种漏洞在你的运行容器中获得 shell 权限的攻击者以下权力:
为了避免这种情况,你应该以非 root 用户(你在 docker build 过程中创建的一些用户)的身份运行你的应用程序。在你的 Dockerfile 中的某个地方(通常是在结尾处)放置以下语句:
# Create a new user (including a home-directory, which is optional)RUN useradd --create-home appuser# Switch to this userUSER appuser
Dockerfile 中所有在 USER appuser 语句之后的命令(如 RUN、CMD 或 ENTRYPOINT)都将以这个用户运行。这里有一些需要注意的地方:
4使用最新的基础镜像构建和更新系统包
如果你使用的基础镜像包含了某个真正的 Linux 发行版(如 Debian、Ubuntu 或 alpine 镜像)的全部工具集,其中包括一个软件包管理器,建议使用该软件包管理器来安装所有可用的软件包更新。
背景知识基础镜像是由某人维护的,他配置了 CI/CD 管道计划来构建基础镜像,并定期推送到 Docker Hub。你无法控制这个时间间隔,而且经常发生的情况是,在该管道将更新的 Docker 镜像推送到 Docker Hub 之前,Linux 发行版的包注册表(例如通过 apt)中已经有了安全补丁。例如,即使基础镜像每周推送一次,也有可能在最近的镜像发布几小时或几天后出现安全更新。
因此,最好总是运行更新本地软件包数据库和安装更新的包管理器命令,采用无人值守模式(不需要用户确认)。每个 Linux 发行版的这个命令都不一样。
例如,对于 Ubuntu、Debian 或衍生的发行版,使用 RUN apt-get update && apt-get -y upgrade
另一个重要的细节是,你需要告诉 Docker(或你使用的任何镜像构建工具)来刷新基础镜像。否则,如果你引用一个基础镜像,比如 python:3(而 Docker 在其本地镜像缓存中已经有了这样一个镜像),Docker 甚至不会检查 Docker Hub 上是否存在更新的 python:3 版本。为了摆脱这种行为,你应该使用这个命令:
docker build --pull
这可以确保 Docker 在构建镜像之前拉取你的 Dockerfile 中 FROM 语句中提到的镜像的更新。
你还应该注意 Docker 的层缓存机制,它会让你的镜像变得陈旧,因为 RUN 命令的层是缓存的,直到基础镜像维护者发布新版本的基础镜像才刷新。如果你发现基础镜像的发布频率相当低(比如少于一周一次),那么定期(比如每周一次)重建你的镜像并禁用层缓存是个好主意。你可以运行以下命令来做到这一点:
docker build --pull --no-cache
5定期更新第三方依赖
你编写的软件是基于第三方的依赖,也就是由其他人制作的软件。这包括了:
如果你的镜像中的这些依赖过时了,就会增加攻击面,因为过时的依赖往往有可利用的安全漏洞。
你可以定期使用 SCA(软件组件分析)工具来解决这个问题,比如 Renovate Bot。这些工具(半)自动将你声明的第三方依赖更新为最新版本,例如在你的 Dockerfile、Python 的 requirements.txt、NPM 的 packages.json 等文件中声明的列表。你需要设计你的 CI 管道,使 SCA 工具所做的更改自动触发你的镜像的 re-build。
这种自动触发的镜像重建对于处在只维护模式,但代码仍将被客户在生产环境中使用(客户希望它是安全的)的项目特别有用。在维护期间,你不再开发新的特性,也不会构建新的镜像,因为没有新的提交(由你做出)来触发新的构建。然而,由 SCA 工具做出的提交确实会再次触发镜像构建。
你可以在我的相关博文中找到更多关于 Renovate bot 的细节。
6对你的镜像进行漏洞扫描
即使你执行了上述建议,比如说你的镜像总是使用最新的第三方依赖,它仍然可能是不安全的(例如一个依赖已经被弃用的情况)。在这种情况下,“不安全“意味着一个(或多个)依赖有已知的安全漏洞(在一些 CVE 数据库中注册)。
出于这个原因,你可以给你的 Docker 镜像提供某种工具来扫描所有包含的文件,以找到这种漏洞。这些工具有两种形式:
你显式调用的 CLI 工具(例如在 CI 管道中),比如说 Trivy(OSS,在 CI 管道中非常容易使用,见 Trivy 文档)、Clair(OSS,但设置和使用比 Trivy 更复杂),或 Snyk(通过“docker scan“集成到 Docker CLI 中,见 cheat sheet,但只有有限的免费计划!)
集成到你推送镜像的镜像注册中心的扫描器,如 Harbor(内部使用 Clair 或 Trivy)。还有一些商业产品,如 Anchore。
因为这些扫描器是通用的,它们还试图覆盖一大堆包注册表,所以可能不会特别为你在自己项目中使用的编程语言或包注册表定制。有时,你应该调查你的编程语言生态系统提供了哪些工具。例如,对于 Python 来说就有一个专门针对 Python 包的安全工具。
7扫描你的 Dockerfile 是否违反了最佳实践
有时,问题来自于你在 Dockerfile 中放置的语句,这些语句是不好的实践(但你没有意识到)。为此可以使用诸如 checkov、Conftest、trivy 或 hadolint 等工具,它们是 Dockerfile 的 linter。为了选择正确的工具,你需要查看它的默认规则 / 政策。例如,hadolint 比 checkov 或 conftest 提供的规则更多,因为它是专门针对 Dockerfiles 的。这些工具也是相互补充的,因此在你的 Dockerfiles 上运行多个工具(如 hadolint 和 trivy)确实是有意义的。不过要做好准备,因为你需要维护“忽略文件“,在这个文件中的规则会被忽略——可能是由于误报而有意忽略它们,或者是你准备故意破坏规则。
8不要对 Docker Hub 使用 Docker 内容信任
为了验证你使用的基础镜像确实是由该镜像背后的公司构建和推送的,你可以使用 Docker 内容信任(见官方文档)特性。只需在运行 docker build 或 docker pull 时将 DOCKER_CONTENT_TRUST 环境变量设为“1“即可启用该特性。Docker 守护进程将拒绝提取没有经过发布者签名的镜像。
不幸的是,大约一年前开始社区就不再以这种方式签名镜像了。就连 Docker Inc. 也在 2020 年 12 月停止了签名官方 Docker 镜像,也没有官方解释。问题更大的是如果你使用“docker pull docker:latest”这样的命令,只会下载一个过时很久的镜像。
你可以查看一下镜像签名的其他实现,比如说 cosign(不过我还没试过)。
9扫描你自己的代码是否有安全问题
安全问题通常来源于其他人的代码,也就是流行的第三方依赖。因为它们应用广泛,所以在黑客那里是“有利可图“的。然而,有时是你自己的代码在作怪。例如,你可能不小心实现了 SQL 注入的可能性、堆栈溢出的错误,等等。
为了找到这些问题,你可以使用所谓的 SAST(静态应用安全测试)工具。一方面,有一些特定于编程语言的工具(你必须单独研究),如 Python 的 bandit,或 Java 的 Checkstyle/Spotbugs。另一方面,还有一些支持多种编程语言和框架的工具套件(其中一些是非免费 / 商业的),如 SonarQube(对于它还有 SonarLint IDE 插件)。
在实践中,安全扫描有两种基本方法:
连续(自动)扫描:你创建一个 CI 作业,在每次推送时扫描你的代码。这可以让你的代码安全性保持在一个较高的水平上,但你必须弄清楚如何忽略误报(这是一项持续的维护工作)。如果你使用 GitLab,可能还会发现 GitLab 的免费 SAST 功能很有趣。
不定期(手动)扫描:团队中一些有安全意识的成员在本地运行安全检查,例如每月一次或每次发布前,并手动查看结果。
10使用 docker-slim 来删除不必要的文件
docker-slim 工具可以获取大型 Docker 镜像,临时运行它们,分析哪些文件在临时容器中是被真正使用的,然后生成一个新的、单层的 Docker 镜像——其中所有未使用的文件都会被删除。这样做有两个好处: 查看全部
12 个优化 Docker 镜像安全性的技巧
作者 |Marius出品|
本文介绍了 12 个优化 Docker 镜像安全性的技巧。每个技巧都解释了底层的攻击载体,以及一个或多个缓解方法。这些技巧包括了避免泄露构建密钥、以非 root 用户身份运行,或如何确保使用最新的依赖和更新等。
1前言
当你是刚开始使用 Docker 的新手时,你很可能会创建不安全的 Docker 镜像,使攻击者很容易借此接管容器,甚至可能接管整个主机,然后渗透到你公司的其他基础设施中。
可以被滥用来接管你的系统的攻击向量有很多,例如:
下面的各个章节讲解了能够优化你的镜像安全性的各种方法。它们是按重要性 / 影响程度排序的,也就是说排名靠前的方法更重要。
2避免泄露构建密钥
构建密钥是只在构建 Docker 镜像时需要的凭证(不是在运行时)。例如,你可能想在你的镜像中包含某个应用程序的一个编译版本,这个应用的源代码是闭源的,并且其 Git 存储库是有访问保护的。在构建镜像时,你需要克隆 Git 存储库(这需要构建密钥,例如该存储库的 SSH 访问密钥),从源代码构建应用程序,然后再删除源代码(和密钥)。
“泄露“构建密钥是说你不小心把这种密钥烘焙到了你的镜像的某个层中。这种情况很严重,因为拉取你的镜像的所有人都可以检索到这些机密。这个问题源于这样一个事实,即 Docker 镜像是以纯粹的加法方式逐层构建的。你在一个层中删除的文件只是被“标记”为已删除,但拉取你镜像的人们仍然可以使用高级工具访问它们。
可以使用以下两种方法之一来避免泄露构建密钥。
多阶段构建
Docker 多阶段构建(官方文档)有许多用例,例如加快你的镜像构建速度,或减少镜像大小。本系列的其他文章会详细介绍其他用例。总之,你也可以通过多阶段构建来避免泄露构建密钥,如下所示:
BuildKit 的密钥背景知识如果你使用 docker build 进行构建,可以实际执行构建的后端选项不止一个。其中较新和较快的后端是 BuildKit,你需要在 Linux 上设置环境变量 DOCKER_BUILDKIT=1 来显式启用它。注意,BuildKit 在 Windows/MacOS 的 Docker for Desktop 上是默认启用的。
正如这里的文档所解释的(阅读它们以了解更多细节),BuildKit 构建引擎支持 Dockerfile 中的额外语法。要使用构建密钥,请在你的 Dockerfile 中放入类似下面这样的内容:
RUN --mount=type=secret,id=mysecret,dst=/foobar
当 RUN 语句被执行时,密钥将对这个构建容器可用,但不会将密钥本身(这里是:/foobar 文件夹)放入构建的镜像中。你需要在运行 docker build 命令时指定密钥的源文件 / 文件夹(位于主机上)的路径,例如:
docker build --secret id=mysecret,src=mysecret.txt -t sometag
不过有一点需要注意:你不能通过 docker-compose up --build 来构建需要密钥的镜像,因为 Docker-compose 还不支持用于构建的 --secret 参数,见 GitHub 问题。如果你依赖 docker-compose 的构建,请使用方法 1(多阶段构建)。
题外话:不要推送在开发机上构建的镜像
你应该一直在一个干净的环境中构建和推送镜像(例如 CI/CD 管道),其中构建代理会将你的存储库克隆到一个新目录。
使用本地开发机器进行构建的问题是,你的本地 Git 存储库的“工作树“可能是脏的。例如,它可能包含有开发过程中需要的密钥文件,例如对中转甚至生产服务器的访问密钥。如果没有通过.dockerignore 排除这些文件,那么 Dockerfile 中的“COPY . .“等语句可能会意外导致这些密钥泄露到最终镜像中。
3以非 root 用户身份运行
默认情况下,当有人通过“docker runyourImage:yourTag“运行你的镜像时,这个容器(以及你在 ENTRYPOINT/CMD 中的程序)会以 root 用户身份运行(在容器和主机上)。这给了一个使用某种漏洞在你的运行容器中获得 shell 权限的攻击者以下权力:
为了避免这种情况,你应该以非 root 用户(你在 docker build 过程中创建的一些用户)的身份运行你的应用程序。在你的 Dockerfile 中的某个地方(通常是在结尾处)放置以下语句:
# Create a new user (including a home-directory, which is optional)RUN useradd --create-home appuser# Switch to this userUSER appuser
Dockerfile 中所有在 USER appuser 语句之后的命令(如 RUN、CMD 或 ENTRYPOINT)都将以这个用户运行。这里有一些需要注意的地方:
4使用最新的基础镜像构建和更新系统包
如果你使用的基础镜像包含了某个真正的 Linux 发行版(如 Debian、Ubuntu 或 alpine 镜像)的全部工具集,其中包括一个软件包管理器,建议使用该软件包管理器来安装所有可用的软件包更新。
背景知识基础镜像是由某人维护的,他配置了 CI/CD 管道计划来构建基础镜像,并定期推送到 Docker Hub。你无法控制这个时间间隔,而且经常发生的情况是,在该管道将更新的 Docker 镜像推送到 Docker Hub 之前,Linux 发行版的包注册表(例如通过 apt)中已经有了安全补丁。例如,即使基础镜像每周推送一次,也有可能在最近的镜像发布几小时或几天后出现安全更新。
因此,最好总是运行更新本地软件包数据库和安装更新的包管理器命令,采用无人值守模式(不需要用户确认)。每个 Linux 发行版的这个命令都不一样。
例如,对于 Ubuntu、Debian 或衍生的发行版,使用 RUN apt-get update && apt-get -y upgrade
另一个重要的细节是,你需要告诉 Docker(或你使用的任何镜像构建工具)来刷新基础镜像。否则,如果你引用一个基础镜像,比如 python:3(而 Docker 在其本地镜像缓存中已经有了这样一个镜像),Docker 甚至不会检查 Docker Hub 上是否存在更新的 python:3 版本。为了摆脱这种行为,你应该使用这个命令:
docker build --pull
这可以确保 Docker 在构建镜像之前拉取你的 Dockerfile 中 FROM 语句中提到的镜像的更新。
你还应该注意 Docker 的层缓存机制,它会让你的镜像变得陈旧,因为 RUN 命令的层是缓存的,直到基础镜像维护者发布新版本的基础镜像才刷新。如果你发现基础镜像的发布频率相当低(比如少于一周一次),那么定期(比如每周一次)重建你的镜像并禁用层缓存是个好主意。你可以运行以下命令来做到这一点:
docker build --pull --no-cache
5定期更新第三方依赖
你编写的软件是基于第三方的依赖,也就是由其他人制作的软件。这包括了:
如果你的镜像中的这些依赖过时了,就会增加攻击面,因为过时的依赖往往有可利用的安全漏洞。
你可以定期使用 SCA(软件组件分析)工具来解决这个问题,比如 Renovate Bot。这些工具(半)自动将你声明的第三方依赖更新为最新版本,例如在你的 Dockerfile、Python 的 requirements.txt、NPM 的 packages.json 等文件中声明的列表。你需要设计你的 CI 管道,使 SCA 工具所做的更改自动触发你的镜像的 re-build。
这种自动触发的镜像重建对于处在只维护模式,但代码仍将被客户在生产环境中使用(客户希望它是安全的)的项目特别有用。在维护期间,你不再开发新的特性,也不会构建新的镜像,因为没有新的提交(由你做出)来触发新的构建。然而,由 SCA 工具做出的提交确实会再次触发镜像构建。
你可以在我的相关博文中找到更多关于 Renovate bot 的细节。
6对你的镜像进行漏洞扫描
即使你执行了上述建议,比如说你的镜像总是使用最新的第三方依赖,它仍然可能是不安全的(例如一个依赖已经被弃用的情况)。在这种情况下,“不安全“意味着一个(或多个)依赖有已知的安全漏洞(在一些 CVE 数据库中注册)。
出于这个原因,你可以给你的 Docker 镜像提供某种工具来扫描所有包含的文件,以找到这种漏洞。这些工具有两种形式:
你显式调用的 CLI 工具(例如在 CI 管道中),比如说 Trivy(OSS,在 CI 管道中非常容易使用,见 Trivy 文档)、Clair(OSS,但设置和使用比 Trivy 更复杂),或 Snyk(通过“docker scan“集成到 Docker CLI 中,见 cheat sheet,但只有有限的免费计划!)
集成到你推送镜像的镜像注册中心的扫描器,如 Harbor(内部使用 Clair 或 Trivy)。还有一些商业产品,如 Anchore。
因为这些扫描器是通用的,它们还试图覆盖一大堆包注册表,所以可能不会特别为你在自己项目中使用的编程语言或包注册表定制。有时,你应该调查你的编程语言生态系统提供了哪些工具。例如,对于 Python 来说就有一个专门针对 Python 包的安全工具。
7扫描你的 Dockerfile 是否违反了最佳实践
有时,问题来自于你在 Dockerfile 中放置的语句,这些语句是不好的实践(但你没有意识到)。为此可以使用诸如 checkov、Conftest、trivy 或 hadolint 等工具,它们是 Dockerfile 的 linter。为了选择正确的工具,你需要查看它的默认规则 / 政策。例如,hadolint 比 checkov 或 conftest 提供的规则更多,因为它是专门针对 Dockerfiles 的。这些工具也是相互补充的,因此在你的 Dockerfiles 上运行多个工具(如 hadolint 和 trivy)确实是有意义的。不过要做好准备,因为你需要维护“忽略文件“,在这个文件中的规则会被忽略——可能是由于误报而有意忽略它们,或者是你准备故意破坏规则。
8不要对 Docker Hub 使用 Docker 内容信任
为了验证你使用的基础镜像确实是由该镜像背后的公司构建和推送的,你可以使用 Docker 内容信任(见官方文档)特性。只需在运行 docker build 或 docker pull 时将 DOCKER_CONTENT_TRUST 环境变量设为“1“即可启用该特性。Docker 守护进程将拒绝提取没有经过发布者签名的镜像。
不幸的是,大约一年前开始社区就不再以这种方式签名镜像了。就连 Docker Inc. 也在 2020 年 12 月停止了签名官方 Docker 镜像,也没有官方解释。问题更大的是如果你使用“docker pull docker:latest”这样的命令,只会下载一个过时很久的镜像。
你可以查看一下镜像签名的其他实现,比如说 cosign(不过我还没试过)。
9扫描你自己的代码是否有安全问题
安全问题通常来源于其他人的代码,也就是流行的第三方依赖。因为它们应用广泛,所以在黑客那里是“有利可图“的。然而,有时是你自己的代码在作怪。例如,你可能不小心实现了 SQL 注入的可能性、堆栈溢出的错误,等等。
为了找到这些问题,你可以使用所谓的 SAST(静态应用安全测试)工具。一方面,有一些特定于编程语言的工具(你必须单独研究),如 Python 的 bandit,或 Java 的 Checkstyle/Spotbugs。另一方面,还有一些支持多种编程语言和框架的工具套件(其中一些是非免费 / 商业的),如 SonarQube(对于它还有 SonarLint IDE 插件)。
在实践中,安全扫描有两种基本方法:
连续(自动)扫描:你创建一个 CI 作业,在每次推送时扫描你的代码。这可以让你的代码安全性保持在一个较高的水平上,但你必须弄清楚如何忽略误报(这是一项持续的维护工作)。如果你使用 GitLab,可能还会发现 GitLab 的免费 SAST 功能很有趣。
不定期(手动)扫描:团队中一些有安全意识的成员在本地运行安全检查,例如每月一次或每次发布前,并手动查看结果。
10使用 docker-slim 来删除不必要的文件
docker-slim 工具可以获取大型 Docker 镜像,临时运行它们,分析哪些文件在临时容器中是被真正使用的,然后生成一个新的、单层的 Docker 镜像——其中所有未使用的文件都会被删除。这样做有两个好处:
21春南开大学《商务智能方法与技术》在线作业参考答案
网站优化 • 优采云 发表了文章 • 0 个评论 • 109 次浏览 • 2022-05-01 15:43
1、()是结构化、可以用语言、文字进行口头或书面表达的。
A.显性知识
B.隐形知识
C.两者皆可
D.两者都不可
答案:A
--------------------------------
2、选择供应商一般以满足时间约束的条件下()为目标。
A.最小化物流成本
B.最大化物流成本
C.最小化维护成本
D.最大化维护成本
答案:A
--------------------------------
3、哪种数据库工具采用矩阵方式来存储数据?()
A.多维数据库工具(MOLAP)
B.关系型数据库工具(ROLAP)
C.桌面型数据库工具
D.都不是
答案:A
--------------------------------
4、()是一种以规范化的方式构造端到端的业务流程为中心,以持续地提高组织绩效为目的的系统化方法。
A.知识管理
B.信息化管理
C.方法管理
D.业务流程管理
答案:D
--------------------------------
5、知识管理将信息处理能力和人的创新能力相互结合,增强组织对环境的适应能力是哪个知识管理学派的说法?()
A.行为学派
B.技术学派
C.管理学派
D.综合学派
答案:D
--------------------------------
6、数据仓库系统组成中,哪个部件是把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库?()
A.元数据库及元数据管理部件
B.数据转换部件
C.数据集成部件
D.数据仓库管理部件
答案:B
--------------------------------
7、()根据文本的不同特征划分为不同的类。
A.文本概括
B.文本分类
C.文本聚类
D.都可以
答案:C
--------------------------------
8、OLAP分析属于哪种驱动型发现?()
A.验证驱动型
B.经验驱动型
C.事实驱动型
D.发现驱动型
答案:A
--------------------------------
9、()针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。
A.内容挖掘
B.结构挖掘
C.文本挖掘
D.使用挖掘
答案:C
--------------------------------
10、()是基于网页内容或其描述中抽取知识的过程。
A.内容挖掘
B.结构挖掘
C.个性挖掘
D.使用(日志)挖掘
答案:A
--------------------------------
11、数据仓库的前端工具集中,哪个工具是通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察?()
A.查询/报表工具
B.数据挖掘工具
C.OLAP工具
D.前端开发工具
答案:C
--------------------------------
12、归咎(imputation)是处理()的一种方法。
A.数据分析
B.数据准备
C.数据质量
D.空缺值
答案:D
--------------------------------
13、多库系统的限制主要表现在哪些方面?()
A.可用性
B.响应速度
C.系统性能
D.系统开销
答案:ABCD
--------------------------------
14、数据清理处理包括哪些内容?()
A.格式标准化
B.异常数据清除
C.错误纠正
D.重复数据清除
答案:ABCD
--------------------------------
15、传统的建模方法注意力主要集中于()两个阶段。
A.模型设计
B.模型实现
C.模型运行
D.模型维护
答案:AB
--------------------------------
16、Web挖掘分类为()。
A.内容挖掘
B.结构挖掘
C.个性挖掘
D.使用挖掘
答案:ABD
--------------------------------
17、Web挖掘是从大量Web文档的集合C中发现()模式P的过程。
A.隐含的
B.明显的
C.相关的
D.有用的
答案:AD
--------------------------------
18、数据挖掘是指从数据中提取()信息并用它进行决策的过程。
A.正确的
B.有用的
C.未知的
D.综合的
答案:ABCD
--------------------------------
19、业务流程管理包括()。
A.流程分析
B.流程定义与重定义
C.资源分配
D.流程质量与效率测评和流程优化
答案:ABCD
--------------------------------
20、数据预处理包含哪些步骤?()
A.数据清理
B.数据集成
C.数据变换
D.数据归约
答案:ABCD
--------------------------------
21、数据导向型决策支持系统,可以用等()分析得到隐藏对决策有用的模式和规则。
A.统计方法
B.OLAP
C.数据挖掘
D.知识分析
答案:ABC
--------------------------------
22、Web挖掘主要处理()等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等。
A.文本
B.图形
C.图像
D.多媒体
答案:ABC
--------------------------------
23、商务智能技术可以分析哪些数据类型?()
A.结构化数据
B.半结构化数据
C.非结构化数据
D.静态的历史数据和动态数据流
答案:ABCD
--------------------------------
24、知识网络是指人们沟通形成“知识活动”的网络,它既是知识活动的场所,又是知识活动的结果。()
A.错误
B.正确
答案:B
--------------------------------
25、业务流程是知识积累的重要工具,其运作过程是信息积累并转变为有用知识的过程。()
A.错误
B.正确
答案:B
--------------------------------
26、OLAP也可以说是多维数据分析工具的集合。()
A.错误
B.正确
答案:B
--------------------------------
27、数据仓库与知识管理系统的结合就是商务智能系统。()
A.错误
B.正确
答案:A
--------------------------------
28、Web数据的复杂性高于传统的文本文档。()
A.错误
B.正确
答案:B
--------------------------------
29、当一定数量的参与者都有某些权限的组合时,可以把这些权限组合视为一个备选角色。()
A.错误
B.正确
答案:B
--------------------------------
30、知识的收集、加工、传输与利用贯穿着决策各阶段的工作过程。()
A.错误
B.正确
答案:A
--------------------------------
31、Web是一个动态性较弱的信息源。()
A.错误
B.正确
答案:A
--------------------------------
32、隐性知识是指存在于人头脑中的隐性的、非结构化、不可编码的知识,是关于个人的思想、经验等。()
A.错误
B.正确
答案:B
--------------------------------
33、对用户的敏感的原始数据进行变换,以便数据的使用者不能对用户的原始数据进行查看,以此保护用户的私有数据。()
A.错误
B.正确
答案:B
--------------------------------
34、当某属性出现空缺值时,应丢弃这个属性。()
A.错误
B.正确
答案:A
--------------------------------
35、数据集市是部门级数据仓库。()
A.错误
B.正确
答案:B
--------------------------------
36、知识管理是将动态信息转化为知识、利用这些知识进行企业行为决策,并且在组织内实现知识共享的过程。()
A.错误
B.正确
答案:A
--------------------------------
37、Web媒体挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。()
A.错误
B.正确
答案:A
--------------------------------
38、数据仓库的功能是支持管理层进行科学决策,而不是事务处理。()
A.错误
B.正确
答案:B
--------------------------------
39、基于关联挖掘的自适应构件检索指把关联规则挖掘方法引入构件检索。()
A.错误
B.正确
答案:B
--------------------------------
40、隐性知识可以被当做显性知识进行获取。()
A.错误
B.正确
答案:B
--------------------------------
41、多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。()
A.错误
B.正确
答案:B
--------------------------------
42、Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息。()
A.错误
B.正确
答案:B
--------------------------------
43、显性知识是指具有规范化、系统化的特点,易于整理、沟通和分享的知识。()
A.错误
B.正确
答案:B
--------------------------------
44、信息也是数据,数据是信息的载体, 信息是对数据的解释。()
A.错误
B.正确
答案:B
--------------------------------
45、知识管理是通过技术的手段(+)将人(P)与知识(K)充分结合,并通过知识共享的管理机制和文化(S),使知识的价值成指数级提升。()
A.错误
B.正确
答案:B
--------------------------------
46、构件检索是构件库研究中的重要问题,有效的构件检索机制能够降低构件复用成本。()
A.错误
B.正确
答案:B
--------------------------------
47、钻取、切片和切块操作是为了完成对真实数据的汇总分析。()
A.错误
B.正确
答案:A
--------------------------------
48、对结果的解释完全依赖于数据挖掘步骤的可视化输出。()
A.错误
B.正确
答案:B
--------------------------------
49、流程是运用知识创造顾客价值的岗位流转,企业的核心业务、研发和内部管理等流程都需要知识管理推动。()
A.错误
B.正确
答案:B
-------------------------------- 查看全部
21春南开大学《商务智能方法与技术》在线作业参考答案
1、()是结构化、可以用语言、文字进行口头或书面表达的。
A.显性知识
B.隐形知识
C.两者皆可
D.两者都不可
答案:A
--------------------------------
2、选择供应商一般以满足时间约束的条件下()为目标。
A.最小化物流成本
B.最大化物流成本
C.最小化维护成本
D.最大化维护成本
答案:A
--------------------------------
3、哪种数据库工具采用矩阵方式来存储数据?()
A.多维数据库工具(MOLAP)
B.关系型数据库工具(ROLAP)
C.桌面型数据库工具
D.都不是
答案:A
--------------------------------
4、()是一种以规范化的方式构造端到端的业务流程为中心,以持续地提高组织绩效为目的的系统化方法。
A.知识管理
B.信息化管理
C.方法管理
D.业务流程管理
答案:D
--------------------------------
5、知识管理将信息处理能力和人的创新能力相互结合,增强组织对环境的适应能力是哪个知识管理学派的说法?()
A.行为学派
B.技术学派
C.管理学派
D.综合学派
答案:D
--------------------------------
6、数据仓库系统组成中,哪个部件是把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库?()
A.元数据库及元数据管理部件
B.数据转换部件
C.数据集成部件
D.数据仓库管理部件
答案:B
--------------------------------
7、()根据文本的不同特征划分为不同的类。
A.文本概括
B.文本分类
C.文本聚类
D.都可以
答案:C
--------------------------------
8、OLAP分析属于哪种驱动型发现?()
A.验证驱动型
B.经验驱动型
C.事实驱动型
D.发现驱动型
答案:A
--------------------------------
9、()针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。
A.内容挖掘
B.结构挖掘
C.文本挖掘
D.使用挖掘
答案:C
--------------------------------
10、()是基于网页内容或其描述中抽取知识的过程。
A.内容挖掘
B.结构挖掘
C.个性挖掘
D.使用(日志)挖掘
答案:A
--------------------------------
11、数据仓库的前端工具集中,哪个工具是通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察?()
A.查询/报表工具
B.数据挖掘工具
C.OLAP工具
D.前端开发工具
答案:C
--------------------------------
12、归咎(imputation)是处理()的一种方法。
A.数据分析
B.数据准备
C.数据质量
D.空缺值
答案:D
--------------------------------
13、多库系统的限制主要表现在哪些方面?()
A.可用性
B.响应速度
C.系统性能
D.系统开销
答案:ABCD
--------------------------------
14、数据清理处理包括哪些内容?()
A.格式标准化
B.异常数据清除
C.错误纠正
D.重复数据清除
答案:ABCD
--------------------------------
15、传统的建模方法注意力主要集中于()两个阶段。
A.模型设计
B.模型实现
C.模型运行
D.模型维护
答案:AB
--------------------------------
16、Web挖掘分类为()。
A.内容挖掘
B.结构挖掘
C.个性挖掘
D.使用挖掘
答案:ABD
--------------------------------
17、Web挖掘是从大量Web文档的集合C中发现()模式P的过程。
A.隐含的
B.明显的
C.相关的
D.有用的
答案:AD
--------------------------------
18、数据挖掘是指从数据中提取()信息并用它进行决策的过程。
A.正确的
B.有用的
C.未知的
D.综合的
答案:ABCD
--------------------------------
19、业务流程管理包括()。
A.流程分析
B.流程定义与重定义
C.资源分配
D.流程质量与效率测评和流程优化
答案:ABCD
--------------------------------
20、数据预处理包含哪些步骤?()
A.数据清理
B.数据集成
C.数据变换
D.数据归约
答案:ABCD
--------------------------------
21、数据导向型决策支持系统,可以用等()分析得到隐藏对决策有用的模式和规则。
A.统计方法
B.OLAP
C.数据挖掘
D.知识分析
答案:ABC
--------------------------------
22、Web挖掘主要处理()等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等。
A.文本
B.图形
C.图像
D.多媒体
答案:ABC
--------------------------------
23、商务智能技术可以分析哪些数据类型?()
A.结构化数据
B.半结构化数据
C.非结构化数据
D.静态的历史数据和动态数据流
答案:ABCD
--------------------------------
24、知识网络是指人们沟通形成“知识活动”的网络,它既是知识活动的场所,又是知识活动的结果。()
A.错误
B.正确
答案:B
--------------------------------
25、业务流程是知识积累的重要工具,其运作过程是信息积累并转变为有用知识的过程。()
A.错误
B.正确
答案:B
--------------------------------
26、OLAP也可以说是多维数据分析工具的集合。()
A.错误
B.正确
答案:B
--------------------------------
27、数据仓库与知识管理系统的结合就是商务智能系统。()
A.错误
B.正确
答案:A
--------------------------------
28、Web数据的复杂性高于传统的文本文档。()
A.错误
B.正确
答案:B
--------------------------------
29、当一定数量的参与者都有某些权限的组合时,可以把这些权限组合视为一个备选角色。()
A.错误
B.正确
答案:B
--------------------------------
30、知识的收集、加工、传输与利用贯穿着决策各阶段的工作过程。()
A.错误
B.正确
答案:A
--------------------------------
31、Web是一个动态性较弱的信息源。()
A.错误
B.正确
答案:A
--------------------------------
32、隐性知识是指存在于人头脑中的隐性的、非结构化、不可编码的知识,是关于个人的思想、经验等。()
A.错误
B.正确
答案:B
--------------------------------
33、对用户的敏感的原始数据进行变换,以便数据的使用者不能对用户的原始数据进行查看,以此保护用户的私有数据。()
A.错误
B.正确
答案:B
--------------------------------
34、当某属性出现空缺值时,应丢弃这个属性。()
A.错误
B.正确
答案:A
--------------------------------
35、数据集市是部门级数据仓库。()
A.错误
B.正确
答案:B
--------------------------------
36、知识管理是将动态信息转化为知识、利用这些知识进行企业行为决策,并且在组织内实现知识共享的过程。()
A.错误
B.正确
答案:A
--------------------------------
37、Web媒体挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。()
A.错误
B.正确
答案:A
--------------------------------
38、数据仓库的功能是支持管理层进行科学决策,而不是事务处理。()
A.错误
B.正确
答案:B
--------------------------------
39、基于关联挖掘的自适应构件检索指把关联规则挖掘方法引入构件检索。()
A.错误
B.正确
答案:B
--------------------------------
40、隐性知识可以被当做显性知识进行获取。()
A.错误
B.正确
答案:B
--------------------------------
41、多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。()
A.错误
B.正确
答案:B
--------------------------------
42、Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息。()
A.错误
B.正确
答案:B
--------------------------------
43、显性知识是指具有规范化、系统化的特点,易于整理、沟通和分享的知识。()
A.错误
B.正确
答案:B
--------------------------------
44、信息也是数据,数据是信息的载体, 信息是对数据的解释。()
A.错误
B.正确
答案:B
--------------------------------
45、知识管理是通过技术的手段(+)将人(P)与知识(K)充分结合,并通过知识共享的管理机制和文化(S),使知识的价值成指数级提升。()
A.错误
B.正确
答案:B
--------------------------------
46、构件检索是构件库研究中的重要问题,有效的构件检索机制能够降低构件复用成本。()
A.错误
B.正确
答案:B
--------------------------------
47、钻取、切片和切块操作是为了完成对真实数据的汇总分析。()
A.错误
B.正确
答案:A
--------------------------------
48、对结果的解释完全依赖于数据挖掘步骤的可视化输出。()
A.错误
B.正确
答案:B
--------------------------------
49、流程是运用知识创造顾客价值的岗位流转,企业的核心业务、研发和内部管理等流程都需要知识管理推动。()
A.错误
B.正确
答案:B
--------------------------------
内部信息源与外部信息源搜索引擎优化方法的异同(内部信息与外部信息源搜索引擎优化方法的异同说起)
网站优化 • 优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2022-04-19 03:03
内部信息源与外部信息源搜索引擎优化方法的异同说起优化,很多人都认为是内部优化外部优化,但在我看来,这二者并不一样。内部优化讲的是我们改变自己,将产品本身变得更加完善。如何充分认识客户是搜索引擎优化的主要目标,如何做好客户体验,是我们前期做好内部优化的重要目标。外部优化讲的是我们发布的信息,如何将信息正确高效地发送给潜在用户,其实,外部优化更多的是为我们已经结果用户带来价值。
外部优化更多是提高转化率。做内部优化的重点,在于改善我们的产品结构,提高售价,吸引更多的用户。但不论做内部优化还是外部优化,我们都要以客户体验为目标,我们需要获取到我们能给用户带来的价值,提高我们的转化率。综上所述,内部优化更多的是为客户带来价值。所以说,在内部优化这一块,我们要比外部优化要更注重客户体验,才能促进转化率。
说起网络优化,内部优化通常讲产品相关性,外部优化主要是针对广告的。由于站内广告一般都是站内seo技术提供商提供的产品,站外的广告主要是品牌宣传,相对来说,站内广告主要依赖搜索引擎,而站外的广告主要依赖自己生产广告位,然后将产品推送给目标客户。可以看到,对于不同的广告主,广告位的选择也有很大不同。如果是品牌宣传,则产品相关性要求相对高一些,如果是公司自己生产的广告位则对产品相关性要求相对要低一些。
所以,站内广告与站外广告的选择也有很大差别。站内广告多以seo技术为主,seo优化服务为辅,站外广告则多以品牌宣传为主,更多注重做的是品牌和产品的相关性,如果站内广告没有做好,就不容易做好站外广告。对于网络优化来说,外部优化也有不同的方式。他们的根本上都是想提高自己企业的产品销量。相对来说,更多是通过站外的优化,来提高我们的转化率。
这里分为两种,一种是推送本公司产品相关的外部广告。另一种是通过推送好卖的产品或其他平台卖不出去的产品,来提高销量。网络优化,在整个互联网发展的近三十年中,变化并不明显,但在近两年变化却很明显。随着互联网的发展,越来越多的公司主要的客户都是传统行业,网络并不是他们第一选择,但很多网络公司或商家都想做互联网营销,想在互联网获取更多的业务,于是就出现了网络推广营销。
但传统行业的产品在互联网上不好卖,导致发展受限,所以很多公司不了解如何做好网络推广营销。为此,网络营销有了很大变化,分为四种,即网站建设营销,内容营销,seo营销,sem营销,这四种营销方式可以相互结合。这里我们主要讲一下seo营销,网站建设营销,内容营销和seo营销。 查看全部
内部信息源与外部信息源搜索引擎优化方法的异同(内部信息与外部信息源搜索引擎优化方法的异同说起)
内部信息源与外部信息源搜索引擎优化方法的异同说起优化,很多人都认为是内部优化外部优化,但在我看来,这二者并不一样。内部优化讲的是我们改变自己,将产品本身变得更加完善。如何充分认识客户是搜索引擎优化的主要目标,如何做好客户体验,是我们前期做好内部优化的重要目标。外部优化讲的是我们发布的信息,如何将信息正确高效地发送给潜在用户,其实,外部优化更多的是为我们已经结果用户带来价值。
外部优化更多是提高转化率。做内部优化的重点,在于改善我们的产品结构,提高售价,吸引更多的用户。但不论做内部优化还是外部优化,我们都要以客户体验为目标,我们需要获取到我们能给用户带来的价值,提高我们的转化率。综上所述,内部优化更多的是为客户带来价值。所以说,在内部优化这一块,我们要比外部优化要更注重客户体验,才能促进转化率。
说起网络优化,内部优化通常讲产品相关性,外部优化主要是针对广告的。由于站内广告一般都是站内seo技术提供商提供的产品,站外的广告主要是品牌宣传,相对来说,站内广告主要依赖搜索引擎,而站外的广告主要依赖自己生产广告位,然后将产品推送给目标客户。可以看到,对于不同的广告主,广告位的选择也有很大不同。如果是品牌宣传,则产品相关性要求相对高一些,如果是公司自己生产的广告位则对产品相关性要求相对要低一些。
所以,站内广告与站外广告的选择也有很大差别。站内广告多以seo技术为主,seo优化服务为辅,站外广告则多以品牌宣传为主,更多注重做的是品牌和产品的相关性,如果站内广告没有做好,就不容易做好站外广告。对于网络优化来说,外部优化也有不同的方式。他们的根本上都是想提高自己企业的产品销量。相对来说,更多是通过站外的优化,来提高我们的转化率。
这里分为两种,一种是推送本公司产品相关的外部广告。另一种是通过推送好卖的产品或其他平台卖不出去的产品,来提高销量。网络优化,在整个互联网发展的近三十年中,变化并不明显,但在近两年变化却很明显。随着互联网的发展,越来越多的公司主要的客户都是传统行业,网络并不是他们第一选择,但很多网络公司或商家都想做互联网营销,想在互联网获取更多的业务,于是就出现了网络推广营销。
但传统行业的产品在互联网上不好卖,导致发展受限,所以很多公司不了解如何做好网络推广营销。为此,网络营销有了很大变化,分为四种,即网站建设营销,内容营销,seo营销,sem营销,这四种营销方式可以相互结合。这里我们主要讲一下seo营销,网站建设营销,内容营销和seo营销。
内部信息源与外部信息源搜索引擎优化方法的异同(企业信息发布(一)_)
网站优化 • 优采云 发表了文章 • 0 个评论 • 83 次浏览 • 2022-04-17 20:10
企业信息发布在网站,成为网页形式的信息源(包括企业内部信息源和外部信息源)
搜索引擎推广的前四个目标,即通过流量的增加,可以转化为企业最终收入的增加,可以称为转化层。
从各种搜索引擎策略到产生收入,期间的中间效应是网站流量增加
用户使用关键词进行搜索(对于分类目录,是分层目录查询)
通过优化客户网站的整个站点,选择一些主要的关键词,配合其他营销方式,使其到达搜索引擎的首页位置,同时增加< @网站,并推动更多长尾 关键词 有机排名提升。结合ppc竞价,我们可以制定精准的竞价关键词和优秀的创意内容,为公司带来更多的订单。
网页优化中更重要的因素之一是网页的标题标签。编写标题标签时通常需要考虑几个因素。
所有网页都应该有自己独特的标题或标签。有很多 网站 犯了非常低级的错误,即所有页面的标题都相同。可能设计师在设计网页的时候来回复制了整个模板,所以HTML文件中的头部信息也被复制了,没有改变。
标题标签应该足够吸引用户的需求。网页在搜索引擎结果中列出,页面的标题来源于标题标签。
标题标签应收录 关键词。
. 转化层是对前面三个目标层次的进一步提升,是各种搜索引擎方法所达到的效果的集中体现,但并不是搜索引擎营销的直接效果。
-/gbaccaf/-
欢迎来到网站,我公司位于经济发达、交通发达、人口密集的中国经济中心城市深圳。具体地址为龙华街道玉翠社区石头岭龙观路宏玉大厦13楼09室。负责人是黄宗忠。 查看全部
内部信息源与外部信息源搜索引擎优化方法的异同(企业信息发布(一)_)
企业信息发布在网站,成为网页形式的信息源(包括企业内部信息源和外部信息源)
搜索引擎推广的前四个目标,即通过流量的增加,可以转化为企业最终收入的增加,可以称为转化层。
从各种搜索引擎策略到产生收入,期间的中间效应是网站流量增加
用户使用关键词进行搜索(对于分类目录,是分层目录查询)
通过优化客户网站的整个站点,选择一些主要的关键词,配合其他营销方式,使其到达搜索引擎的首页位置,同时增加< @网站,并推动更多长尾 关键词 有机排名提升。结合ppc竞价,我们可以制定精准的竞价关键词和优秀的创意内容,为公司带来更多的订单。
网页优化中更重要的因素之一是网页的标题标签。编写标题标签时通常需要考虑几个因素。
所有网页都应该有自己独特的标题或标签。有很多 网站 犯了非常低级的错误,即所有页面的标题都相同。可能设计师在设计网页的时候来回复制了整个模板,所以HTML文件中的头部信息也被复制了,没有改变。
标题标签应该足够吸引用户的需求。网页在搜索引擎结果中列出,页面的标题来源于标题标签。
标题标签应收录 关键词。
. 转化层是对前面三个目标层次的进一步提升,是各种搜索引擎方法所达到的效果的集中体现,但并不是搜索引擎营销的直接效果。
-/gbaccaf/-
欢迎来到网站,我公司位于经济发达、交通发达、人口密集的中国经济中心城市深圳。具体地址为龙华街道玉翠社区石头岭龙观路宏玉大厦13楼09室。负责人是黄宗忠。