CNNIC《第26次中国互联网络发展状况统计报告》
优采云 发布时间: 2021-06-01 00:06
CNNIC《第26次中国互联网络发展状况统计报告》
随着网络信息资源的不断丰富和发展,网络资源越来越混乱。面对海量的信息资源,为了让用户及时、准确地获取所需信息,网络检索工具应运而生。经过十多年的发展,搜索引擎已成为人们获取网络信息资源必不可少的工具之一。然而,网络信息资源的数量呈指数级增长,广大用户的需求呈现多元化趋势。简单的网络搜索远远不能满足要求。 CNNIC《第26次中国互联网络发展状况统计报告》指出:2009年以来,搜索引擎进入新一轮快速发展。为了满足用户的多样化需求,进一步提升搜索引擎作为互联网门户的地位,国内搜索引擎厂商的服务日趋多元化,文档搜索引擎是满足用户多样化需求的重要网络应用之一。用户。
1、 文档搜索引擎的定义
网络信息资源以各种形式分布并存储在网络上的各种分布式数据库中。不仅存储的信息量巨大,而且存储格式也多种多样。网络中的文档信息资源是指以特定的文档格式分布和存储在网络上的特定信息资源。这些资源涉及学术论文、会议报告、商务文档模板、官方文档模板、教育资料、法律文档、文学小说等。在该领域,格式包括pdf、doc、xls、ppt、txt等十余种等
文档搜索引擎是指利用计算机程序按照一定的策略搜索互联网上存在的文档资源,组织和处理文档信息,并将处理后的信息展示给用户。这是一种专门针对用户的文档搜索。服务网络系统。虽然文档搜索引擎发展的时间不长,但*敏*感*词*有很多专门用于文档检索的引擎,如表1所示。
文档搜索引擎检索到的对象是互联网上广泛可用的大量文档资源。与学术搜索引擎不同的是,这些文献资源大部分来自网民上传的,可以公开访问并存储在互联网上。文档格式更加丰富多样;从文档内容来看,文档搜索引擎是为了满足用户的实际需求。不仅收录部分学术资源,还收录业务模板、公文模板、文学作品等实用性很强的文档资源。与商业数据库相比,文档搜索引擎的优势在于其大部分文档资源都可以免费获取。文档搜索引擎不需要自主开发网络资源,只为用户提供一个共享资源的网络平台。本平台的资源来自用户,最终受益的是广大网络用户。
2、*敏*感*词*典型的文档搜索引擎解决方案
在很多文档搜索引擎中,根据系统模式的不同,可以分为两种解决方案:一种是独立的网络文档存储和检索平台,如百度文库、豆丁、Docstoc;另一种是加强传统搜索引擎的文档检索功能,为用户提供专用的文档检索接口,如DcoJax、Brupt等。
2。 1个独立的网络文档存储和检索平台
独立的文档检索系统的优势在于它不依赖于传统的搜索引擎。作为一个独立的网络检索平台,可以很好的与Web 2. 0相关技术结合,实现搜索引擎的多种个性化功能。主要缺点是:文档资源主要来自网络用户的贡献,文档的质量各有不同,并且重复很多。为了方便用户检索,文档搜索引擎要做的主要是对这些文档进行组织和分类。这类文档搜索引擎的发展主要依靠吸引网民数量,利用网络效应实现其价值。因此,网民数量成为其发展的重要决定因素。为了解决这个问题,许多文档搜索引擎通过模仿电子商务的嵌入式文档营销模式来吸引在线用户的注意力。因此,独立的在线文档搜索引擎可以分为两类:共享思想的文档搜索引擎和嵌入营销模型的文档搜索引擎。
2。 1. 1 文档搜索引擎,用于分享想法。免费搜索引擎与传统搜索引擎一样,普通用户无需任何费用即可使用。其特点是为网络用户提供一个免费文档共享的平台。用户可以通过匿名访问或注册用户登录的方式在平台上检索和获取文档资源。这类文档搜索引擎通常是百度文库。
百度文库是一个开放的分享平台。通过注册百度文库账号,用户登录系统后即可在线浏览、上传和下载文档。用户可以通过上传文件获得平台虚拟奖励,用于下载自己需要的文件。登录后可免费下载文档。上传用户标记过的文档需要虚拟积分下载。百度文库的文档主要由用户上传。百度自身不参与编辑或修改用户上传的文档内容,但用户上传的文档需要系统审核。
2。 1. 2 具有嵌入式营销模型的文档搜索引擎。一些文档搜索引擎模仿电子商务网站的模型,通过嵌入营销模型来吸引更多用户。用户使用这个在线平台来销售他们的文件并获得销售收入。这种类型的典型文档搜索引擎是和Docstoc。
(1)豆丁网是全球优秀的C2C文档销售和分享社区。不同于典型的搜索引擎,豆丁网更像是Web 2.0下的在线社区,可以搜索教育文档、论文,课件,学术报告,财务分析,原创文献和其他相关材料。的特点是引入了在线营销的概念,并且首次引入了基于C2C概念的文档销售模型。进入文档共享社区,小丁可以为自己的文档定价,交易成功后,豆丁网将收取一定比例的佣金。
(2) Docstoc是一个优秀的社交文档共享阅读网络服务系统,为用户提供在线存储、共享和交换文档的互联网服务。Docstoc包括法律、商业、金融、技术、教育等资源。Doc-stoc通过DocCash功能实*敏*感*词*。
2。 2 传统搜索引擎提供的文档检索工具
传统搜索引擎经过多年的发展,积累了丰富的网络资源。为了满足用户对互联网文档资源的搜索需求,很多综合性搜索引擎都推出了专门的文档资源检索搜索工具。一般情况下,综合搜索引擎会提供简洁的搜索入口或独立的搜索界面来区分传统搜索引擎。这类文档搜索引擎主要有DocJax和Brupt。
(1) DocJax 并不是真正独立的搜索引擎。它的搜索结果大部分来自 Google、Yahoo、Bing 等。DocJax 基于英文 网站。除了支持英文,DocJax 还支持多种语言,包括简体中文、繁体中文或日文,可以正确搜索。采用Web2.0服务形式,支持搜索结果格式过滤。用户可以从搜索结果中选择自己想要的文件格式,搜索文件可以免费下载。
(2) Brupt是谷歌自定义搜索引擎,与谷歌高级搜索结果一致。可以搜索pdf、doc、ppt、xls等格式的文档,支持中文搜索。搜索结果除了显示相关文档的摘要外,还支持HTML浏览。
3、 文档搜索引擎检索功能对比分析
文档搜索引擎有Web 2. 0 应用系统的典型特征,这些特征体现在文档搜索引擎可以为用户提供更加多样化的搜索功能,而这些新的搜索功能给用户搜索带来了新的体验。下面我们选取了百度文库、豆丁网、Docstoc、Scribd、Brupt 和DocJax 六种典型的文档搜索引擎,对主要检索功能进行比较,分析提供的个性化功能的差异,见表2。
3. 1 文档搜索引擎的检索功能对比
从表2可以看出,为了满足用户的检索需求,各个文档搜索引擎都提供了丰富多样的检索功能。与综合搜索引擎开发的文档检索工具相比,独立的文档搜索引擎提供了更加丰富和多样的检索功能。
(1) 在搜索模式下,所有搜索引擎都支持关键字搜索。独立的文档搜索引擎也支持目录搜索模式。网络文档搜索工具来自一个综合性的搜索引擎,主要为用户带来了方便自己的文档资源检索,比如DocJax是谷歌和雅虎开发的检索应用系统,主要体现在应用的简单性上,只支持关键字检索模式,没有一系列的个性化设置。独立的文档搜索引擎还支持二次检索和精确匹配检索,例如百度文库支持二次检索,初次检索后,用户可以根据文档的“相关性”、“下载最多”、“最新上传”进行搜索。文档二次排序,让用户得到更符合自己需求的结果;Docstoc也支持二次检索,经过初始r etrieval,用户可以根据文档格式、分类、语言等限制进行二次检索,Docstoc还支持精确匹配检索,例如用户可以只检索文档的标题,与用户输入的检索关键字完全匹配进行检索精确检索。
(2) 在检索内容方面,各个文档搜索引擎都支持对标题和特定格式的检索。文档搜索引擎可以根据各自开发的文档阅读器在阅读文档时摆脱特定文档格式的限制。是否通过这个万能阅读平台,可以向用户展示pdf或者Office软件中的各种格式,而且独立阅读器还可以提供缩放、文档检索、全屏阅读等功能,给用户带来全新的阅读体验。
(3)在检索到的文件格式方面,所有文档搜索引擎基本都支持pdf、doc、xls、ppt等主流文档存储格式,并且都支持全文在线浏览。
(4) 在支持的语言方面,由于文档搜索引擎处于初步发展阶段,国内主要支持中文,国外也主要支持英文,对中文的支持还存在一定的不足这一点在独立文档搜索引擎中表现尤为明显,国外文档搜索引擎中,只有Docstoc可以很好的支持多国语言,除了英文和中文,还支持德文、俄文等多国语言的文档检索搜索引擎开发的工具比独立的搜索引擎对多语言的支持要好得多。比如DocJax可以支持多语言,它的文档来自世界各地,所以支持各种语言是很自然的。
3. 2 个性化搜索功能对比
从表3可以看出,独立的文档搜索引擎可以提供更加多样化的个性化搜索功能。这些个性化的检索功能主要是通过添加RSS、标签、API、Digg等技术来实现的。书签和 RSS 是 Web2。 0对于环境中的重要应用程序,大多数文档搜索引擎都支持书签功能。用户可以通过书签在线编辑和管理各种文档,方便文档的二次检索。 API 是指应用程序编程接口。通过此应用程序,用户可以将从文档搜索引擎检索到的文档链接到他们自己的博客或网页。通过此设置,用户可以及时共享和保存他们感兴趣的文档。检索带来极大的方便。
在分享和传播方面,独立文档搜索引擎拥有广泛的用户群和合作网站,用户可以在自己的个性化空间轻松分享相关文档。例如,豆丁网可以随时在人人网等SNS网络上分享您满意的文档。 Scribd的用户可以及时将文档发布到Twitter或Fa-cebook,而Docstoc也可以使用其API技术嵌套文档。转到个人博客或 网站。综合搜索引擎提供的文档检索工具没有这一系列的个性化功能。
4、文档搜索引擎的发展趋势
随着互联网新技术的不断发展,技术创新是推动搜索引擎发展的主要动力之一。搜索引擎越来越接近人们的特定需求,而文档搜索引擎只是结合了Web 2.0技术的新Internet应用程序系统之一。由于网络新技术与文档搜索引擎的兼容与融合,文档搜索引擎的发展呈现检索功能多样化、个性化、操作商业化、系统社会化等趋势。
4. 1 多样化、个性化的搜索功能
Web 2.0技术广泛应用于文档搜索引擎,书签、API、RSS等技术应用于文档搜索引擎,体现了Web 2.0时代网络交互的特点,为网络交互带来了新的活力真正意义上的数字图书馆的发展。个性化检索服务使文档搜索引擎更能满足普通用户的个性化需求。
4. 2 商业化趋势
从网络文档的来源来看,大部分文档都是由网络用户上传的。由于文档涉及版权问题,商业化是文档搜索引擎发展的必然趋势。有热心网友贡献的文档,也有商业组织提供的文档,必然会有一种共享和商业共存的模式。在这样的商业模式中,主要的收入来源有两个:投放广告的收入和销售文件的收入。
4. 3 社会化趋势
文档搜索引擎的整合,势必让更多的人参与到文档共享平台中来。根据Alexa排名,文档搜索引擎的访问量逐渐增加,成为网络社交的重要组成部分,吸引了大量用户。互联网时代,用户是互联网的根本起点和终点,文档搜索引擎的社会化趋势将越来越明显。
5、 结论
搜索引擎未来的发展趋势是精准化、专业化、智能化、个性化、跨语言检索。文档搜索引擎还处于发展的初级阶段。许多文档搜索引擎只是一个综合搜索引擎。随着这些功能的增强,专用的文档搜索引擎可以提供更加多样化的检索功能,但对多语言的支持以及如何吸引更多用户参与是其发展面临的难点。面对日益复杂的数字版权保护问题,在文档搜索引擎的开发中也必须考虑这一问题。如何规避风险,保证人类文化知识的共享和传播,需要找到切实可行的方法。虽然问题很多,但是一个专门的文档搜索引擎,必然会给用户带来全新的体验。