搜索引擎进行信息检索的优化策略方法

搜索引擎进行信息检索的优化策略方法

搜索引擎进行信息检索的优化策略方法主要有哪些?

网站优化优采云 发表了文章 • 0 个评论 • 419 次浏览 • 2022-09-20 16:25 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法主要有哪些?
  搜索引擎进行信息检索的优化策略方法主要有“词向量法”“候选词引导法”以及各种变形方法等。每种搜索引擎都有相对应的检索策略,自然搜索引擎的检索策略更加复杂,标准不一,其中包括网页的检索与分类、候选词检索、关键词分析等。
  一、webtopic的检索方法1.首先是常用的基于文档的方法,
  3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(独热图)搜索,即可以通过比较两个文档找到topics,对独热图进行匹配,从而让用户找到最佳检索结果。4.geohash,是去掉了所有相同点的余弦值来估计稀疏性。
  5.winding搜索:对于从文档中提取有关词进行匹配,利用hardn-grams对top-kkeywords进行分类,从而找到下一个、甚至最可能的topkeywords。6.springerqualitycontrol:标注namematching。springerqualitycontrol是做有关词进行质量判断的,判断用户是否产生搜索的前后文,从而找到合理的搜索结果。7.repinding:是一种通过比较匹配词和不匹配词的关键词在词库中的位置来进行检索的方法。
  
  二、根据检索规则进行信息检索策略8.逻辑回归:可以对给定的文档集合进行用这个集合内的所有文档来进行建模预测,得到更精确的权重。9.线性代数:可以根据有效词条词的相似性建模,利用实验数据进行推断。10.svd:densityfunction的变种,在做降维之前,先要把量级做分解,分解之后得到的density可以用来做densityfunction的推断。
  11.表征学习:基于传统的word2vec得到更高的概率模型,来推断出词向量和词符。12.bn:利用不同的标签来选择不同的label,减少方差。13.pki:词向量的pca。14.引导提示:根据一些有特殊使用要求的词汇,告诉用户在哪些位置有它。
  三、隐语义检索方法15.copy+replace:基于词的相似度匹配,
  0)相似度较高;replace就是其后续文章和原文章相似度较高。
  
  四、规则结合排序方法16.分词,主流方法包括word2vec加中文分词模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
  1)词频分析(即词量主要维度的文档频次)
  2)相似性度量(主要包括:词汇词向量)
  3)向量表示(主要有词向量、词向量xfilter、词向量x+lda、lda-tf、相似矩阵等)
  4)词嵌入17.强化学习中的prediction_gradient方法18.针对每个候选词,利用词嵌入,利用特征向量, 查看全部

  搜索引擎进行信息检索的优化策略方法主要有哪些?
  搜索引擎进行信息检索的优化策略方法主要有“词向量法”“候选词引导法”以及各种变形方法等。每种搜索引擎都有相对应的检索策略,自然搜索引擎的检索策略更加复杂,标准不一,其中包括网页的检索与分类、候选词检索、关键词分析等。
  一、webtopic的检索方法1.首先是常用的基于文档的方法,
  3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(独热图)搜索,即可以通过比较两个文档找到topics,对独热图进行匹配,从而让用户找到最佳检索结果。4.geohash,是去掉了所有相同点的余弦值来估计稀疏性。
  5.winding搜索:对于从文档中提取有关词进行匹配,利用hardn-grams对top-kkeywords进行分类,从而找到下一个、甚至最可能的topkeywords。6.springerqualitycontrol:标注namematching。springerqualitycontrol是做有关词进行质量判断的,判断用户是否产生搜索的前后文,从而找到合理的搜索结果。7.repinding:是一种通过比较匹配词和不匹配词的关键词在词库中的位置来进行检索的方法。
  
  二、根据检索规则进行信息检索策略8.逻辑回归:可以对给定的文档集合进行用这个集合内的所有文档来进行建模预测,得到更精确的权重。9.线性代数:可以根据有效词条词的相似性建模,利用实验数据进行推断。10.svd:densityfunction的变种,在做降维之前,先要把量级做分解,分解之后得到的density可以用来做densityfunction的推断。
  11.表征学习:基于传统的word2vec得到更高的概率模型,来推断出词向量和词符。12.bn:利用不同的标签来选择不同的label,减少方差。13.pki:词向量的pca。14.引导提示:根据一些有特殊使用要求的词汇,告诉用户在哪些位置有它。
  三、隐语义检索方法15.copy+replace:基于词的相似度匹配,
  0)相似度较高;replace就是其后续文章和原文章相似度较高。
  
  四、规则结合排序方法16.分词,主流方法包括word2vec加中文分词模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
  1)词频分析(即词量主要维度的文档频次)
  2)相似性度量(主要包括:词汇词向量)
  3)向量表示(主要有词向量、词向量xfilter、词向量x+lda、lda-tf、相似矩阵等)
  4)词嵌入17.强化学习中的prediction_gradient方法18.针对每个候选词,利用词嵌入,利用特征向量,

搜索引擎进行信息检索的优化策略方法:对比、对比

网站优化优采云 发表了文章 • 0 个评论 • 67 次浏览 • 2022-09-19 23:05 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法:对比、对比
  搜索引擎进行信息检索的优化策略方法:对比搜索引擎进行检索优化的方法
  1)通过相关关键词建立关键词树,得到树上节点,每个节点上设置名称、描述以及域名,用于关键词分类。
  2)对最近发现的关键词进行编号,当关键词被查询时,查询编号为最近发现的关键词。
  
  3)优化关键词树。利用高亮规则和强制关键词扩展(即自动词或者红框元素)实现关键词的高亮和自动扩展。
  4)关键词在时间地点上的相关性选择。如:设置timetask对关键词提高查询的相关性。
  5)检索高频、热门、常用关键词,提高关键词检索的效率。
  
  6)利用强制转义、超链、重复、弱链、引用文本等提高关键词检索的效率。
  7)聚类分析,并用点分类、区域聚类等方法对检索命中的关键词进行分类。
  简单说就是如何找到优质的内容。1.简单检索关键词2.过滤掉冗余的内容,抓取高质量,优质的内容3.搜索指定的或特定的关键词。以上只是提供一个简单的思路。具体要学会如何从海量数据中去分析筛选出来你想要的内容,然后再学习如何分析数据,匹配内容,筛选优质的内容,抓取高质量内容。再通过关键词的布局,搜索方式的运用,排版等细节上去优化,提高检索效率。
  是只按相关排序,还是通过分词匹配到想要的文章?有人这么做。但是这不是优化方法,如果只按相关排序,直接删掉相关内容就行了,然后找到需要的文章。不相关怎么办?如果是需要本专业方面的文章,可以看看某本书吧,那种专业性比较强的。就按相关筛选的方法筛选。如果是非相关的书,可以用bigdatatoolkit直接搜索或者需要的文章搜索。 查看全部

  搜索引擎进行信息检索的优化策略方法:对比、对比
  搜索引擎进行信息检索的优化策略方法:对比搜索引擎进行检索优化的方法
  1)通过相关关键词建立关键词树,得到树上节点,每个节点上设置名称、描述以及域名,用于关键词分类。
  2)对最近发现的关键词进行编号,当关键词被查询时,查询编号为最近发现的关键词。
  
  3)优化关键词树。利用高亮规则和强制关键词扩展(即自动词或者红框元素)实现关键词的高亮和自动扩展。
  4)关键词在时间地点上的相关性选择。如:设置timetask对关键词提高查询的相关性。
  5)检索高频、热门、常用关键词,提高关键词检索的效率。
  
  6)利用强制转义、超链、重复、弱链、引用文本等提高关键词检索的效率。
  7)聚类分析,并用点分类、区域聚类等方法对检索命中的关键词进行分类。
  简单说就是如何找到优质的内容。1.简单检索关键词2.过滤掉冗余的内容,抓取高质量,优质的内容3.搜索指定的或特定的关键词。以上只是提供一个简单的思路。具体要学会如何从海量数据中去分析筛选出来你想要的内容,然后再学习如何分析数据,匹配内容,筛选优质的内容,抓取高质量内容。再通过关键词的布局,搜索方式的运用,排版等细节上去优化,提高检索效率。
  是只按相关排序,还是通过分词匹配到想要的文章?有人这么做。但是这不是优化方法,如果只按相关排序,直接删掉相关内容就行了,然后找到需要的文章。不相关怎么办?如果是需要本专业方面的文章,可以看看某本书吧,那种专业性比较强的。就按相关筛选的方法筛选。如果是非相关的书,可以用bigdatatoolkit直接搜索或者需要的文章搜索。

搜索引擎进行信息检索的优化策略方法基于搜索算法的性能评估

网站优化优采云 发表了文章 • 0 个评论 • 100 次浏览 • 2022-09-15 22:01 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法基于搜索算法的性能评估
  搜索引擎进行信息检索的优化策略方法基于搜索引擎的性能评估
  1、最高速度搜索引擎查询的时效性是搜索算法中最重要的一个评价指标。如何最高速度?一种办法是追踪历史数据找出最可能有搜索排序结果的用户行为轨迹,然后进行定位。另一种方法是时间转换方法,找出每分钟内发生的次数最多的行为,然后聚类分析,然后以时间顺序进行排序。
  2、准确性搜索引擎可以将相关性指标(如相似度,匹配性等)与各个用户行为因素进行匹配,构成一个从1到n的排序规则。通过排序规则的设计能够减小用户搜索查询、词之间的关联度,从而减少搜索结果库中大量无效搜索,有利于优化搜索结果,获得更多高质量的搜索结果。
  
  3、支持率搜索引擎页面每次下拉时,包含什么条目最多,这将会影响用户对页面是否有用的点击。为了减少用户点击率,搜索引擎需要将下拉包含的词汇清空,如将多个词汇分开显示,或者将展示的词汇只限于主要使用的词汇范围内。
  4、频繁搜索搜索与相关性并不是相互独立的,每个用户在多次搜索的过程中都可能需要使用搜索所搜索的内容。因此一个正确的频繁搜索策略至关重要。引擎设计者通常会将搜索结果排序分为各个频繁搜索区间,根据用户点击的各个频繁搜索区间的用户数目(包括总点击次数)计算下拉频繁搜索的几率。
  5、网页分布有关搜索引擎整体设计流程的研究的文章通常认为在数据流程中找到相关性最高的网页相对较难,所以做相关性检索通常会为网页分布找到更有效的匹配方式。
  
  6、网页排序网页排序即对网页进行排序,主要目的在于影响用户下一次点击的可能性,包括首字首句和尾字首句,其中首字首句和尾字首句在搜索引擎中是常用的网页排序策略。
  7、用户群体美国教育部搜索引擎中心发布了一份较大的用户研究报告,称14%的人搜索、浏览、发送电子邮件,有28%的人观看短视频,在互联网中访问了超过一百万个产品或服务。随着用户在互联网上的行为越来越多地发生变化,无论是搜索还是浏览网页,都在发生着实际上的网络行为,一个基于用户数据的优化搜索引擎能够帮助搜索引擎的核心指标提高4~8个百分点。
  8、搜索ip地址、时间、在线情况一个基于搜索的搜索引擎能够帮助用户优化搜索查询、带来更多有价值的查询、浏览更多的网页,甚至与已有网站进行合作,发展具有互补性的服务,并且在使用搜索引擎做行业搜索时使用一些特殊的搜索方法来找到与用户搜索习惯、行业习惯、产品相关的数据。
  9、相关性搜索查询能够优化用户在搜索引擎查询页的排序吗?还是需要用户首先在搜索引擎中查询查询之后, 查看全部

  搜索引擎进行信息检索的优化策略方法基于搜索算法的性能评估
  搜索引擎进行信息检索的优化策略方法基于搜索引擎的性能评估
  1、最高速度搜索引擎查询的时效性是搜索算法中最重要的一个评价指标。如何最高速度?一种办法是追踪历史数据找出最可能有搜索排序结果的用户行为轨迹,然后进行定位。另一种方法是时间转换方法,找出每分钟内发生的次数最多的行为,然后聚类分析,然后以时间顺序进行排序。
  2、准确性搜索引擎可以将相关性指标(如相似度,匹配性等)与各个用户行为因素进行匹配,构成一个从1到n的排序规则。通过排序规则的设计能够减小用户搜索查询、词之间的关联度,从而减少搜索结果库中大量无效搜索,有利于优化搜索结果,获得更多高质量的搜索结果。
  
  3、支持率搜索引擎页面每次下拉时,包含什么条目最多,这将会影响用户对页面是否有用的点击。为了减少用户点击率,搜索引擎需要将下拉包含的词汇清空,如将多个词汇分开显示,或者将展示的词汇只限于主要使用的词汇范围内。
  4、频繁搜索搜索与相关性并不是相互独立的,每个用户在多次搜索的过程中都可能需要使用搜索所搜索的内容。因此一个正确的频繁搜索策略至关重要。引擎设计者通常会将搜索结果排序分为各个频繁搜索区间,根据用户点击的各个频繁搜索区间的用户数目(包括总点击次数)计算下拉频繁搜索的几率。
  5、网页分布有关搜索引擎整体设计流程的研究的文章通常认为在数据流程中找到相关性最高的网页相对较难,所以做相关性检索通常会为网页分布找到更有效的匹配方式。
  
  6、网页排序网页排序即对网页进行排序,主要目的在于影响用户下一次点击的可能性,包括首字首句和尾字首句,其中首字首句和尾字首句在搜索引擎中是常用的网页排序策略。
  7、用户群体美国教育部搜索引擎中心发布了一份较大的用户研究报告,称14%的人搜索、浏览、发送电子邮件,有28%的人观看短视频,在互联网中访问了超过一百万个产品或服务。随着用户在互联网上的行为越来越多地发生变化,无论是搜索还是浏览网页,都在发生着实际上的网络行为,一个基于用户数据的优化搜索引擎能够帮助搜索引擎的核心指标提高4~8个百分点。
  8、搜索ip地址、时间、在线情况一个基于搜索的搜索引擎能够帮助用户优化搜索查询、带来更多有价值的查询、浏览更多的网页,甚至与已有网站进行合作,发展具有互补性的服务,并且在使用搜索引擎做行业搜索时使用一些特殊的搜索方法来找到与用户搜索习惯、行业习惯、产品相关的数据。
  9、相关性搜索查询能够优化用户在搜索引擎查询页的排序吗?还是需要用户首先在搜索引擎中查询查询之后,

sql 语句优化的30种方法

网站优化优采云 发表了文章 • 0 个评论 • 66 次浏览 • 2022-09-03 21:08 • 来自相关话题

  sql 语句优化的30种方法
  大家好,我是顶级架构师。
  1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中使用!=或操作符,否则将引擎放弃使用索引而进行全表扫描。3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
  select id from t where num is null <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:
  select id from t where num=0 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  4.应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:
  select id from t where num=10 or num=20 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  可以这样查询:
  select id from t where num=10 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />union all <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where num=20 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  5.下面的查询也将导致全表扫描:
  select id from t where name like '%abc%' <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  若要提高效率,可以考虑全文检索。
  6.in 和 not in 也要慎用,否则会导致全表扫描,如:
  select id from t where num in(1,2,3) <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  对于连续的数值,能用 between 就不要用 in 了:
  
  select id from t where num between 1 and 3 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  7.如果在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:
  select id from t where num=@num <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  可以改为强制查询使用索引:
  select id from t with(index(索引名)) where num=@num <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  8.应尽量避免在 where 子句中对字段进行表达式操作,这将导致引擎放弃使用索引而进行全表扫描。如:
  select id from t where num/2=100 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  应改为:
  select id from t where num=100*2 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  9.应尽量避免在where子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。如:
  select id from t where substring(name,1,3)='abc'--name以abc开头的id <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  应改为:
<p>select id from t where name like 'abc%' <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where createdate>='2005-11-30' and createdate 查看全部

  sql 语句优化的30种方法
  大家好,我是顶级架构师。
  1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中使用!=或操作符,否则将引擎放弃使用索引而进行全表扫描。3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
  select id from t where num is null <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:
  select id from t where num=0 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  4.应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:
  select id from t where num=10 or num=20 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  可以这样查询:
  select id from t where num=10 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />union all <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where num=20 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  5.下面的查询也将导致全表扫描:
  select id from t where name like '%abc%' <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  若要提高效率,可以考虑全文检索。
  6.in 和 not in 也要慎用,否则会导致全表扫描,如:
  select id from t where num in(1,2,3) <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  对于连续的数值,能用 between 就不要用 in 了:
  
  select id from t where num between 1 and 3 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  7.如果在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:
  select id from t where num=@num <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  可以改为强制查询使用索引:
  select id from t with(index(索引名)) where num=@num <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  8.应尽量避免在 where 子句中对字段进行表达式操作,这将导致引擎放弃使用索引而进行全表扫描。如:
  select id from t where num/2=100 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  应改为:
  select id from t where num=100*2 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  9.应尽量避免在where子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。如:
  select id from t where substring(name,1,3)='abc'--name以abc开头的id <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  应改为:
<p>select id from t where name like 'abc%' <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where createdate>='2005-11-30' and createdate

网站推广主要有哪些方法?网站推广有哪些注意事项?

网站优化优采云 发表了文章 • 0 个评论 • 43 次浏览 • 2022-08-02 04:49 • 来自相关话题

  网站推广主要有哪些方法?网站推广有哪些注意事项?
  网站推广是网络营销推广中非常重要的一个组成部分,如果企业决定做网络营销的话,那网站推广也是绕不开的,本文就带大家一起来了解一下网站推广主要有哪些方法?
  一、网站推广主要有哪些方法?
  1、搜索引擎推广方法
  搜索引擎推广是指利用搜索引擎、分类目录等具有在线检索信息功能的网络工具进行网站推广的方法。
  2、电子邮件推广方法
  以电子邮件为主要的网站推广手段,常用的方法包括电子刊物、会员通讯、专业服务商的电子邮件广告等。
  3、资源合作推广方法
  通过网站交换链接、交换广告、内容合作、用户资源合作等方式,在具有类似目标网站之间实现互相推广的目的,其中最常用的资源合作方式为网站链接策略,利用合作伙伴之间网站访问量资源合作互为推广。
  4、信息发布推广方法
  将有关的网站推广信息发布在其他潜在用户可能访问的网站上,利用用户在这些网站获取信息的机会实现网站推广的目的,适用于这些信息发布的网站包括在线黄页、分类广告、论坛、博客网站、供求信息平台、行业网站等。
  
  5、网络广告推广方法
  网络广告是常用的网络营销策略之一,在网络品牌、产品促销、网站推广等方面均有明显作用。网络广告的常见形式包括:BANNER广告、关键词广告、分类广告、赞助式广告、Email广告等。
  二、网站推广有哪些注意事项?
  1、不要把导航做成图片链接
  因为搜索引擎是一个大型数据库,而不是一个图片库,搜索引擎首页搜索引擎到的是你的标题,然后接着才通过你的导航系统搜索到你网站的其他内页。
  2、首页不能为了美观而大量使用图片
  所有的搜索引擎都喜欢有一个清晰的结构,而不喜欢把网站做成一张皮,让搜索引擎分不清你的重点所在。因此,一个清晰地网站结构和连接结构对于蜘蛛爬行和收录是非常重要的。
  3、外链平台的选择及发布
  发布链的作用是为了给网站导流、增加网站的曝光度。有些人为了图完成任务、短期内见效果,就一味的、大量的发布外链文章(在文章中添加目标网站的URL链接和关键词的堆砌)等等,这个会适得其反,严重会影响网站的排名和权重。因此,外链文章是一个长期的积累过程,不要求快、求量,还是需要有个度。
  
  三、网站推广有哪些好处?
  1、提高企业的知名度
  大多企业都是小型的企业,没有什么知名度,所以要结合互联网网络推广进行对企业的品牌提升的同时把企业的知名度提升上去,让更多的人群知道。
  2、增加用户粘度
  客户购买企业的产品,对产品的质量等方面都认可,就会认准企业的这个产品,所以客户会对企业产生一种依赖性同时粘度也增加了不少。
  3、长期的稳定性
  企业通过长期的推广和网络营销,会使企业的网站稳定性增加,网络推广不是短期就能出现效果的是需要通过长期的维护和优化进行运行才能体现的。
  4、增加产品的销售
  网站进行维护和优化后能达到销售产品就是网络推广的最终目的。呈现出企业网络双共赢的局面。
  可以联系小编
  百度广告前三,包月推广,当天上线,不限点击费,1500元/月,2800元/一季度,需要的请联系小编 查看全部

  网站推广主要有哪些方法?网站推广有哪些注意事项?
  网站推广是网络营销推广中非常重要的一个组成部分,如果企业决定做网络营销的话,那网站推广也是绕不开的,本文就带大家一起来了解一下网站推广主要有哪些方法?
  一、网站推广主要有哪些方法?
  1、搜索引擎推广方法
  搜索引擎推广是指利用搜索引擎、分类目录等具有在线检索信息功能的网络工具进行网站推广的方法。
  2、电子邮件推广方法
  以电子邮件为主要的网站推广手段,常用的方法包括电子刊物、会员通讯、专业服务商的电子邮件广告等。
  3、资源合作推广方法
  通过网站交换链接、交换广告、内容合作、用户资源合作等方式,在具有类似目标网站之间实现互相推广的目的,其中最常用的资源合作方式为网站链接策略,利用合作伙伴之间网站访问量资源合作互为推广。
  4、信息发布推广方法
  将有关的网站推广信息发布在其他潜在用户可能访问的网站上,利用用户在这些网站获取信息的机会实现网站推广的目的,适用于这些信息发布的网站包括在线黄页、分类广告、论坛、博客网站、供求信息平台、行业网站等。
  
  5、网络广告推广方法
  网络广告是常用的网络营销策略之一,在网络品牌、产品促销、网站推广等方面均有明显作用。网络广告的常见形式包括:BANNER广告、关键词广告、分类广告、赞助式广告、Email广告等。
  二、网站推广有哪些注意事项?
  1、不要把导航做成图片链接
  因为搜索引擎是一个大型数据库,而不是一个图片库,搜索引擎首页搜索引擎到的是你的标题,然后接着才通过你的导航系统搜索到你网站的其他内页。
  2、首页不能为了美观而大量使用图片
  所有的搜索引擎都喜欢有一个清晰的结构,而不喜欢把网站做成一张皮,让搜索引擎分不清你的重点所在。因此,一个清晰地网站结构和连接结构对于蜘蛛爬行和收录是非常重要的。
  3、外链平台的选择及发布
  发布链的作用是为了给网站导流、增加网站的曝光度。有些人为了图完成任务、短期内见效果,就一味的、大量的发布外链文章(在文章中添加目标网站的URL链接和关键词的堆砌)等等,这个会适得其反,严重会影响网站的排名和权重。因此,外链文章是一个长期的积累过程,不要求快、求量,还是需要有个度。
  
  三、网站推广有哪些好处?
  1、提高企业的知名度
  大多企业都是小型的企业,没有什么知名度,所以要结合互联网网络推广进行对企业的品牌提升的同时把企业的知名度提升上去,让更多的人群知道。
  2、增加用户粘度
  客户购买企业的产品,对产品的质量等方面都认可,就会认准企业的这个产品,所以客户会对企业产生一种依赖性同时粘度也增加了不少。
  3、长期的稳定性
  企业通过长期的推广和网络营销,会使企业的网站稳定性增加,网络推广不是短期就能出现效果的是需要通过长期的维护和优化进行运行才能体现的。
  4、增加产品的销售
  网站进行维护和优化后能达到销售产品就是网络推广的最终目的。呈现出企业网络双共赢的局面。
  可以联系小编
  百度广告前三,包月推广,当天上线,不限点击费,1500元/月,2800元/一季度,需要的请联系小编

搜索引擎进行信息检索的优化策略方法-乐题库

网站优化优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2022-07-31 06:01 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法-乐题库
  搜索引擎进行信息检索的优化策略方法1.检索词的创造。不断扩充检索词库,广泛采用长尾关键词的词频词库,将在检索词库内的搜索长尾关键词置于检索词条前面,用于制造检索词条。将搜索长尾关键词过滤成用于检索词条的关键词2.关键词的排列组合,用分词技术(主要是汉语语料库词库),形成智能词库,用词频分词把检索内容进行分割,分成多个组合查询,每组查询内再查询,形成一个查询树。
  
  这样检索词可以形成一个树状结构3.检索词与关键词的广泛匹配4.提高检索词的优先级:与关键词匹配的多个检索词要权重相等,从而使检索的字词密度提高。5.检索结果不断进行存储,形成索引库,形成后续检索6.提供索引词索引方式:利用两个或多个表的extra_info()方法提供检索词的索引方式选择。
  检索排序就是检索字段的排序。比如in-namesearchelement,有key-value表,key字段和value字段的位置都是不可改变的。其中key字段对序号(in-nametable的middle)和orderby长度有限制,value字段则是最多5个(取决于middle和valuelength的相同部分)。
  
  主要因为,如果一个字段的排序方式不是按照字典里的次序排序,那么我们就不能继续利用这个字段了。举个栗子:比如adj.的英文是advanced(达到了高级)。这个advanced既可以用字典表示,也可以用频数表示,还可以用权重表示。总之有大量的做法。再举个栗子:比如["some","somea","more","morebs"]的英文组合是someasome(达到了高级),有些情况下somemorearesome(达到了高级).此时我们也可以将这个字段作为索引的一部分来操作。
  此时就要确定,some也好,somea也好,more也好,他们分别表示的是谁,而这些我们是不可能用undefined来取代的。 查看全部

  搜索引擎进行信息检索的优化策略方法-乐题库
  搜索引擎进行信息检索的优化策略方法1.检索词的创造。不断扩充检索词库,广泛采用长尾关键词的词频词库,将在检索词库内的搜索长尾关键词置于检索词条前面,用于制造检索词条。将搜索长尾关键词过滤成用于检索词条的关键词2.关键词的排列组合,用分词技术(主要是汉语语料库词库),形成智能词库,用词频分词把检索内容进行分割,分成多个组合查询,每组查询内再查询,形成一个查询树。
  
  这样检索词可以形成一个树状结构3.检索词与关键词的广泛匹配4.提高检索词的优先级:与关键词匹配的多个检索词要权重相等,从而使检索的字词密度提高。5.检索结果不断进行存储,形成索引库,形成后续检索6.提供索引词索引方式:利用两个或多个表的extra_info()方法提供检索词的索引方式选择。
  检索排序就是检索字段的排序。比如in-namesearchelement,有key-value表,key字段和value字段的位置都是不可改变的。其中key字段对序号(in-nametable的middle)和orderby长度有限制,value字段则是最多5个(取决于middle和valuelength的相同部分)。
  
  主要因为,如果一个字段的排序方式不是按照字典里的次序排序,那么我们就不能继续利用这个字段了。举个栗子:比如adj.的英文是advanced(达到了高级)。这个advanced既可以用字典表示,也可以用频数表示,还可以用权重表示。总之有大量的做法。再举个栗子:比如["some","somea","more","morebs"]的英文组合是someasome(达到了高级),有些情况下somemorearesome(达到了高级).此时我们也可以将这个字段作为索引的一部分来操作。
  此时就要确定,some也好,somea也好,more也好,他们分别表示的是谁,而这些我们是不可能用undefined来取代的。

科学 · 新书 | 《信息检索与利用(第四版)》正式出版

网站优化优采云 发表了文章 • 0 个评论 • 55 次浏览 • 2022-06-24 02:16 • 来自相关话题

  科学 · 新书 | 《信息检索与利用(第四版)》正式出版
  
  
  
  信息化时代,瞬息万变的信息,已成为社会经济发展的重要因素。进入互联网时代,社交媒体和各种 APP 的广泛使用,使信息可以更为便捷地获取,但要获得“有用的知识”,似乎变得更难。面对纷繁无序的网络,如何高效、准确地查找所需要的信息,是每一个人都无法回避的问题,谁的“搜商”高,谁就更有可能抓住机遇;同时,信息安全和隐私保护也变得越来越重要。所以,信息检索能力既是一种素养,更是一种生活技能。
  
  
  
  
  
  新形态教材
  
  国家精品课程配套教材
  国家级精品资源共享课配套教材
  
  《信息检索与利用(第四版)》
  邓发云 编著
  书号:9787030713650
  定价:39.8元
  出版时间:2022年5月
  内容简介:本书系统地介绍信息素养、信息资源、信息检索及其应用的基本知识,以及各种常用检索工具的检索方法与技巧,提供了大量的案例、图表、思考与训练、研讨与训练、基于检索技巧的提示等,图文并茂,便于教学与阅读。
  本书既可作为高等学校本科生、研究生的“信息检索”课程教材与各类信息机构的岗位培训教材,也可作为工程技术人员、科研人员、教师从事信息检索时的参考书。
  作者建议
  
  
  
  信息素养是一种生活技能,为了读者更好地理解与使用本教材,有效地培养良好的信息素养和学习、适应能力,编者建议在使用中把握以下几点。
  强化 1 个信息意识。学会通过信息理解世界、沟通世界,学会通过信息检索扩展自己的认知;任何时候遇到任何事情都能通过检索、咨询已有的经验教训,优化自己的决策方案,减少不确定性。无论购物、旅游、交友、找工作、科学研究,都养成一个收集资料、帮助自己分析的习惯。
  注重 2 个能力培养。一是培养分析问题和解决问题的能力,既包括通过查询他人的或已有的历史成果与文献资料寻求答案或者激发灵感,也包括通过信息检索完善分析问题的框架、逻辑与思路;二是能够通过信息检索找到自己的目标与方向,进行规划与预测,从而构建适合自己学习、工作、生活、科研的信息环境,包括信息资源、平台、机构及其获取渠道。
  进行 3 种基本知识训练。一是掌握检索基本技术,包括逻辑组配、截词、字段选择、精确模糊匹配、检索词选取;二是了解常用资源、平台、工具,资源如中国知网、万方数据、SCI、SDOS、IEL,平台如本校图书馆、国家图书馆、CALIS、NSTL,工具如馆藏目录、搜索引擎、资源发现系统等;三是掌握常用检索方法,包括检索词选取、基本检索流程、检索策略调整、排序、分类与下载,能够将检索结果有效地融入需要解决的问题中。
  不断激发信息需求并通过检索满足信息需求,从本质而言,信息检索是一种匹配和选择,是信息需求与检索结果的匹配。信息需求决定检索工具、检索方式的选择。常识、大众化、新闻、娱乐信息可用搜索引擎检索;专利、标准与统计信息可从发布机构的网站检索;学术科研信息可用数据库检索。复杂、精确的需求可采用高级检索方式;模糊、简单的需求可采用简单检索方式。检索工具的功能设计(检索选项或检索框)正是用来满足各种需求的,灵活运用各种检索功能能够有效提高检索效率。从过程而言,信息检索是需求的明晰与调整,只有在检索的过程中,才能体会与领悟到检索的意义和乐趣;只有把学习、工作、生活与科研遇到的各种问题通过信息检索的途径解决,才能不断提高信息意识与检索技能,因此学好信息检索必须经过大量的实践训练。
  本书特色
  
  (1)将信息需求与信息检索结合起来,将十多位作者关于信息检索与利用的多年经验及技巧贯穿其中。
  (2)补充了新的内容:从国家、企业、个人层面介绍信息安全,从思维角度介绍网络资源检索技巧,从学习角度介绍数据获取,从使用角度介绍创新创业的信息资源。
  (3)增加了学生参与的内容,包括每章提供1~3个研讨与训练,针对16学时和32学时课程的不同上机练习题等。
  (4)通过二维码链接视频等数字资源,便于深化学习。
  目 录
  
  
  
  
  购书链接
  
  
  京东
  当当网
  相关课程授课教师
  可通过微信公众号“科学EDU”
  在线申请教学样书
  
  更多教学服务 查看全部

  科学 · 新书 | 《信息检索与利用(第四版)》正式出版
  
  
  
  信息化时代,瞬息万变的信息,已成为社会经济发展的重要因素。进入互联网时代,社交媒体和各种 APP 的广泛使用,使信息可以更为便捷地获取,但要获得“有用的知识”,似乎变得更难。面对纷繁无序的网络,如何高效、准确地查找所需要的信息,是每一个人都无法回避的问题,谁的“搜商”高,谁就更有可能抓住机遇;同时,信息安全和隐私保护也变得越来越重要。所以,信息检索能力既是一种素养,更是一种生活技能。
  
  
  
  
  
  新形态教材
  
  国家精品课程配套教材
  国家级精品资源共享课配套教材
  
  《信息检索与利用(第四版)》
  邓发云 编著
  书号:9787030713650
  定价:39.8元
  出版时间:2022年5月
  内容简介:本书系统地介绍信息素养、信息资源、信息检索及其应用的基本知识,以及各种常用检索工具的检索方法与技巧,提供了大量的案例、图表、思考与训练、研讨与训练、基于检索技巧的提示等,图文并茂,便于教学与阅读。
  本书既可作为高等学校本科生、研究生的“信息检索”课程教材与各类信息机构的岗位培训教材,也可作为工程技术人员、科研人员、教师从事信息检索时的参考书。
  作者建议
  
  
  
  信息素养是一种生活技能,为了读者更好地理解与使用本教材,有效地培养良好的信息素养和学习、适应能力,编者建议在使用中把握以下几点。
  强化 1 个信息意识。学会通过信息理解世界、沟通世界,学会通过信息检索扩展自己的认知;任何时候遇到任何事情都能通过检索、咨询已有的经验教训,优化自己的决策方案,减少不确定性。无论购物、旅游、交友、找工作、科学研究,都养成一个收集资料、帮助自己分析的习惯。
  注重 2 个能力培养。一是培养分析问题和解决问题的能力,既包括通过查询他人的或已有的历史成果与文献资料寻求答案或者激发灵感,也包括通过信息检索完善分析问题的框架、逻辑与思路;二是能够通过信息检索找到自己的目标与方向,进行规划与预测,从而构建适合自己学习、工作、生活、科研的信息环境,包括信息资源、平台、机构及其获取渠道。
  进行 3 种基本知识训练。一是掌握检索基本技术,包括逻辑组配、截词、字段选择、精确模糊匹配、检索词选取;二是了解常用资源、平台、工具,资源如中国知网、万方数据、SCI、SDOS、IEL,平台如本校图书馆、国家图书馆、CALIS、NSTL,工具如馆藏目录、搜索引擎、资源发现系统等;三是掌握常用检索方法,包括检索词选取、基本检索流程、检索策略调整、排序、分类与下载,能够将检索结果有效地融入需要解决的问题中。
  不断激发信息需求并通过检索满足信息需求,从本质而言,信息检索是一种匹配和选择,是信息需求与检索结果的匹配。信息需求决定检索工具、检索方式的选择。常识、大众化、新闻、娱乐信息可用搜索引擎检索;专利、标准与统计信息可从发布机构的网站检索;学术科研信息可用数据库检索。复杂、精确的需求可采用高级检索方式;模糊、简单的需求可采用简单检索方式。检索工具的功能设计(检索选项或检索框)正是用来满足各种需求的,灵活运用各种检索功能能够有效提高检索效率。从过程而言,信息检索是需求的明晰与调整,只有在检索的过程中,才能体会与领悟到检索的意义和乐趣;只有把学习、工作、生活与科研遇到的各种问题通过信息检索的途径解决,才能不断提高信息意识与检索技能,因此学好信息检索必须经过大量的实践训练。
  本书特色
  
  (1)将信息需求与信息检索结合起来,将十多位作者关于信息检索与利用的多年经验及技巧贯穿其中。
  (2)补充了新的内容:从国家、企业、个人层面介绍信息安全,从思维角度介绍网络资源检索技巧,从学习角度介绍数据获取,从使用角度介绍创新创业的信息资源。
  (3)增加了学生参与的内容,包括每章提供1~3个研讨与训练,针对16学时和32学时课程的不同上机练习题等。
  (4)通过二维码链接视频等数字资源,便于深化学习。
  目 录
  
  
  
  
  购书链接
  
  
  京东
  当当网
  相关课程授课教师
  可通过微信公众号“科学EDU”
  在线申请教学样书
  
  更多教学服务

收藏|信息检索技巧年终大盘点

网站优化优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2022-06-20 16:48 • 来自相关话题

  收藏|信息检索技巧年终大盘点
  
  据统计,科研人员开展项目时有51%的时间都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员的一项重要且亟待解决的问题。
  
  然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里寻找才能搜出。检索不到、检索不准、检索不全,都是目前科技信息检索中面临的严峻问题。
  如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用技巧和方法。
  数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,在检索时,根据所需信息的内容可以判断出从哪些数据库中获得能减少查询时间的合适数据,以此来提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库的话,可选择中国知网。
  检索字段的选取与确认
  在选取检索字段时,我们应遵循“选全、选准”的原则,尽量避免遗漏主题词,应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇,尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词,其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求的后果。所以,为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径和优化检索策略,从而提高检索字段的检索效率。
  如果想要使检索达到较高的专业度,就需要对检索字段、检索范围及检索策略等方面进行不断的修正、校准、优化。
  特殊检索符号的使用
  不同的算符会组成不同的检索式,因此,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1. 双引号
  双引号表示精确匹配。如果输入一个名称进行直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录;如果加上双引号再搜,只剩下两条!为什么会出现这种状况呢?双引号表示全字符匹配,就是一个字都不能差;可如果不加双引号,“天津”这个词能搜出10万条,“总后”这个词能搜出10万条,“军事”这个词又会搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,滤掉很多冗余信息。
  这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2. 减号
  “-”的作用是去除标题中不相关的结果,找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3. 逻辑算符AND
  用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。
  可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4. 位置算符
  ★ NEAR,表示两个检索词必须紧密相连,词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  ★WITH,表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class或high-class。
  5. 布尔逻辑算符
  运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  ★ OR,将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology的检索结果中必然包含education或technology中的一个。
  ★ NOT,排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6. 截词符
  ★“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。
  ★“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索虽减少了输入的字符数目,但可以有效预防漏检,提高查全率。
  其他重要检索事项
  
  1. 注意英文检索词的选择
  在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但在实际检索过程中,会发现英文原文给出的关键词有不准确或不全面的情况,除此之外,还会出现中文直译成英文的情况,这些都有可能导致搜集到的资料出现错误或不全。
  例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2. 搜索引擎的灵活应用
  搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。
  大多数搜索引擎都支持元词(metawords)检索功能,把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。
  例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能,可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用,它直接影响检索策略,影响检索效率和检索效果。
  在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。 查看全部

  收藏|信息检索技巧年终大盘点
  
  据统计,科研人员开展项目时有51%的时间都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员的一项重要且亟待解决的问题。
  
  然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里寻找才能搜出。检索不到、检索不准、检索不全,都是目前科技信息检索中面临的严峻问题。
  如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用技巧和方法。
  数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,在检索时,根据所需信息的内容可以判断出从哪些数据库中获得能减少查询时间的合适数据,以此来提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库的话,可选择中国知网。
  检索字段的选取与确认
  在选取检索字段时,我们应遵循“选全、选准”的原则,尽量避免遗漏主题词,应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇,尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词,其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求的后果。所以,为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径和优化检索策略,从而提高检索字段的检索效率。
  如果想要使检索达到较高的专业度,就需要对检索字段、检索范围及检索策略等方面进行不断的修正、校准、优化。
  特殊检索符号的使用
  不同的算符会组成不同的检索式,因此,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1. 双引号
  双引号表示精确匹配。如果输入一个名称进行直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录;如果加上双引号再搜,只剩下两条!为什么会出现这种状况呢?双引号表示全字符匹配,就是一个字都不能差;可如果不加双引号,“天津”这个词能搜出10万条,“总后”这个词能搜出10万条,“军事”这个词又会搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,滤掉很多冗余信息。
  这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2. 减号
  “-”的作用是去除标题中不相关的结果,找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3. 逻辑算符AND
  用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。
  可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4. 位置算符
  ★ NEAR,表示两个检索词必须紧密相连,词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  ★WITH,表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class或high-class。
  5. 布尔逻辑算符
  运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  ★ OR,将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology的检索结果中必然包含education或technology中的一个。
  ★ NOT,排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6. 截词符
  ★“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。
  ★“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索虽减少了输入的字符数目,但可以有效预防漏检,提高查全率。
  其他重要检索事项
  
  1. 注意英文检索词的选择
  在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但在实际检索过程中,会发现英文原文给出的关键词有不准确或不全面的情况,除此之外,还会出现中文直译成英文的情况,这些都有可能导致搜集到的资料出现错误或不全。
  例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2. 搜索引擎的灵活应用
  搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。
  大多数搜索引擎都支持元词(metawords)检索功能,把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。
  例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能,可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用,它直接影响检索策略,影响检索效率和检索效果。
  在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。

图解|通用搜索引擎背后的技术点

网站优化优采云 发表了文章 • 0 个评论 • 42 次浏览 • 2022-06-19 03:01 • 来自相关话题

  图解|通用搜索引擎背后的技术点
  1. 写在前面
  今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。
  
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。 查看全部

  图解|通用搜索引擎背后的技术点
  1. 写在前面
  今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。
  
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。

图解通用搜索引擎背后的技术点

网站优化优采云 发表了文章 • 0 个评论 • 48 次浏览 • 2022-06-19 03:00 • 来自相关话题

  图解通用搜索引擎背后的技术点
  
  1. 写在前面
  今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。
  
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。
  
  点个在看,赞支持我吧
   查看全部

  图解通用搜索引擎背后的技术点
  
  1. 写在前面
  今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。
  
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。
  
  点个在看,赞支持我吧
  

画了30张图:死磕搜索引擎背后的故事

网站优化优采云 发表了文章 • 0 个评论 • 41 次浏览 • 2022-06-18 07:08 • 来自相关话题

  画了30张图:死磕搜索引擎背后的故事
  关注“脚本之家”,与百万开发者在一起
  
  来源 |后端技术指南针
  1. 写在前面
  今天准备和小伙伴们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1.网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2.单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3.比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4.为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。 查看全部

  画了30张图:死磕搜索引擎背后的故事
  关注“脚本之家”,与百万开发者在一起
  
  来源 |后端技术指南针
  1. 写在前面
  今天准备和小伙伴们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1.网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2.单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3.比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4.为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。

这些科技信息检索技巧,学到了吗?

网站优化优采云 发表了文章 • 0 个评论 • 53 次浏览 • 2022-06-10 11:04 • 来自相关话题

  这些科技信息检索技巧,学到了吗?
  
  据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
  二、科技信息检索的技巧
  (一)数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库,则可以选择中国知网。
  (二)检索字段的选取与确认
  检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  (三)检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  (四)检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
  (五)特殊检索符的巧用
  不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1、双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2、减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家
  乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3、逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4、位置算符。
  (1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  (2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
  5、布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  (1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。
  (2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6、截词符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
  (六)其他重要检索事项
  1、注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2、搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(metawords)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
  
  全文获取:知网篇名检索“科技信息检索的技巧” 查看全部

  这些科技信息检索技巧,学到了吗?
  
  据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
  二、科技信息检索的技巧
  (一)数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库,则可以选择中国知网。
  (二)检索字段的选取与确认
  检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  (三)检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  (四)检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
  (五)特殊检索符的巧用
  不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1、双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2、减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家
  乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3、逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4、位置算符。
  (1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  (2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
  5、布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  (1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。
  (2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6、截词符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
  (六)其他重要检索事项
  1、注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2、搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(metawords)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
  
  全文获取:知网篇名检索“科技信息检索的技巧”

整理网站推广二十九种经典方法

网站优化优采云 发表了文章 • 0 个评论 • 39 次浏览 • 2022-06-10 10:58 • 来自相关话题

  整理网站推广二十九种经典方法
  如何增加网站访问量?以下是你可以考虑采用 29 个方法。其中,你或许已经采用了一些,有的方法你可能忘了采用,还有一些是你从来没有听说过的。总之,在这里你可以了结到当前各种有效的网站推广方法。首先你要了解,网站推广是一个长期而且系统的过程,需要制定明确的目标和计划,并做好相应的准备。
  一、添加网页标题
  为每页内容写 5 到 8 个字的描述性标题。标题要简练“的”“和”这些不重要的词汇。要说明该页面,该网站最重要的内容是什么。网页标题将出现在搜索结果页面的链接上,因此可以写得稍带煽动性,以吸引搜索者点击该链接。同时在首页内容中写上你的公司名和你最重要的关键词,而不能只是写公司名。网站的每一个页面都应该有针对该页面的标题。
  二、添加描述性 META 标签
  除了网页标题,不少搜索引擎会搜索到 META 标签。这是一句说明性文字。描述网页正文的内容,句中也要包含本页使用到的关键词,词组等。目前,含关键词的 META 标签已经对排名帮助不大,但有时 META 标签会用于付费登陆技术中。而且谁又知道什么时候搜索引擎又会再次重视它呢?
  三、在网页粗体文字,一般为文章标题中也填上你的关键词
  搜索引擎很重视粗体文字,以为这是本页很重要的内容。因此,确保在一二个粗体文字标签中写上你的关键词。要尽量避免将重要的标题都制作成图片的形式,更不要将整个首页都做成一个图片。
  四、确保在你的正文第一段就出现关键词
  搜索引擎希望在第一段文字中就找到你的关键词,但不要充斥过多关键词。google 大概将全文每 100 个字出现 1.5 到 2 个关键词视为最佳的关键词密度,可获得好排名。其他可考虑放置关键词的地方可以在代码的 ALT 或者 COMMEET 标签里面。如果无法保证正文第一段出现关键词,可以考虑一些不救措施,比如给网页加一个批注等等。
  五、导航设计要易于搜索引擎搜索
  有些人在网页制作中使用框架,但是这对于搜索引擎是一个严重的问题。即使搜索引擎找到你的内容页面,也可能错过其中关键性的导航栏目,从而不能进入到其他页面。用 JAVA和 FLASH 做的导航按钮看起来是很漂亮美观,但是搜索引擎找不到它们。补救的办法是在页面底部用常规 HTML 链接再作一个导航条,确保可以通过这个导航条进入网站的每一页。你还可以做一个网站地图,也可以链接到每一页面。此外,有些内容管理系统和电子商务目录运用动态的网页,这些页面的网址后面一般都有一个问号带上数字,工作过度的搜索引擎往往在问号前停下,不在继续搜索。对于这种情况。可以通过更改 URL,付费登陆等手段加以解决。动态站点可以通过生成静态页面的技术方便搜索引擎的抓取。网站地图要尽量可能链接到所有的主要页面,并单独把站点地图页面提交给搜索引擎。多使用 HTML 静态网页,虽然增加了工作量,但可以增加搜索引擎的友好度,从而为获得好的排名打下基础。
  六、针对某些特别重要的关键词,专门做几个页面
  搜索引擎优化专家不推荐使用任何针对搜索引擎的欺骗性过渡页面,因为这些几乎是复制出来的网页可能搜索引擎的惩罚。但可以做几个页面,每页集中包含不同的关键词或词组 。例如,无须在某一页上介绍你所有的服务内容,而是为每种服务分别作一个页面。这样,每一页都有相对应额关键词,这些页面内容因为包含针对性的关键词而不是笼统的内容,从而可以提高排名。
  七、向搜索引擎提交网页
  在搜索引擎是找到【ADD YOUR URL】网站登陆的链接。搜索引擎将自动搜索你提交的网页。美国最著名的搜索引擎是:google、inktomi、alta、vista、 tehoma。这些搜索引擎向其它主要搜索引擎和门户网站提供搜索内容。在欧洲和其他地区你可以发布到区域性的搜索引擎。至于花钱请人帮你提交成千上万的搜索引擎的做法是在白花钱。也不要在那些 FFA(free for all pages)网站,即所谓将你的网站免费自动提交到数百搜索引擎的站点。这类提交不仅效果不好,还会给你带来大量的垃圾邮件,并可能导致搜索引擎对你的网页进行惩罚。也不要使用网站登陆软件,所谓可以一次性将你的网站提交给数以千计的搜索引擎,其实不仅是不可能的,也是没有实际价值的。最重要的是做好网站的优化设计,对于主要搜索引擎,采用逐个手工提交的方式来进行 。对于付费搜索引擎,更不可能依靠软件来提交。事实上,有效的搜索引擎营销策略根本不需要将网站登陆到数以千计的搜索引擎,因为访问量最大的几个搜索引擎几乎集中了 98%以上的访问量,剩下的搜索引擎没有多少实际意义。另外要注意,提交网页不应该是一次性的 ,随着内容的更新,应该定期重新提交网页。由于网络页面越来越多,很多搜索机器人的回访时间很长,定期提交可以让搜索引擎前来抓取最新的更新内容。
  八、调整主要内容页面以提高排名
  将你认为最重要的页面,或许是首页作一些调整,以提高他们的排名。有一些软件可以让你检查当前的排名,比较跟你的关键词相同的竞争者的网页排名,还可以获得搜索引擎对你的网页的首选统计数据,从而对自己的页面进行调整。你可以使用 webpositiongold 自己做这个工作,但由于很花时间,也可以请专业的公司帮你做。在其他网站做链接可以带来更多访问量。自从 google 等主要搜索引擎将网站的链接广泛度作为排名参考的重要因素以后,越多网站链接你,你的网站排名越高。同时,链接的质量也是搜索引擎考虑的重要因素。链接在访问量高的网站比链接在访问量低的网站更有优势。
  九、将网站提交到主要的检索目录
  确保你的网站登陆到免费的 open directory(),这是由人工进行登陆审查的网站。该分级目录为所有主要搜索引擎提供目录内容提供搜索。google 很看重你的网站是否在这类重要的网站有链接。yahoo 是另一个重要的检索目录,需要在上面登陆。提示:描述网站的字数最好比规定的最高字数少,不要刚好达到字数限制,以免太长的文字描述使得网站审核人员删除一些句段。目前商业网站登陆 yahoo 每年要交¥299,最好让他们在 7个工作日内就将你的网站登陆上去。其他可以考虑登陆的检索目录有 和。国内有很多网站导航站点。例http:// http:// 等等,也能带来非常大的流量。即使网络营销预算不多,但主要的搜索引擎如新浪,搜虎等也是很有必要登记的。
  十、做专业
  将网站登陆到行业站点和专业目录中有一些检索目录定位于某个行业,如教育或金融业。如果你属于某个贸易协会,该协会集中了诸多会员站点,你可向该协会网站申请加入你的站点,哪怕付费也是应该的,因为这会为你带来许多目标访问者。除了可以登陆到很多黄页类网站,到搜索引擎按照你的行业查找,一定也能找到很多相关的行业目录站点,应该尽量登陆这些站点。
  十一、请求互换链接
  寻找一些与你的网站内容互补的站点向对方要求互换链接。最理想的链接对象是那些与你的网站流量相当的网站。流量太大的网站管理员要应付太多要求互换链接的请求,容易将你忽略。小的一些网站页可以考虑。互换链接页面要放在网站比较偏僻的地方,以免将你的网站访问者很快引向他人的站点。找到可以互换链接的网站之后,发一封个性化的电邮给对方网站管理,如果对方没有回复,再打电话试一试。一定要关注对方网站的质量,不要片面追求链接数量,更不要发垃圾邮件。
  十二、发表免费文章,附带站点签名
  免费为其他网站的新闻邮件写一些专业性文章,文章里用简短的文字附带描述你提供的东西,并请求对方链接你的网站。这是一种有效的病毒营销方法,你的文章将作为成千上百的用户订阅信息发出去,让你的网站一次性获得几百个链接。没有自己的原创文章,转载别人的文章时一定也要加上自己的链接。网下的传统推广方法依然奏效。多种手段并用的方法尤其有效。
  十三、将你的网址印在信纸、名片、宣传册、印刷品上
  这种简单的方法有时候却被忽略了。确保网址拼写正确。建议把 http://部 分省 略,只书写 http://www.****.com/部分。一个易于记忆的域名有利于网站的推广,在选择域名时一定要仔细考虑。
  十四、使用传统媒体广告
  传统媒体广告不应该废止。无论是报纸还是杂志广告,务必确保在其中展示你的网址。要将查看网站作为广告的辅助内容,提醒用户浏览网站将取得更多相关信息。别忽视在一些定位相对比较狭窄的杂志或者贸易期刊刊登广告,有时候这些广告定位会更加准确、有效。而且比网络广告更便宜。还有其它传统方式可增加网站访问量,如直邮、分类广告、明信片等等。电视广告恐怕更适合于那些销售大众化商品的网站。让网址出现在广告中显眼的位置 ,相信比电话号码更好记忆
  十五、提供免费服务
  人们都喜欢免费的东西。通过免费信息内容吸引人们访问你的网站,比单纯叫人来访问了解你的业务更有效。建立免费资源需要花费时间和精力,但是对增加访问量非常有效。你提供的免费内容要与你销售的东西非常接近,这样你吸引来得访问者才有可能时目标潜在客户,提供免费服务的同时,网站要提供多种链接方式将获取免费信息的用户注意力引导到你销售的产品部分。免费资源比如:免费邮箱、免费网站登陆、免费发布信息、能提供具有特色的免费服务那就更好了。
  十六、发布新闻
  寻找具有新闻价值的事件,比如宣传你提供免费服务,并将新闻发布到你所在行业的印刷期刊和网站期刊上。你可以使用一些网络新闻发布服务。 新闻推广总是有效的,这就是为什么传统媒体会有那么多企业的广告看起来很像新闻的原因。电子邮件是增加访问量的重要方法,但前提是不能大量发送未经许可的垃圾邮件。
  十七、在你发出的邮件中创建一个签名,让潜在客户与你联系
  大部分的邮件系统都有创建签名的功能。签名会自动出现在你发出去的每封邮件末尾。签名要限制在 6-8 行之内。包括:公司名称、地址、电话、网址、电子邮件和一句你的企业的描述。签名不要为了漂亮设计为图片格式,要便于客户复制拷贝。
  十八、建立邮件列表,定期向用户发送新闻邮件或其他信息
  这是与客户保持联系、建立信任、发展品牌及建立长期关系的最好方法之一。你可以请网站访问者填写他们的电子邮件地址,从而收取你的新闻邮件。发送邮件需要采用群发服务器,这些在网络上有很多。
  十九、向邮件列表用户发布产品信息,如优惠券,新产品及其其他促销信息
  如果将邮件主题和正文进行个性化处理将获得更好的效果。邮件主题设计的 5 个基本原则是:1、体现出邮件内容的精华。2、体现出发件人信息中无法包含的内容。3、体现出品牌或者产品信息。4、邮件主题含有丰富的关键词。5、邮件主题不宜过于简单或者过于复杂 。
  二十、租用目标客户邮件列表
  这些邮件列表客户在邮件列表商的网站注册的时候同意接受某些类别商业邮件信息,因此向这些用户发送你的产品信息是合法的,不属于垃圾邮件。自己用邮址搜索软件收集电子邮件地址,或者购买电子邮件地址都属于垃圾邮件,不仅不会带来好处,甚至会收到惩罚。
  二十一、在邮件列表和新闻组中进行促销
  许多在某一专业领域中有着共同兴趣的人在网络上进行讨论交流,形成成千上万不同领域的新闻组。找到自己领域内的新闻组,不是要在其中公开宣传你的产品或者服务,而是在交流的签名中留下你的电子邮件地址和网站。当人们逐渐了解并信任你的时候,他们会访问你的网站。新闻组在国内应用不多,因此算不上常用的网站推广方法。论坛和聊天室曾经被用来宣传产品,但现在很多网站并不欢迎在这些网络社区发布广告信息,除非有专门的广告发布版块,否则尽量不要采用这种方式。
  二十二、运用竞赛
  你可以在网站上设计一个竞赛,奖品要能够吸引那些你最希望获得的那类客户。比如将奖品设计为你的产品或一定的购买折扣等等。运用竞赛可以有效的吸引更多访问量。如果你的知名度不高,如何让客户知道你开展竞赛也是一个问题,因此对有些网站这种方式并不适用。 查看全部

  整理网站推广二十九种经典方法
  如何增加网站访问量?以下是你可以考虑采用 29 个方法。其中,你或许已经采用了一些,有的方法你可能忘了采用,还有一些是你从来没有听说过的。总之,在这里你可以了结到当前各种有效的网站推广方法。首先你要了解,网站推广是一个长期而且系统的过程,需要制定明确的目标和计划,并做好相应的准备。
  一、添加网页标题
  为每页内容写 5 到 8 个字的描述性标题。标题要简练“的”“和”这些不重要的词汇。要说明该页面,该网站最重要的内容是什么。网页标题将出现在搜索结果页面的链接上,因此可以写得稍带煽动性,以吸引搜索者点击该链接。同时在首页内容中写上你的公司名和你最重要的关键词,而不能只是写公司名。网站的每一个页面都应该有针对该页面的标题。
  二、添加描述性 META 标签
  除了网页标题,不少搜索引擎会搜索到 META 标签。这是一句说明性文字。描述网页正文的内容,句中也要包含本页使用到的关键词,词组等。目前,含关键词的 META 标签已经对排名帮助不大,但有时 META 标签会用于付费登陆技术中。而且谁又知道什么时候搜索引擎又会再次重视它呢?
  三、在网页粗体文字,一般为文章标题中也填上你的关键词
  搜索引擎很重视粗体文字,以为这是本页很重要的内容。因此,确保在一二个粗体文字标签中写上你的关键词。要尽量避免将重要的标题都制作成图片的形式,更不要将整个首页都做成一个图片。
  四、确保在你的正文第一段就出现关键词
  搜索引擎希望在第一段文字中就找到你的关键词,但不要充斥过多关键词。google 大概将全文每 100 个字出现 1.5 到 2 个关键词视为最佳的关键词密度,可获得好排名。其他可考虑放置关键词的地方可以在代码的 ALT 或者 COMMEET 标签里面。如果无法保证正文第一段出现关键词,可以考虑一些不救措施,比如给网页加一个批注等等。
  五、导航设计要易于搜索引擎搜索
  有些人在网页制作中使用框架,但是这对于搜索引擎是一个严重的问题。即使搜索引擎找到你的内容页面,也可能错过其中关键性的导航栏目,从而不能进入到其他页面。用 JAVA和 FLASH 做的导航按钮看起来是很漂亮美观,但是搜索引擎找不到它们。补救的办法是在页面底部用常规 HTML 链接再作一个导航条,确保可以通过这个导航条进入网站的每一页。你还可以做一个网站地图,也可以链接到每一页面。此外,有些内容管理系统和电子商务目录运用动态的网页,这些页面的网址后面一般都有一个问号带上数字,工作过度的搜索引擎往往在问号前停下,不在继续搜索。对于这种情况。可以通过更改 URL,付费登陆等手段加以解决。动态站点可以通过生成静态页面的技术方便搜索引擎的抓取。网站地图要尽量可能链接到所有的主要页面,并单独把站点地图页面提交给搜索引擎。多使用 HTML 静态网页,虽然增加了工作量,但可以增加搜索引擎的友好度,从而为获得好的排名打下基础。
  六、针对某些特别重要的关键词,专门做几个页面
  搜索引擎优化专家不推荐使用任何针对搜索引擎的欺骗性过渡页面,因为这些几乎是复制出来的网页可能搜索引擎的惩罚。但可以做几个页面,每页集中包含不同的关键词或词组 。例如,无须在某一页上介绍你所有的服务内容,而是为每种服务分别作一个页面。这样,每一页都有相对应额关键词,这些页面内容因为包含针对性的关键词而不是笼统的内容,从而可以提高排名。
  七、向搜索引擎提交网页
  在搜索引擎是找到【ADD YOUR URL】网站登陆的链接。搜索引擎将自动搜索你提交的网页。美国最著名的搜索引擎是:google、inktomi、alta、vista、 tehoma。这些搜索引擎向其它主要搜索引擎和门户网站提供搜索内容。在欧洲和其他地区你可以发布到区域性的搜索引擎。至于花钱请人帮你提交成千上万的搜索引擎的做法是在白花钱。也不要在那些 FFA(free for all pages)网站,即所谓将你的网站免费自动提交到数百搜索引擎的站点。这类提交不仅效果不好,还会给你带来大量的垃圾邮件,并可能导致搜索引擎对你的网页进行惩罚。也不要使用网站登陆软件,所谓可以一次性将你的网站提交给数以千计的搜索引擎,其实不仅是不可能的,也是没有实际价值的。最重要的是做好网站的优化设计,对于主要搜索引擎,采用逐个手工提交的方式来进行 。对于付费搜索引擎,更不可能依靠软件来提交。事实上,有效的搜索引擎营销策略根本不需要将网站登陆到数以千计的搜索引擎,因为访问量最大的几个搜索引擎几乎集中了 98%以上的访问量,剩下的搜索引擎没有多少实际意义。另外要注意,提交网页不应该是一次性的 ,随着内容的更新,应该定期重新提交网页。由于网络页面越来越多,很多搜索机器人的回访时间很长,定期提交可以让搜索引擎前来抓取最新的更新内容。
  八、调整主要内容页面以提高排名
  将你认为最重要的页面,或许是首页作一些调整,以提高他们的排名。有一些软件可以让你检查当前的排名,比较跟你的关键词相同的竞争者的网页排名,还可以获得搜索引擎对你的网页的首选统计数据,从而对自己的页面进行调整。你可以使用 webpositiongold 自己做这个工作,但由于很花时间,也可以请专业的公司帮你做。在其他网站做链接可以带来更多访问量。自从 google 等主要搜索引擎将网站的链接广泛度作为排名参考的重要因素以后,越多网站链接你,你的网站排名越高。同时,链接的质量也是搜索引擎考虑的重要因素。链接在访问量高的网站比链接在访问量低的网站更有优势。
  九、将网站提交到主要的检索目录
  确保你的网站登陆到免费的 open directory(),这是由人工进行登陆审查的网站。该分级目录为所有主要搜索引擎提供目录内容提供搜索。google 很看重你的网站是否在这类重要的网站有链接。yahoo 是另一个重要的检索目录,需要在上面登陆。提示:描述网站的字数最好比规定的最高字数少,不要刚好达到字数限制,以免太长的文字描述使得网站审核人员删除一些句段。目前商业网站登陆 yahoo 每年要交¥299,最好让他们在 7个工作日内就将你的网站登陆上去。其他可以考虑登陆的检索目录有 和。国内有很多网站导航站点。例http:// http:// 等等,也能带来非常大的流量。即使网络营销预算不多,但主要的搜索引擎如新浪,搜虎等也是很有必要登记的。
  十、做专业
  将网站登陆到行业站点和专业目录中有一些检索目录定位于某个行业,如教育或金融业。如果你属于某个贸易协会,该协会集中了诸多会员站点,你可向该协会网站申请加入你的站点,哪怕付费也是应该的,因为这会为你带来许多目标访问者。除了可以登陆到很多黄页类网站,到搜索引擎按照你的行业查找,一定也能找到很多相关的行业目录站点,应该尽量登陆这些站点。
  十一、请求互换链接
  寻找一些与你的网站内容互补的站点向对方要求互换链接。最理想的链接对象是那些与你的网站流量相当的网站。流量太大的网站管理员要应付太多要求互换链接的请求,容易将你忽略。小的一些网站页可以考虑。互换链接页面要放在网站比较偏僻的地方,以免将你的网站访问者很快引向他人的站点。找到可以互换链接的网站之后,发一封个性化的电邮给对方网站管理,如果对方没有回复,再打电话试一试。一定要关注对方网站的质量,不要片面追求链接数量,更不要发垃圾邮件。
  十二、发表免费文章,附带站点签名
  免费为其他网站的新闻邮件写一些专业性文章,文章里用简短的文字附带描述你提供的东西,并请求对方链接你的网站。这是一种有效的病毒营销方法,你的文章将作为成千上百的用户订阅信息发出去,让你的网站一次性获得几百个链接。没有自己的原创文章,转载别人的文章时一定也要加上自己的链接。网下的传统推广方法依然奏效。多种手段并用的方法尤其有效。
  十三、将你的网址印在信纸、名片、宣传册、印刷品上
  这种简单的方法有时候却被忽略了。确保网址拼写正确。建议把 http://部 分省 略,只书写 http://www.****.com/部分。一个易于记忆的域名有利于网站的推广,在选择域名时一定要仔细考虑。
  十四、使用传统媒体广告
  传统媒体广告不应该废止。无论是报纸还是杂志广告,务必确保在其中展示你的网址。要将查看网站作为广告的辅助内容,提醒用户浏览网站将取得更多相关信息。别忽视在一些定位相对比较狭窄的杂志或者贸易期刊刊登广告,有时候这些广告定位会更加准确、有效。而且比网络广告更便宜。还有其它传统方式可增加网站访问量,如直邮、分类广告、明信片等等。电视广告恐怕更适合于那些销售大众化商品的网站。让网址出现在广告中显眼的位置 ,相信比电话号码更好记忆
  十五、提供免费服务
  人们都喜欢免费的东西。通过免费信息内容吸引人们访问你的网站,比单纯叫人来访问了解你的业务更有效。建立免费资源需要花费时间和精力,但是对增加访问量非常有效。你提供的免费内容要与你销售的东西非常接近,这样你吸引来得访问者才有可能时目标潜在客户,提供免费服务的同时,网站要提供多种链接方式将获取免费信息的用户注意力引导到你销售的产品部分。免费资源比如:免费邮箱、免费网站登陆、免费发布信息、能提供具有特色的免费服务那就更好了。
  十六、发布新闻
  寻找具有新闻价值的事件,比如宣传你提供免费服务,并将新闻发布到你所在行业的印刷期刊和网站期刊上。你可以使用一些网络新闻发布服务。 新闻推广总是有效的,这就是为什么传统媒体会有那么多企业的广告看起来很像新闻的原因。电子邮件是增加访问量的重要方法,但前提是不能大量发送未经许可的垃圾邮件。
  十七、在你发出的邮件中创建一个签名,让潜在客户与你联系
  大部分的邮件系统都有创建签名的功能。签名会自动出现在你发出去的每封邮件末尾。签名要限制在 6-8 行之内。包括:公司名称、地址、电话、网址、电子邮件和一句你的企业的描述。签名不要为了漂亮设计为图片格式,要便于客户复制拷贝。
  十八、建立邮件列表,定期向用户发送新闻邮件或其他信息
  这是与客户保持联系、建立信任、发展品牌及建立长期关系的最好方法之一。你可以请网站访问者填写他们的电子邮件地址,从而收取你的新闻邮件。发送邮件需要采用群发服务器,这些在网络上有很多。
  十九、向邮件列表用户发布产品信息,如优惠券,新产品及其其他促销信息
  如果将邮件主题和正文进行个性化处理将获得更好的效果。邮件主题设计的 5 个基本原则是:1、体现出邮件内容的精华。2、体现出发件人信息中无法包含的内容。3、体现出品牌或者产品信息。4、邮件主题含有丰富的关键词。5、邮件主题不宜过于简单或者过于复杂 。
  二十、租用目标客户邮件列表
  这些邮件列表客户在邮件列表商的网站注册的时候同意接受某些类别商业邮件信息,因此向这些用户发送你的产品信息是合法的,不属于垃圾邮件。自己用邮址搜索软件收集电子邮件地址,或者购买电子邮件地址都属于垃圾邮件,不仅不会带来好处,甚至会收到惩罚。
  二十一、在邮件列表和新闻组中进行促销
  许多在某一专业领域中有着共同兴趣的人在网络上进行讨论交流,形成成千上万不同领域的新闻组。找到自己领域内的新闻组,不是要在其中公开宣传你的产品或者服务,而是在交流的签名中留下你的电子邮件地址和网站。当人们逐渐了解并信任你的时候,他们会访问你的网站。新闻组在国内应用不多,因此算不上常用的网站推广方法。论坛和聊天室曾经被用来宣传产品,但现在很多网站并不欢迎在这些网络社区发布广告信息,除非有专门的广告发布版块,否则尽量不要采用这种方式。
  二十二、运用竞赛
  你可以在网站上设计一个竞赛,奖品要能够吸引那些你最希望获得的那类客户。比如将奖品设计为你的产品或一定的购买折扣等等。运用竞赛可以有效的吸引更多访问量。如果你的知名度不高,如何让客户知道你开展竞赛也是一个问题,因此对有些网站这种方式并不适用。

搜索引擎营销核心思路

网站优化优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-05-21 19:30 • 来自相关话题

  搜索引擎营销核心思路
  
  再不点蓝字关注,机会就要飞走了哦 搜索引擎目前仍然是最主要的网站推广手段之一,尤其基于自然搜索结果的搜索引擎推广,到目前为止 搜索引擎营销四个目标层次仍然是免费的,因此受到众多中小网站的重视,搜索引擎营销方法也成为网络营销方法体系的主要组成部分。目前对于搜索引擎营销的研究,无论是对于搜索引擎优化还是付费搜索引擎广告,基本上都处于操作层面,如果要对这些具体的操作方法和技巧归纳为搜索引擎推广的一般规律时,有必要提出这样的问题:搜索引擎推广的核心思想是什么? 新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。搜索引擎营销的核心思想对网站推广策略的指导意义“搜索引擎推广是基于网站有效文字信息的推广”,这一指导思想对制定网站推广策略的指导意义表现在几个方面:网站推广需要有效的网站内容网站的有效内容,亦即对网站推广有价值的内容。
  增加网站内容在的作用首先表现在满足用户获取信息方面,这是任何网站发布内容的基本目的,从直接浏览者的角度来看,网上的信息通常并不能完全满足所有 使用搜索引擎营销的企业行业用户的需要,每增加一个网页的内容,也就意味着为满足用户的信息需求需求增加了一点努力。因此网站内容策略的基本出发点是可以为用户提供有效的信息和服务,这样,无论用户通过哪种渠道来到网站,都可以获得尽可能详尽的信息。在满足用户这一基本需求的前提下,网站内容还应考虑到搜索引擎的收录和检索规律,这样可以为用户通过搜索引擎获取网站信息带来更多的机会。搜索引擎收录的信息量是以网页数为单位的,被收录的每一个网页都有被用户发现的机会,也只有被搜索引擎收录才能获得搜索引擎推广的机会。因此,通过增加网站内容而实现网站推广的策略,本质上仍然是搜索引擎推广方法的一种具体应用形式,应服从于搜索引擎营销的一般原理。网页内容是否具有网站推广的价值,不仅依赖于搜索引擎,也取决于用户使用搜索引擎的行为,只有做到网页内容被搜索引擎收录,并且在用户利用某些关键词检索时出现在检索结果靠前的位置,才有可能被用户发现并引起进一步的兴趣。网络营销的基本任务之一就是利用互联网手段将营销信息传递给目标用户,网站的内容策略正是实现这一基本任务的具体方法之一。
  网站内容策略与网站推广策略密不可分新竞争力的研究认为,网站推广是个系统工程,不仅网站建设的专业水平、网站的功能和结构等因素与网站推广策略和网站推广效果直接相关,网站的内容策略同样直接影响着网站推广的效果。只是在一般网站 搜索引擎营销关键因素推广策略方面,对网站内容策略的研究比较少,或者很少将网站内容策略与网站推广策略联系起来。考虑到网站内容对于网站推广的意义之后,便于协调网站内容策略与网站推广策略之间的关系,两者均为网络营销策略的重要组成部分,应在网络营销总体策略层面得到统一。前述分析说明,有效的网站内容对于网站推广策略如此重要,多一个网页,只要包含有效关键词,那么在搜索结果中就多了一次被用户发现的机会,但是实际上并不是每个网站都有很多内容,尤其是用户感兴趣的内容,因此显得内容贫乏,这种状况在许多中小型网站上尤为普遍,好像除了公司简介、产品简介之外,再没有其他内容可以发布了。那么,应该如何增加网站的有效内容?这正是许多企业网站面临的网站推广难题之一。对此,网上营销新观察进行的专题研究结论是,增加网站内容的途径可以从网站内部和外部两个方面的资源来考虑增加内容:(1)充分利用内部资源,也就是对网站现有内容的进行合理的包装、优化和扩展;(2)合理利用外部资源,包括利用合作伙伴的资源、利用相关的信息资源,以及将企业的信息资源通过其他网站进行传播等
  
  
  不关注
  
  就捣蛋
   查看全部

  搜索引擎营销核心思路
  
  再不点蓝字关注,机会就要飞走了哦 搜索引擎目前仍然是最主要的网站推广手段之一,尤其基于自然搜索结果的搜索引擎推广,到目前为止 搜索引擎营销四个目标层次仍然是免费的,因此受到众多中小网站的重视,搜索引擎营销方法也成为网络营销方法体系的主要组成部分。目前对于搜索引擎营销的研究,无论是对于搜索引擎优化还是付费搜索引擎广告,基本上都处于操作层面,如果要对这些具体的操作方法和技巧归纳为搜索引擎推广的一般规律时,有必要提出这样的问题:搜索引擎推广的核心思想是什么? 新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。搜索引擎营销的核心思想对网站推广策略的指导意义“搜索引擎推广是基于网站有效文字信息的推广”,这一指导思想对制定网站推广策略的指导意义表现在几个方面:网站推广需要有效的网站内容网站的有效内容,亦即对网站推广有价值的内容。
  增加网站内容在的作用首先表现在满足用户获取信息方面,这是任何网站发布内容的基本目的,从直接浏览者的角度来看,网上的信息通常并不能完全满足所有 使用搜索引擎营销的企业行业用户的需要,每增加一个网页的内容,也就意味着为满足用户的信息需求需求增加了一点努力。因此网站内容策略的基本出发点是可以为用户提供有效的信息和服务,这样,无论用户通过哪种渠道来到网站,都可以获得尽可能详尽的信息。在满足用户这一基本需求的前提下,网站内容还应考虑到搜索引擎的收录和检索规律,这样可以为用户通过搜索引擎获取网站信息带来更多的机会。搜索引擎收录的信息量是以网页数为单位的,被收录的每一个网页都有被用户发现的机会,也只有被搜索引擎收录才能获得搜索引擎推广的机会。因此,通过增加网站内容而实现网站推广的策略,本质上仍然是搜索引擎推广方法的一种具体应用形式,应服从于搜索引擎营销的一般原理。网页内容是否具有网站推广的价值,不仅依赖于搜索引擎,也取决于用户使用搜索引擎的行为,只有做到网页内容被搜索引擎收录,并且在用户利用某些关键词检索时出现在检索结果靠前的位置,才有可能被用户发现并引起进一步的兴趣。网络营销的基本任务之一就是利用互联网手段将营销信息传递给目标用户,网站的内容策略正是实现这一基本任务的具体方法之一。
  网站内容策略与网站推广策略密不可分新竞争力的研究认为,网站推广是个系统工程,不仅网站建设的专业水平、网站的功能和结构等因素与网站推广策略和网站推广效果直接相关,网站的内容策略同样直接影响着网站推广的效果。只是在一般网站 搜索引擎营销关键因素推广策略方面,对网站内容策略的研究比较少,或者很少将网站内容策略与网站推广策略联系起来。考虑到网站内容对于网站推广的意义之后,便于协调网站内容策略与网站推广策略之间的关系,两者均为网络营销策略的重要组成部分,应在网络营销总体策略层面得到统一。前述分析说明,有效的网站内容对于网站推广策略如此重要,多一个网页,只要包含有效关键词,那么在搜索结果中就多了一次被用户发现的机会,但是实际上并不是每个网站都有很多内容,尤其是用户感兴趣的内容,因此显得内容贫乏,这种状况在许多中小型网站上尤为普遍,好像除了公司简介、产品简介之外,再没有其他内容可以发布了。那么,应该如何增加网站的有效内容?这正是许多企业网站面临的网站推广难题之一。对此,网上营销新观察进行的专题研究结论是,增加网站内容的途径可以从网站内部和外部两个方面的资源来考虑增加内容:(1)充分利用内部资源,也就是对网站现有内容的进行合理的包装、优化和扩展;(2)合理利用外部资源,包括利用合作伙伴的资源、利用相关的信息资源,以及将企业的信息资源通过其他网站进行传播等
  
  
  不关注
  
  就捣蛋
  

搜索引擎框架介绍

网站优化优采云 发表了文章 • 0 个评论 • 44 次浏览 • 2022-05-21 02:21 • 来自相关话题

  搜索引擎框架介绍
  欢迎将公众号设置为星标,技术文章第一时间看到。我们将一如既往精选技术好文,提供有价值的阅读。如果文章对你有帮助,欢迎点个在看鼓励作者。
  技术经验交流:
  
  一、搜索引擎基础介绍1. 什么是搜索引擎
  搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。
  2. 传统的搜索与搜索引擎对比
  2.1 传统做法
  (1)文档中使用系统的Find查找
  (2)mysql中使用like模糊查询
  存在问题:
  (1)海量数据中不能及时响应,少量数据可以通过传统的MySql建立索引解决
  (2)一些无用词不能进行过滤,没法分词
  (3)数据量大的话难以拓展
  (4)相同的数据难以进行相似度最高的进行排序
  2.2 搜索引擎做法
  (1)存储非结构化的数据
  (2)快速检索和响应我们需要的信息,快-准
  (3)进行相关性的排序,过滤等
  (4)可以去掉停用词(没有特殊含义的词,比如英文的a,is等,中文: 这,的,是等),框架一般支持可以自定义停用词
  二、常见搜索引擎框架介绍与比较1. Java 全文搜索引擎框架 Lucene
  1.1 简介
  Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个搜素引擎需要自己去架构,另外它不支持实时搜索。但是solr和elasticsearch都是基于Lucene封装。
  1.2 优点
  成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持续快速的进步。庞大而活跃的开发社区,大量的开发人员。它只是一个类库,有足够的定制和优化空间:经过简单定制,就可以满足绝大部分常见的需求;经过优化,可以支持 10亿+ 量级的搜索。
  1.3 缺点
  需要额外的开发工作。所有的扩展,分布式,可靠性等都需要自己实现;非实时,从建索引到可以搜索中间有一个时间延迟,而当前的“近实时”(Lucene Near Real Time search)搜索方案的可扩展性有待进一步完善.
  2. Apache Solr
  2.1 简介
  Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
  2.2 优点
  (1)Solr有一个更大、更成熟的用户、开发和贡献者社区。
  (2)支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
  (3)Solr比较成熟、稳定。
  (4)不考虑建索引的同时进行搜索,速度更快。
  2.3 缺点
  建立索引时,搜索效率下降,实时索引搜索效率不高
  3. Elastic Search
  3.1 简介
  ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。
  3.2 优点
  (1)Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。
  (2)Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
  (3)处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。
  (4)Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。
  各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。
  3.3 缺点
  还不够自动(不适合当前新的Index Warmup API)
  4. Elasticsearch 与 Solr 的比较总结
  (1)二者安装都很简单
  (2)Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;
  (3)Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式;
  (4)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供;
  (5)Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch。
  (6)总之,Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用。
  5. Sphinx
  5.1 简介
  Sphinx一个基于SQL的全文检索引擎,特别为一些脚本语言(PHP,Python,Perl,Ruby)设计搜索API接口。
  Sphinx是一个用C++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空间换取事件的策略,在检索速度上,和lucene相差不大,但检索精准度方面Lucene要优于Sphinx,另外在加入中文分词引擎难度方面,Lucene要优于Sphinx.其中Sphinx支持实时搜索,使用起来比较简单方便.
  Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS 的原生支持)
  5.2 特点
  (1)高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
  (2)高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
  (3)可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可 处理100 M 文档);
  (4)提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
  (5)支持分布式搜索;
  (6)支持短语搜索
  (7)提供文档摘要生成
  (8)可作为MySQL的存储引擎提供搜索服务;
  (9)支持布尔、短语、词语相似度等多种检索模式;
  (10)文档支持多个全文检索字段(最大不超过32个);
  (11)文档支持多个额外的属性信息(例如:分组信息,时间戳等);
  (12)支持断词;
  6. Katta
  6.1 简介
  基于 Lucene 的,支持分布式,可扩展,具有容错功能,准实时的搜索方案。
  6.2 优点
  开箱即用,可以与 Hadoop 配合实现分布式。具备扩展和容错机制。
  6.3 缺点
  只是搜索方案,建索引部分还是需要自己实现。在搜索功能上,只实现了最基本的需求。成功案例较少,项目的成熟度稍微差一些。因为需要支持分布式,对于一些复杂的查询需求,定制的难度会比较大。
  三、参考文章 查看全部

  搜索引擎框架介绍
  欢迎将公众号设置为星标,技术文章第一时间看到。我们将一如既往精选技术好文,提供有价值的阅读。如果文章对你有帮助,欢迎点个在看鼓励作者。
  技术经验交流:
  
  一、搜索引擎基础介绍1. 什么是搜索引擎
  搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。
  2. 传统的搜索与搜索引擎对比
  2.1 传统做法
  (1)文档中使用系统的Find查找
  (2)mysql中使用like模糊查询
  存在问题:
  (1)海量数据中不能及时响应,少量数据可以通过传统的MySql建立索引解决
  (2)一些无用词不能进行过滤,没法分词
  (3)数据量大的话难以拓展
  (4)相同的数据难以进行相似度最高的进行排序
  2.2 搜索引擎做法
  (1)存储非结构化的数据
  (2)快速检索和响应我们需要的信息,快-准
  (3)进行相关性的排序,过滤等
  (4)可以去掉停用词(没有特殊含义的词,比如英文的a,is等,中文: 这,的,是等),框架一般支持可以自定义停用词
  二、常见搜索引擎框架介绍与比较1. Java 全文搜索引擎框架 Lucene
  1.1 简介
  Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个搜素引擎需要自己去架构,另外它不支持实时搜索。但是solr和elasticsearch都是基于Lucene封装。
  1.2 优点
  成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持续快速的进步。庞大而活跃的开发社区,大量的开发人员。它只是一个类库,有足够的定制和优化空间:经过简单定制,就可以满足绝大部分常见的需求;经过优化,可以支持 10亿+ 量级的搜索。
  1.3 缺点
  需要额外的开发工作。所有的扩展,分布式,可靠性等都需要自己实现;非实时,从建索引到可以搜索中间有一个时间延迟,而当前的“近实时”(Lucene Near Real Time search)搜索方案的可扩展性有待进一步完善.
  2. Apache Solr
  2.1 简介
  Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
  2.2 优点
  (1)Solr有一个更大、更成熟的用户、开发和贡献者社区。
  (2)支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
  (3)Solr比较成熟、稳定。
  (4)不考虑建索引的同时进行搜索,速度更快。
  2.3 缺点
  建立索引时,搜索效率下降,实时索引搜索效率不高
  3. Elastic Search
  3.1 简介
  ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。
  3.2 优点
  (1)Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。
  (2)Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
  (3)处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。
  (4)Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。
  各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。
  3.3 缺点
  还不够自动(不适合当前新的Index Warmup API)
  4. Elasticsearch 与 Solr 的比较总结
  (1)二者安装都很简单
  (2)Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;
  (3)Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式;
  (4)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供;
  (5)Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch。
  (6)总之,Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用。
  5. Sphinx
  5.1 简介
  Sphinx一个基于SQL的全文检索引擎,特别为一些脚本语言(PHP,Python,Perl,Ruby)设计搜索API接口。
  Sphinx是一个用C++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空间换取事件的策略,在检索速度上,和lucene相差不大,但检索精准度方面Lucene要优于Sphinx,另外在加入中文分词引擎难度方面,Lucene要优于Sphinx.其中Sphinx支持实时搜索,使用起来比较简单方便.
  Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS 的原生支持)
  5.2 特点
  (1)高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
  (2)高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
  (3)可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可 处理100 M 文档);
  (4)提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
  (5)支持分布式搜索;
  (6)支持短语搜索
  (7)提供文档摘要生成
  (8)可作为MySQL的存储引擎提供搜索服务;
  (9)支持布尔、短语、词语相似度等多种检索模式;
  (10)文档支持多个全文检索字段(最大不超过32个);
  (11)文档支持多个额外的属性信息(例如:分组信息,时间戳等);
  (12)支持断词;
  6. Katta
  6.1 简介
  基于 Lucene 的,支持分布式,可扩展,具有容错功能,准实时的搜索方案。
  6.2 优点
  开箱即用,可以与 Hadoop 配合实现分布式。具备扩展和容错机制。
  6.3 缺点
  只是搜索方案,建索引部分还是需要自己实现。在搜索功能上,只实现了最基本的需求。成功案例较少,项目的成熟度稍微差一些。因为需要支持分布式,对于一些复杂的查询需求,定制的难度会比较大。
  三、参考文章

聊聊搜索引擎--网页处理篇

网站优化优采云 发表了文章 • 0 个评论 • 34 次浏览 • 2022-05-21 02:21 • 来自相关话题

  聊聊搜索引擎--网页处理篇
  前面的一篇文章发得有点匆忙,主要是想在大家过节前发一篇,别浪费了公众号的发送次数。上文《》谈的是爬虫部分。文章里提到之前写过两篇有关搜索的文章,忘了链接过去了,这里放一下,方便有兴趣的读者阅读。
  《》
  《》
  前文提到,搜索引擎一般可以分为爬虫模块,网页处理,索引模块,检索模块,排序模块几个模块。爬虫负责抓取数据,算是数据生产方。今天我们要说的是数据的加工部门。也就是网页处理。
  网页处理在大部分介绍里,都算在爬虫部分。我呆过的第一家公司,并没有网页处理相关的小组。我当时基本上算是最主要的网页处理工程师了,写了包括网页解析基础库,各种网页里的质量信号的抽取等。不过我呆过的第二家搜索公司,当时有一个小组是专门做网页解析的。当然,本文要谈的不局限于网页解析,而是在索引之前的搜索特征提取。在我做搜索的时候,机器学习还没那么火,我们一般叫质量信号之类的。但是这些质量信号,主要是服务排序的,排序作为一个机器学习任务,使用到的因素,我们称之为特征比较好理解。而网页解析等大部分工作,可以看成网页排序这个复杂Task的特征工程。
  Index pipeline
  在一个网页搜索中,完整的index pipeline 很复杂,涉及到死链检测,soft 404页面检测,标题抽取,正文抽取,网页发布时间抽取,结构化信息抽取(比如论坛的各个帖子的内容,作者,时间等。再比如电影的导演,主演,名字,别名等),host rank 计算,page rank计算,色情页面检测,垃圾页面检测,作弊网页检测,重复页面检测,病毒页面检测等等。
  Html Parser
  那么要完成这么多的搜索排序的特征工程,首先我们需要打造一个方便易用的网页解析库。一般我们会实现一个html parser, 基本DomTree 或者是SAX。编写一个这样的引擎并不容易。解析一个网页比较容易,但是要能够解析几千亿的网页而不crash,并且碰到网页很大(比如超过2M),或者网页很病态(比如只有open tag, 没有close tag),解析的速度还能够很快,并且内存依然不会爆掉,需要对这个网页解析库进行千锤百炼。当然,网上已经有了不少开源的解析库了。不过大部分情况是这样的,要不接口不友好,要不性能糟糕,要么代码风格不好。之前谷歌也开源了一个网页解析的项目,我们测试下来,性能实在是跟不上,不太适合搜索引擎。
  Xpath
  网页解析除了html parser ,一般还需要方便工程师进行网页信息抽取,最好是基于配置文件进行抽取,因此一般需要支持xpath 查询语言。Xpath 的资料网上很丰富,大家有兴趣可以结合XML语言去学习了解。那如何高效支持 Xpath 进行信息抽取,甚至基于整个配置文件来抽取某一类网页,甚至某一类网站的多种信息抽取,就又有更高level的需求了,比如是否实现一个template config parser 之类的解析库。 核心诉求是,配置规则很简单,方便易学,甚至可以找一些三四千块钱的编辑就可以进行配置。那么怎么把这个库实现得优雅高效,方便易学,甚至如何开发出一些配套的浏览器工具,便是这块的核心竞争力。据我所知,百度等搜索公司对这方面都花了不少研发精力。
  网页解析这里有一个核心竞争力在于,如何利用你的工程能力,对网页解析库这样底层的基础工具进行性能优化,比如优化个10-20%,或者优化了三五倍的性能出来,那整体的搜索引擎相关的计算集群资源,就能得到很大的改进,省出来的银子,不见得比索引性能优化,或者是检索性能优化,或者是各种机器学习模型的排序性能优化来得少。
  CSS Parser
  网页解析还有好几个有挑战的事情,比如要解析出来网页里字体的大小(字体很小也是作弊的手段之一),颜色(颜色搞成和背景色一样,也是作弊的手段之一),或者是文字是否可见(常规的作弊手段之一)等,都是需要比较高阶的解析的。如果学过网页设计,大家应该知道这块需要对CSS进行解析。CSS一般分为tag 内部的,html 文件内的,外部CSS文件等。那么如何高效地进行CSS文件,并与HTML解析结果进行结合,就有不少工作值得深入。
  此外,CSS文件的压缩和存储/读取,也有一定的挑战。原因在于,不像html 这样,大部分网页的内容差异都比较大,CSS 一般是给一个网站,或者是一类风格的网页设计的,文件的规模比较少。有一些建站工具做出来的,甚至大部分CSS都一样。既然CSS文件的内容有特殊的规律,那么针对CSS的压缩,可能就会存在特殊的算法。还有一个问题是,网页的内容可能不会变,但是网页的风格却可能会被更新。在网页解析的时候,往往一次性分析百亿级别的网页,那如何高效读取各个网页对应的CSS文件呢?实时抓取么?还是存在mysql ? Nosql ? 还是怎么去特殊处理?
  CSS 文件怎么解析呢? 也有不少开源的项目,当然也可以参考各大浏览器开源项目。不过浏览器项目里一般代码依赖比较复杂,很难单独抽取出来。
  Javascript
  其实这部分放在爬虫部分更合适。在抓取的时候,往往会碰到页面跳转,或者是有一部分关键的网页内容,是在页面本身加载完毕后,才开始动态加载的。比如做新闻的Hub页抓取的时候,往往会发现我们想要的新闻内容页的链接信息,是通过 js 来生成的。那怎么办?如果只是抓取一个网站,当然我们可以通过抓包分析,靠人工来总结浏览器背后的网络行为,然后写代码模拟浏览器的行为。通用点的,公司内搭建或者开发一套浏览器抓取的方案,特殊的网页,都使用这些特殊的抓取服务来抓,这样在下游做网页解析的时候,看到的 html 都是一样带有我们想要抽取的页面内容的了。
  之所以放在这部分,很简单,js 是一门脚本语言,脚本语言的执行,其实也可以看成解析引擎在跑,只是这里的解析是脚本语言,而不是HTML 或者 XML 这样的标记语言。
  网页特征抽取
  不仅是搜索排序需要网页特征抽取,挂在网页里的广告系统,也需要使用到网页相关的信息,以判定哪些网页和哪些商业关键词更相关。
  那么前面提到的特种网页特征,活学活用上面提到的一些解析引擎就差不多了。当然做这个工作,很多时候需要有一双善于观察的眼睛。主要是几个原因:
  和网页处理相关的话题,其中有一个是非常重要的,一个是page rank, host rank, 一个是反作弊。Pagerank 的资料网上可以说是汗牛充栋了,谷歌和百度的创始人们,也都有这方面的论文或者专利。感兴趣的读者建议直接找一些相关的论文来阅读。
  反作弊和SEO
  说到反作弊,有兴趣的可以看谷歌反作弊工程师的博客。网址忘了,自己搜索。业界很多做SEO的人,据说都会去阅读上面的文章并做各种研究。反作弊和作弊这个事儿,和信息安全与病毒的关系差不多,因为作弊能够带来商业上的好处,所以商业搜索引擎和作弊者的斗争永远没有结束的时候。道高一尺魔高一丈,这会这些作弊的策略骗过了搜索引擎,明天可能就整站被下掉了。
  说过反作弊和SEO,往往外面的人觉得做搜索引擎开发的工程师都有特权,知道怎么去操纵网页的权重,其实都是想多了。一来,这事儿不是谁都懂,二来,这事儿关乎职场道德,三来,这事儿值钱的话,我为啥免费给你干?
  当然,反作弊的工作,往往也会干倒一大批,误伤三五家。我身边就有几个朋友曾经碰到类似的情况,托我帮找朋友去解决问题。
  反作弊的话题和SEO的话题都挺大的,我自己也不太删除。SEO之前曾经阅读过一本专著,好像是新加坡的一个哥们写的,现在忘了差不多了,不过大概的策略倒是和搜索排序的因子差不多正相关的。反作弊的话题,我记得吴军的《数学之美》曾有专门章节论述,有兴趣的同学也可以找来看看。吴军在谷歌的时候,应该专门从事过一段时间反作弊系统的研发。
  好了,这部分话题先分享到这里,下文分享下索引相关的话题。 查看全部

  聊聊搜索引擎--网页处理篇
  前面的一篇文章发得有点匆忙,主要是想在大家过节前发一篇,别浪费了公众号的发送次数。上文《》谈的是爬虫部分。文章里提到之前写过两篇有关搜索的文章,忘了链接过去了,这里放一下,方便有兴趣的读者阅读。
  《》
  《》
  前文提到,搜索引擎一般可以分为爬虫模块,网页处理,索引模块,检索模块,排序模块几个模块。爬虫负责抓取数据,算是数据生产方。今天我们要说的是数据的加工部门。也就是网页处理。
  网页处理在大部分介绍里,都算在爬虫部分。我呆过的第一家公司,并没有网页处理相关的小组。我当时基本上算是最主要的网页处理工程师了,写了包括网页解析基础库,各种网页里的质量信号的抽取等。不过我呆过的第二家搜索公司,当时有一个小组是专门做网页解析的。当然,本文要谈的不局限于网页解析,而是在索引之前的搜索特征提取。在我做搜索的时候,机器学习还没那么火,我们一般叫质量信号之类的。但是这些质量信号,主要是服务排序的,排序作为一个机器学习任务,使用到的因素,我们称之为特征比较好理解。而网页解析等大部分工作,可以看成网页排序这个复杂Task的特征工程。
  Index pipeline
  在一个网页搜索中,完整的index pipeline 很复杂,涉及到死链检测,soft 404页面检测,标题抽取,正文抽取,网页发布时间抽取,结构化信息抽取(比如论坛的各个帖子的内容,作者,时间等。再比如电影的导演,主演,名字,别名等),host rank 计算,page rank计算,色情页面检测,垃圾页面检测,作弊网页检测,重复页面检测,病毒页面检测等等。
  Html Parser
  那么要完成这么多的搜索排序的特征工程,首先我们需要打造一个方便易用的网页解析库。一般我们会实现一个html parser, 基本DomTree 或者是SAX。编写一个这样的引擎并不容易。解析一个网页比较容易,但是要能够解析几千亿的网页而不crash,并且碰到网页很大(比如超过2M),或者网页很病态(比如只有open tag, 没有close tag),解析的速度还能够很快,并且内存依然不会爆掉,需要对这个网页解析库进行千锤百炼。当然,网上已经有了不少开源的解析库了。不过大部分情况是这样的,要不接口不友好,要不性能糟糕,要么代码风格不好。之前谷歌也开源了一个网页解析的项目,我们测试下来,性能实在是跟不上,不太适合搜索引擎。
  Xpath
  网页解析除了html parser ,一般还需要方便工程师进行网页信息抽取,最好是基于配置文件进行抽取,因此一般需要支持xpath 查询语言。Xpath 的资料网上很丰富,大家有兴趣可以结合XML语言去学习了解。那如何高效支持 Xpath 进行信息抽取,甚至基于整个配置文件来抽取某一类网页,甚至某一类网站的多种信息抽取,就又有更高level的需求了,比如是否实现一个template config parser 之类的解析库。 核心诉求是,配置规则很简单,方便易学,甚至可以找一些三四千块钱的编辑就可以进行配置。那么怎么把这个库实现得优雅高效,方便易学,甚至如何开发出一些配套的浏览器工具,便是这块的核心竞争力。据我所知,百度等搜索公司对这方面都花了不少研发精力。
  网页解析这里有一个核心竞争力在于,如何利用你的工程能力,对网页解析库这样底层的基础工具进行性能优化,比如优化个10-20%,或者优化了三五倍的性能出来,那整体的搜索引擎相关的计算集群资源,就能得到很大的改进,省出来的银子,不见得比索引性能优化,或者是检索性能优化,或者是各种机器学习模型的排序性能优化来得少。
  CSS Parser
  网页解析还有好几个有挑战的事情,比如要解析出来网页里字体的大小(字体很小也是作弊的手段之一),颜色(颜色搞成和背景色一样,也是作弊的手段之一),或者是文字是否可见(常规的作弊手段之一)等,都是需要比较高阶的解析的。如果学过网页设计,大家应该知道这块需要对CSS进行解析。CSS一般分为tag 内部的,html 文件内的,外部CSS文件等。那么如何高效地进行CSS文件,并与HTML解析结果进行结合,就有不少工作值得深入。
  此外,CSS文件的压缩和存储/读取,也有一定的挑战。原因在于,不像html 这样,大部分网页的内容差异都比较大,CSS 一般是给一个网站,或者是一类风格的网页设计的,文件的规模比较少。有一些建站工具做出来的,甚至大部分CSS都一样。既然CSS文件的内容有特殊的规律,那么针对CSS的压缩,可能就会存在特殊的算法。还有一个问题是,网页的内容可能不会变,但是网页的风格却可能会被更新。在网页解析的时候,往往一次性分析百亿级别的网页,那如何高效读取各个网页对应的CSS文件呢?实时抓取么?还是存在mysql ? Nosql ? 还是怎么去特殊处理?
  CSS 文件怎么解析呢? 也有不少开源的项目,当然也可以参考各大浏览器开源项目。不过浏览器项目里一般代码依赖比较复杂,很难单独抽取出来。
  Javascript
  其实这部分放在爬虫部分更合适。在抓取的时候,往往会碰到页面跳转,或者是有一部分关键的网页内容,是在页面本身加载完毕后,才开始动态加载的。比如做新闻的Hub页抓取的时候,往往会发现我们想要的新闻内容页的链接信息,是通过 js 来生成的。那怎么办?如果只是抓取一个网站,当然我们可以通过抓包分析,靠人工来总结浏览器背后的网络行为,然后写代码模拟浏览器的行为。通用点的,公司内搭建或者开发一套浏览器抓取的方案,特殊的网页,都使用这些特殊的抓取服务来抓,这样在下游做网页解析的时候,看到的 html 都是一样带有我们想要抽取的页面内容的了。
  之所以放在这部分,很简单,js 是一门脚本语言,脚本语言的执行,其实也可以看成解析引擎在跑,只是这里的解析是脚本语言,而不是HTML 或者 XML 这样的标记语言。
  网页特征抽取
  不仅是搜索排序需要网页特征抽取,挂在网页里的广告系统,也需要使用到网页相关的信息,以判定哪些网页和哪些商业关键词更相关。
  那么前面提到的特种网页特征,活学活用上面提到的一些解析引擎就差不多了。当然做这个工作,很多时候需要有一双善于观察的眼睛。主要是几个原因:
  和网页处理相关的话题,其中有一个是非常重要的,一个是page rank, host rank, 一个是反作弊。Pagerank 的资料网上可以说是汗牛充栋了,谷歌和百度的创始人们,也都有这方面的论文或者专利。感兴趣的读者建议直接找一些相关的论文来阅读。
  反作弊和SEO
  说到反作弊,有兴趣的可以看谷歌反作弊工程师的博客。网址忘了,自己搜索。业界很多做SEO的人,据说都会去阅读上面的文章并做各种研究。反作弊和作弊这个事儿,和信息安全与病毒的关系差不多,因为作弊能够带来商业上的好处,所以商业搜索引擎和作弊者的斗争永远没有结束的时候。道高一尺魔高一丈,这会这些作弊的策略骗过了搜索引擎,明天可能就整站被下掉了。
  说过反作弊和SEO,往往外面的人觉得做搜索引擎开发的工程师都有特权,知道怎么去操纵网页的权重,其实都是想多了。一来,这事儿不是谁都懂,二来,这事儿关乎职场道德,三来,这事儿值钱的话,我为啥免费给你干?
  当然,反作弊的工作,往往也会干倒一大批,误伤三五家。我身边就有几个朋友曾经碰到类似的情况,托我帮找朋友去解决问题。
  反作弊的话题和SEO的话题都挺大的,我自己也不太删除。SEO之前曾经阅读过一本专著,好像是新加坡的一个哥们写的,现在忘了差不多了,不过大概的策略倒是和搜索排序的因子差不多正相关的。反作弊的话题,我记得吴军的《数学之美》曾有专门章节论述,有兴趣的同学也可以找来看看。吴军在谷歌的时候,应该专门从事过一段时间反作弊系统的研发。
  好了,这部分话题先分享到这里,下文分享下索引相关的话题。

搜索引擎进行信息检索的优化策略方法-上海怡健医学

网站优化优采云 发表了文章 • 0 个评论 • 59 次浏览 • 2022-05-18 18:04 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法-上海怡健医学
  搜索引擎进行信息检索的优化策略方法1.总体策略locally+not-recall值对商品重要性进行评估locallyanalyzedkeywords;以找出关键词最为关键的字组做为最先找到的关键词与其进行评估locallyimprovedtherankingpractice;使商品呈现出重要性,可选择符合要求的另一商品进行排序locallyadjustedthesolutionoforganizedtothesiteelementatetothetoplist;使用框架的字段拼接进行方案设计,允许多个关键字组进行竞争,但取出那些,实际用户搜索次数较少的关键字locallydefinedtheassets;找出并剔除对于构建大型数据集,这点很重要---这样可以简化框架数据结构简化机器学习模型2.字段设计风格采用某一小类的一个特征来配置整个模型是有效的,与其关联的字段可以有各种可能,比如此关键字是属于手机的,那么可以有not-recall取平均,那么可以就有money,wash,fancy的中文字段。
  你可以考虑属性之间的关系,比如你是无线商品,那么你是否为相似商品呢?也可以考虑下整个商品的特征所在库中是否有索引,比如系统的业务有多少条商品相似的查询?你可以用linguisticas_key()字段模拟查询n.可以用集合的字段配置商品类别(如not-recallunion)4.对于数据的取样采用特征随机去重后nms+shufflenetcrf等。 查看全部

  搜索引擎进行信息检索的优化策略方法-上海怡健医学
  搜索引擎进行信息检索的优化策略方法1.总体策略locally+not-recall值对商品重要性进行评估locallyanalyzedkeywords;以找出关键词最为关键的字组做为最先找到的关键词与其进行评估locallyimprovedtherankingpractice;使商品呈现出重要性,可选择符合要求的另一商品进行排序locallyadjustedthesolutionoforganizedtothesiteelementatetothetoplist;使用框架的字段拼接进行方案设计,允许多个关键字组进行竞争,但取出那些,实际用户搜索次数较少的关键字locallydefinedtheassets;找出并剔除对于构建大型数据集,这点很重要---这样可以简化框架数据结构简化机器学习模型2.字段设计风格采用某一小类的一个特征来配置整个模型是有效的,与其关联的字段可以有各种可能,比如此关键字是属于手机的,那么可以有not-recall取平均,那么可以就有money,wash,fancy的中文字段。
  你可以考虑属性之间的关系,比如你是无线商品,那么你是否为相似商品呢?也可以考虑下整个商品的特征所在库中是否有索引,比如系统的业务有多少条商品相似的查询?你可以用linguisticas_key()字段模拟查询n.可以用集合的字段配置商品类别(如not-recallunion)4.对于数据的取样采用特征随机去重后nms+shufflenetcrf等。

国内数据库对搜索引擎进行信息检索的优化策略方法

网站优化优采云 发表了文章 • 0 个评论 • 46 次浏览 • 2022-05-15 01:01 • 来自相关话题

  国内数据库对搜索引擎进行信息检索的优化策略方法
  搜索引擎进行信息检索的优化策略方法十多年来,搜索引擎优化一直是一项长期的技术工作,对搜索引擎内部很多相关过程都进行了梳理和分析,获得了很多相关的知识。然而搜索引擎优化的传统方法无法获得目标网站的内容的相关性分析的基础,所以搜索引擎方法一直作为基础方法来使用。所以,中国知网等国内数据库对这些方法来说可以作为第一步。
  搜索引擎优化主要思想是在满足内容搜索规律的前提下,通过各种手段降低用户点击搜索结果的概率,最大化用户体验。那么我们将搜索引擎优化分成两个阶段,提供相关性和改进用户体验。第一阶段(提供相关性):打破原网站旧的搜索结果信息,建立新的网站结果,提供新的内容,也就是原网站信息为搜索引擎优化第一阶段提供的内容,并针对网站,服务器及时修正搜索结果。
  提供新信息会直接提高网站的排名。同时可以找到更多的潜在信息,获得更多的潜在信息,也会提高网站排名。在提供这些新内容的同时,也会根据网站内容进行调整和更新,网站速度也会变快。提供相关性的同时,这些新内容也需要进行同步更新,也会加大网站传播速度,加快网站扩张速度。现有内容为搜索引擎优化方法带来了更多的信息。
  这些信息用来拓展搜索内容的可能性,搜索量也会越来越大。此时搜索引擎优化有些类似与百度这样大量的使用用户对于新内容的搜索方式。在新内容设置中有一个设置,就是在内容设置中选择是否要进行适当的网络爬虫抓取。如果无这个选项,由于搜索引擎的爬虫会对第一网站进行抓取,会提高网站的内容爬取率。速度也会加快。并且会直接产生一个优化效果,由于百度大量的爬虫爬取的原因,新内容也会不断地进入第一网站。 查看全部

  国内数据库对搜索引擎进行信息检索的优化策略方法
  搜索引擎进行信息检索的优化策略方法十多年来,搜索引擎优化一直是一项长期的技术工作,对搜索引擎内部很多相关过程都进行了梳理和分析,获得了很多相关的知识。然而搜索引擎优化的传统方法无法获得目标网站的内容的相关性分析的基础,所以搜索引擎方法一直作为基础方法来使用。所以,中国知网等国内数据库对这些方法来说可以作为第一步。
  搜索引擎优化主要思想是在满足内容搜索规律的前提下,通过各种手段降低用户点击搜索结果的概率,最大化用户体验。那么我们将搜索引擎优化分成两个阶段,提供相关性和改进用户体验。第一阶段(提供相关性):打破原网站旧的搜索结果信息,建立新的网站结果,提供新的内容,也就是原网站信息为搜索引擎优化第一阶段提供的内容,并针对网站,服务器及时修正搜索结果。
  提供新信息会直接提高网站的排名。同时可以找到更多的潜在信息,获得更多的潜在信息,也会提高网站排名。在提供这些新内容的同时,也会根据网站内容进行调整和更新,网站速度也会变快。提供相关性的同时,这些新内容也需要进行同步更新,也会加大网站传播速度,加快网站扩张速度。现有内容为搜索引擎优化方法带来了更多的信息。
  这些信息用来拓展搜索内容的可能性,搜索量也会越来越大。此时搜索引擎优化有些类似与百度这样大量的使用用户对于新内容的搜索方式。在新内容设置中有一个设置,就是在内容设置中选择是否要进行适当的网络爬虫抓取。如果无这个选项,由于搜索引擎的爬虫会对第一网站进行抓取,会提高网站的内容爬取率。速度也会加快。并且会直接产生一个优化效果,由于百度大量的爬虫爬取的原因,新内容也会不断地进入第一网站。

检索技巧 | 这些科技信息检索技巧,学到了吗?

网站优化优采云 发表了文章 • 0 个评论 • 110 次浏览 • 2022-05-14 19:25 • 来自相关话题

  检索技巧 | 这些科技信息检索技巧,学到了吗?
  
  据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
  二、科技信息检索的技巧
  (一)数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库,则可以选择中国知网。
  (二)检索字段的选取与确认
  检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  (三)检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  (四)检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
  (五)特殊检索符的巧用
  不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1、双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2、减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家
  乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3、逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4、位置算符。
  (1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  (2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
  5、布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  (1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。
  (2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6、截词符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
  (六)其他重要检索事项
  1、注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2、搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(metawords)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
  
  全文获取:知网篇名检索“科技信息检索的技巧” 查看全部

  检索技巧 | 这些科技信息检索技巧,学到了吗?
  
  据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
  二、科技信息检索的技巧
  (一)数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库,则可以选择中国知网。
  (二)检索字段的选取与确认
  检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  (三)检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  (四)检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
  (五)特殊检索符的巧用
  不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1、双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2、减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家
  乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3、逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4、位置算符。
  (1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  (2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
  5、布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  (1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。
  (2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6、截词符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
  (六)其他重要检索事项
  1、注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2、搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(metawords)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
  
  全文获取:知网篇名检索“科技信息检索的技巧”

外贸业务员应该知道的搜索引擎查询方法

网站优化优采云 发表了文章 • 0 个评论 • 55 次浏览 • 2022-05-14 04:35 • 来自相关话题

  外贸业务员应该知道的搜索引擎查询方法
  
  所谓搜索引擎,是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。从用户的角度来讲,搜索引擎就是帮助用户方便地查询网上信息的。而对于外贸业务员,那么搜索引擎就可以被用来寻找客户、查询客户信息等。 但是如果外贸业务员不熟悉搜索引擎的话,往往输入搜索词后出现了成百上千个查询结果,而这些结果中并没有多少想要的东西。面对着一堆信息垃圾,可想而知这时业务员的心情该是如何的沮丧。不过,这不是因为搜索引擎没有用,而是由于外贸业务员没能很好地驾驭它,没有掌握它的使用技巧,才导致这样的后果。 其实,每个搜索引擎都有自己的查询方法,只有熟练的掌握它才能运用自如。虽然,不同的搜索引擎提供的查询方法不完全相同,但是一些通用的查询方法,各个搜索引擎基本上都具有,下面就逐一介绍一些常用的查询方法。 一、简单查询 在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。 二、使用双引号("") 给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。
  例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。 三、使用加号(+) 在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 四、使用减号(-) 在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。 五、使用通配符(*和?) 通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。 六、使用布尔检索 所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
   and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book; or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book; not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车); near,它表示两个关键词之间的词距不能超过n个单词。 在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。 七、使用括号 当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。 八、使用元词检索 大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。
  例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domain:org”,就可以查到所有以org为后缀的网站。其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。 九、区分大小写 这是检索英文信息时要注意的一个问题,许多英文搜索引擎如谷歌(Google)可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网。 当然,以上列举的搜索引擎查询技巧只是一些最基础的,但也是外贸业务员最需要了解的搜索引擎查询方法。然而,想要获取查询到更直接、更有效的信息,外贸业务员就应该选择好查询用的关键词或者关键词组合。 查看全部

  外贸业务员应该知道的搜索引擎查询方法
  
  所谓搜索引擎,是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。从用户的角度来讲,搜索引擎就是帮助用户方便地查询网上信息的。而对于外贸业务员,那么搜索引擎就可以被用来寻找客户、查询客户信息等。 但是如果外贸业务员不熟悉搜索引擎的话,往往输入搜索词后出现了成百上千个查询结果,而这些结果中并没有多少想要的东西。面对着一堆信息垃圾,可想而知这时业务员的心情该是如何的沮丧。不过,这不是因为搜索引擎没有用,而是由于外贸业务员没能很好地驾驭它,没有掌握它的使用技巧,才导致这样的后果。 其实,每个搜索引擎都有自己的查询方法,只有熟练的掌握它才能运用自如。虽然,不同的搜索引擎提供的查询方法不完全相同,但是一些通用的查询方法,各个搜索引擎基本上都具有,下面就逐一介绍一些常用的查询方法。 一、简单查询 在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。 二、使用双引号("") 给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。
  例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。 三、使用加号(+) 在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 四、使用减号(-) 在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。 五、使用通配符(*和?) 通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。 六、使用布尔检索 所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
   and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book; or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book; not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车); near,它表示两个关键词之间的词距不能超过n个单词。 在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。 七、使用括号 当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。 八、使用元词检索 大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。
  例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domain:org”,就可以查到所有以org为后缀的网站。其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。 九、区分大小写 这是检索英文信息时要注意的一个问题,许多英文搜索引擎如谷歌(Google)可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网。 当然,以上列举的搜索引擎查询技巧只是一些最基础的,但也是外贸业务员最需要了解的搜索引擎查询方法。然而,想要获取查询到更直接、更有效的信息,外贸业务员就应该选择好查询用的关键词或者关键词组合。

搜索引擎进行信息检索的优化策略方法主要有哪些?

网站优化优采云 发表了文章 • 0 个评论 • 419 次浏览 • 2022-09-20 16:25 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法主要有哪些?
  搜索引擎进行信息检索的优化策略方法主要有“词向量法”“候选词引导法”以及各种变形方法等。每种搜索引擎都有相对应的检索策略,自然搜索引擎的检索策略更加复杂,标准不一,其中包括网页的检索与分类、候选词检索、关键词分析等。
  一、webtopic的检索方法1.首先是常用的基于文档的方法,
  3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(独热图)搜索,即可以通过比较两个文档找到topics,对独热图进行匹配,从而让用户找到最佳检索结果。4.geohash,是去掉了所有相同点的余弦值来估计稀疏性。
  5.winding搜索:对于从文档中提取有关词进行匹配,利用hardn-grams对top-kkeywords进行分类,从而找到下一个、甚至最可能的topkeywords。6.springerqualitycontrol:标注namematching。springerqualitycontrol是做有关词进行质量判断的,判断用户是否产生搜索的前后文,从而找到合理的搜索结果。7.repinding:是一种通过比较匹配词和不匹配词的关键词在词库中的位置来进行检索的方法。
  
  二、根据检索规则进行信息检索策略8.逻辑回归:可以对给定的文档集合进行用这个集合内的所有文档来进行建模预测,得到更精确的权重。9.线性代数:可以根据有效词条词的相似性建模,利用实验数据进行推断。10.svd:densityfunction的变种,在做降维之前,先要把量级做分解,分解之后得到的density可以用来做densityfunction的推断。
  11.表征学习:基于传统的word2vec得到更高的概率模型,来推断出词向量和词符。12.bn:利用不同的标签来选择不同的label,减少方差。13.pki:词向量的pca。14.引导提示:根据一些有特殊使用要求的词汇,告诉用户在哪些位置有它。
  三、隐语义检索方法15.copy+replace:基于词的相似度匹配,
  0)相似度较高;replace就是其后续文章和原文章相似度较高。
  
  四、规则结合排序方法16.分词,主流方法包括word2vec加中文分词模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
  1)词频分析(即词量主要维度的文档频次)
  2)相似性度量(主要包括:词汇词向量)
  3)向量表示(主要有词向量、词向量xfilter、词向量x+lda、lda-tf、相似矩阵等)
  4)词嵌入17.强化学习中的prediction_gradient方法18.针对每个候选词,利用词嵌入,利用特征向量, 查看全部

  搜索引擎进行信息检索的优化策略方法主要有哪些?
  搜索引擎进行信息检索的优化策略方法主要有“词向量法”“候选词引导法”以及各种变形方法等。每种搜索引擎都有相对应的检索策略,自然搜索引擎的检索策略更加复杂,标准不一,其中包括网页的检索与分类、候选词检索、关键词分析等。
  一、webtopic的检索方法1.首先是常用的基于文档的方法,
  3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(独热图)搜索,即可以通过比较两个文档找到topics,对独热图进行匹配,从而让用户找到最佳检索结果。4.geohash,是去掉了所有相同点的余弦值来估计稀疏性。
  5.winding搜索:对于从文档中提取有关词进行匹配,利用hardn-grams对top-kkeywords进行分类,从而找到下一个、甚至最可能的topkeywords。6.springerqualitycontrol:标注namematching。springerqualitycontrol是做有关词进行质量判断的,判断用户是否产生搜索的前后文,从而找到合理的搜索结果。7.repinding:是一种通过比较匹配词和不匹配词的关键词在词库中的位置来进行检索的方法。
  
  二、根据检索规则进行信息检索策略8.逻辑回归:可以对给定的文档集合进行用这个集合内的所有文档来进行建模预测,得到更精确的权重。9.线性代数:可以根据有效词条词的相似性建模,利用实验数据进行推断。10.svd:densityfunction的变种,在做降维之前,先要把量级做分解,分解之后得到的density可以用来做densityfunction的推断。
  11.表征学习:基于传统的word2vec得到更高的概率模型,来推断出词向量和词符。12.bn:利用不同的标签来选择不同的label,减少方差。13.pki:词向量的pca。14.引导提示:根据一些有特殊使用要求的词汇,告诉用户在哪些位置有它。
  三、隐语义检索方法15.copy+replace:基于词的相似度匹配,
  0)相似度较高;replace就是其后续文章和原文章相似度较高。
  
  四、规则结合排序方法16.分词,主流方法包括word2vec加中文分词模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
  1)词频分析(即词量主要维度的文档频次)
  2)相似性度量(主要包括:词汇词向量)
  3)向量表示(主要有词向量、词向量xfilter、词向量x+lda、lda-tf、相似矩阵等)
  4)词嵌入17.强化学习中的prediction_gradient方法18.针对每个候选词,利用词嵌入,利用特征向量,

搜索引擎进行信息检索的优化策略方法:对比、对比

网站优化优采云 发表了文章 • 0 个评论 • 67 次浏览 • 2022-09-19 23:05 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法:对比、对比
  搜索引擎进行信息检索的优化策略方法:对比搜索引擎进行检索优化的方法
  1)通过相关关键词建立关键词树,得到树上节点,每个节点上设置名称、描述以及域名,用于关键词分类。
  2)对最近发现的关键词进行编号,当关键词被查询时,查询编号为最近发现的关键词。
  
  3)优化关键词树。利用高亮规则和强制关键词扩展(即自动词或者红框元素)实现关键词的高亮和自动扩展。
  4)关键词在时间地点上的相关性选择。如:设置timetask对关键词提高查询的相关性。
  5)检索高频、热门、常用关键词,提高关键词检索的效率。
  
  6)利用强制转义、超链、重复、弱链、引用文本等提高关键词检索的效率。
  7)聚类分析,并用点分类、区域聚类等方法对检索命中的关键词进行分类。
  简单说就是如何找到优质的内容。1.简单检索关键词2.过滤掉冗余的内容,抓取高质量,优质的内容3.搜索指定的或特定的关键词。以上只是提供一个简单的思路。具体要学会如何从海量数据中去分析筛选出来你想要的内容,然后再学习如何分析数据,匹配内容,筛选优质的内容,抓取高质量内容。再通过关键词的布局,搜索方式的运用,排版等细节上去优化,提高检索效率。
  是只按相关排序,还是通过分词匹配到想要的文章?有人这么做。但是这不是优化方法,如果只按相关排序,直接删掉相关内容就行了,然后找到需要的文章。不相关怎么办?如果是需要本专业方面的文章,可以看看某本书吧,那种专业性比较强的。就按相关筛选的方法筛选。如果是非相关的书,可以用bigdatatoolkit直接搜索或者需要的文章搜索。 查看全部

  搜索引擎进行信息检索的优化策略方法:对比、对比
  搜索引擎进行信息检索的优化策略方法:对比搜索引擎进行检索优化的方法
  1)通过相关关键词建立关键词树,得到树上节点,每个节点上设置名称、描述以及域名,用于关键词分类。
  2)对最近发现的关键词进行编号,当关键词被查询时,查询编号为最近发现的关键词。
  
  3)优化关键词树。利用高亮规则和强制关键词扩展(即自动词或者红框元素)实现关键词的高亮和自动扩展。
  4)关键词在时间地点上的相关性选择。如:设置timetask对关键词提高查询的相关性。
  5)检索高频、热门、常用关键词,提高关键词检索的效率。
  
  6)利用强制转义、超链、重复、弱链、引用文本等提高关键词检索的效率。
  7)聚类分析,并用点分类、区域聚类等方法对检索命中的关键词进行分类。
  简单说就是如何找到优质的内容。1.简单检索关键词2.过滤掉冗余的内容,抓取高质量,优质的内容3.搜索指定的或特定的关键词。以上只是提供一个简单的思路。具体要学会如何从海量数据中去分析筛选出来你想要的内容,然后再学习如何分析数据,匹配内容,筛选优质的内容,抓取高质量内容。再通过关键词的布局,搜索方式的运用,排版等细节上去优化,提高检索效率。
  是只按相关排序,还是通过分词匹配到想要的文章?有人这么做。但是这不是优化方法,如果只按相关排序,直接删掉相关内容就行了,然后找到需要的文章。不相关怎么办?如果是需要本专业方面的文章,可以看看某本书吧,那种专业性比较强的。就按相关筛选的方法筛选。如果是非相关的书,可以用bigdatatoolkit直接搜索或者需要的文章搜索。

搜索引擎进行信息检索的优化策略方法基于搜索算法的性能评估

网站优化优采云 发表了文章 • 0 个评论 • 100 次浏览 • 2022-09-15 22:01 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法基于搜索算法的性能评估
  搜索引擎进行信息检索的优化策略方法基于搜索引擎的性能评估
  1、最高速度搜索引擎查询的时效性是搜索算法中最重要的一个评价指标。如何最高速度?一种办法是追踪历史数据找出最可能有搜索排序结果的用户行为轨迹,然后进行定位。另一种方法是时间转换方法,找出每分钟内发生的次数最多的行为,然后聚类分析,然后以时间顺序进行排序。
  2、准确性搜索引擎可以将相关性指标(如相似度,匹配性等)与各个用户行为因素进行匹配,构成一个从1到n的排序规则。通过排序规则的设计能够减小用户搜索查询、词之间的关联度,从而减少搜索结果库中大量无效搜索,有利于优化搜索结果,获得更多高质量的搜索结果。
  
  3、支持率搜索引擎页面每次下拉时,包含什么条目最多,这将会影响用户对页面是否有用的点击。为了减少用户点击率,搜索引擎需要将下拉包含的词汇清空,如将多个词汇分开显示,或者将展示的词汇只限于主要使用的词汇范围内。
  4、频繁搜索搜索与相关性并不是相互独立的,每个用户在多次搜索的过程中都可能需要使用搜索所搜索的内容。因此一个正确的频繁搜索策略至关重要。引擎设计者通常会将搜索结果排序分为各个频繁搜索区间,根据用户点击的各个频繁搜索区间的用户数目(包括总点击次数)计算下拉频繁搜索的几率。
  5、网页分布有关搜索引擎整体设计流程的研究的文章通常认为在数据流程中找到相关性最高的网页相对较难,所以做相关性检索通常会为网页分布找到更有效的匹配方式。
  
  6、网页排序网页排序即对网页进行排序,主要目的在于影响用户下一次点击的可能性,包括首字首句和尾字首句,其中首字首句和尾字首句在搜索引擎中是常用的网页排序策略。
  7、用户群体美国教育部搜索引擎中心发布了一份较大的用户研究报告,称14%的人搜索、浏览、发送电子邮件,有28%的人观看短视频,在互联网中访问了超过一百万个产品或服务。随着用户在互联网上的行为越来越多地发生变化,无论是搜索还是浏览网页,都在发生着实际上的网络行为,一个基于用户数据的优化搜索引擎能够帮助搜索引擎的核心指标提高4~8个百分点。
  8、搜索ip地址、时间、在线情况一个基于搜索的搜索引擎能够帮助用户优化搜索查询、带来更多有价值的查询、浏览更多的网页,甚至与已有网站进行合作,发展具有互补性的服务,并且在使用搜索引擎做行业搜索时使用一些特殊的搜索方法来找到与用户搜索习惯、行业习惯、产品相关的数据。
  9、相关性搜索查询能够优化用户在搜索引擎查询页的排序吗?还是需要用户首先在搜索引擎中查询查询之后, 查看全部

  搜索引擎进行信息检索的优化策略方法基于搜索算法的性能评估
  搜索引擎进行信息检索的优化策略方法基于搜索引擎的性能评估
  1、最高速度搜索引擎查询的时效性是搜索算法中最重要的一个评价指标。如何最高速度?一种办法是追踪历史数据找出最可能有搜索排序结果的用户行为轨迹,然后进行定位。另一种方法是时间转换方法,找出每分钟内发生的次数最多的行为,然后聚类分析,然后以时间顺序进行排序。
  2、准确性搜索引擎可以将相关性指标(如相似度,匹配性等)与各个用户行为因素进行匹配,构成一个从1到n的排序规则。通过排序规则的设计能够减小用户搜索查询、词之间的关联度,从而减少搜索结果库中大量无效搜索,有利于优化搜索结果,获得更多高质量的搜索结果。
  
  3、支持率搜索引擎页面每次下拉时,包含什么条目最多,这将会影响用户对页面是否有用的点击。为了减少用户点击率,搜索引擎需要将下拉包含的词汇清空,如将多个词汇分开显示,或者将展示的词汇只限于主要使用的词汇范围内。
  4、频繁搜索搜索与相关性并不是相互独立的,每个用户在多次搜索的过程中都可能需要使用搜索所搜索的内容。因此一个正确的频繁搜索策略至关重要。引擎设计者通常会将搜索结果排序分为各个频繁搜索区间,根据用户点击的各个频繁搜索区间的用户数目(包括总点击次数)计算下拉频繁搜索的几率。
  5、网页分布有关搜索引擎整体设计流程的研究的文章通常认为在数据流程中找到相关性最高的网页相对较难,所以做相关性检索通常会为网页分布找到更有效的匹配方式。
  
  6、网页排序网页排序即对网页进行排序,主要目的在于影响用户下一次点击的可能性,包括首字首句和尾字首句,其中首字首句和尾字首句在搜索引擎中是常用的网页排序策略。
  7、用户群体美国教育部搜索引擎中心发布了一份较大的用户研究报告,称14%的人搜索、浏览、发送电子邮件,有28%的人观看短视频,在互联网中访问了超过一百万个产品或服务。随着用户在互联网上的行为越来越多地发生变化,无论是搜索还是浏览网页,都在发生着实际上的网络行为,一个基于用户数据的优化搜索引擎能够帮助搜索引擎的核心指标提高4~8个百分点。
  8、搜索ip地址、时间、在线情况一个基于搜索的搜索引擎能够帮助用户优化搜索查询、带来更多有价值的查询、浏览更多的网页,甚至与已有网站进行合作,发展具有互补性的服务,并且在使用搜索引擎做行业搜索时使用一些特殊的搜索方法来找到与用户搜索习惯、行业习惯、产品相关的数据。
  9、相关性搜索查询能够优化用户在搜索引擎查询页的排序吗?还是需要用户首先在搜索引擎中查询查询之后,

sql 语句优化的30种方法

网站优化优采云 发表了文章 • 0 个评论 • 66 次浏览 • 2022-09-03 21:08 • 来自相关话题

  sql 语句优化的30种方法
  大家好,我是顶级架构师。
  1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中使用!=或操作符,否则将引擎放弃使用索引而进行全表扫描。3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
  select id from t where num is null <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:
  select id from t where num=0 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  4.应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:
  select id from t where num=10 or num=20 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  可以这样查询:
  select id from t where num=10 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />union all <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where num=20 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  5.下面的查询也将导致全表扫描:
  select id from t where name like '%abc%' <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  若要提高效率,可以考虑全文检索。
  6.in 和 not in 也要慎用,否则会导致全表扫描,如:
  select id from t where num in(1,2,3) <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  对于连续的数值,能用 between 就不要用 in 了:
  
  select id from t where num between 1 and 3 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  7.如果在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:
  select id from t where num=@num <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  可以改为强制查询使用索引:
  select id from t with(index(索引名)) where num=@num <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  8.应尽量避免在 where 子句中对字段进行表达式操作,这将导致引擎放弃使用索引而进行全表扫描。如:
  select id from t where num/2=100 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  应改为:
  select id from t where num=100*2 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  9.应尽量避免在where子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。如:
  select id from t where substring(name,1,3)='abc'--name以abc开头的id <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  应改为:
<p>select id from t where name like 'abc%' <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where createdate>='2005-11-30' and createdate 查看全部

  sql 语句优化的30种方法
  大家好,我是顶级架构师。
  1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中使用!=或操作符,否则将引擎放弃使用索引而进行全表扫描。3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
  select id from t where num is null <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:
  select id from t where num=0 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  4.应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:
  select id from t where num=10 or num=20 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
  可以这样查询:
  select id from t where num=10 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />union all <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where num=20 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  5.下面的查询也将导致全表扫描:
  select id from t where name like '%abc%' <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  若要提高效率,可以考虑全文检索。
  6.in 和 not in 也要慎用,否则会导致全表扫描,如:
  select id from t where num in(1,2,3) <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  对于连续的数值,能用 between 就不要用 in 了:
  
  select id from t where num between 1 and 3 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  7.如果在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:
  select id from t where num=@num <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  可以改为强制查询使用索引:
  select id from t with(index(索引名)) where num=@num <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  8.应尽量避免在 where 子句中对字段进行表达式操作,这将导致引擎放弃使用索引而进行全表扫描。如:
  select id from t where num/2=100 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  应改为:
  select id from t where num=100*2 <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  9.应尽量避免在where子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。如:
  select id from t where substring(name,1,3)='abc'--name以abc开头的id <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
  应改为:
<p>select id from t where name like 'abc%' <br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select id from t where createdate>='2005-11-30' and createdate

网站推广主要有哪些方法?网站推广有哪些注意事项?

网站优化优采云 发表了文章 • 0 个评论 • 43 次浏览 • 2022-08-02 04:49 • 来自相关话题

  网站推广主要有哪些方法?网站推广有哪些注意事项?
  网站推广是网络营销推广中非常重要的一个组成部分,如果企业决定做网络营销的话,那网站推广也是绕不开的,本文就带大家一起来了解一下网站推广主要有哪些方法?
  一、网站推广主要有哪些方法?
  1、搜索引擎推广方法
  搜索引擎推广是指利用搜索引擎、分类目录等具有在线检索信息功能的网络工具进行网站推广的方法。
  2、电子邮件推广方法
  以电子邮件为主要的网站推广手段,常用的方法包括电子刊物、会员通讯、专业服务商的电子邮件广告等。
  3、资源合作推广方法
  通过网站交换链接、交换广告、内容合作、用户资源合作等方式,在具有类似目标网站之间实现互相推广的目的,其中最常用的资源合作方式为网站链接策略,利用合作伙伴之间网站访问量资源合作互为推广。
  4、信息发布推广方法
  将有关的网站推广信息发布在其他潜在用户可能访问的网站上,利用用户在这些网站获取信息的机会实现网站推广的目的,适用于这些信息发布的网站包括在线黄页、分类广告、论坛、博客网站、供求信息平台、行业网站等。
  
  5、网络广告推广方法
  网络广告是常用的网络营销策略之一,在网络品牌、产品促销、网站推广等方面均有明显作用。网络广告的常见形式包括:BANNER广告、关键词广告、分类广告、赞助式广告、Email广告等。
  二、网站推广有哪些注意事项?
  1、不要把导航做成图片链接
  因为搜索引擎是一个大型数据库,而不是一个图片库,搜索引擎首页搜索引擎到的是你的标题,然后接着才通过你的导航系统搜索到你网站的其他内页。
  2、首页不能为了美观而大量使用图片
  所有的搜索引擎都喜欢有一个清晰的结构,而不喜欢把网站做成一张皮,让搜索引擎分不清你的重点所在。因此,一个清晰地网站结构和连接结构对于蜘蛛爬行和收录是非常重要的。
  3、外链平台的选择及发布
  发布链的作用是为了给网站导流、增加网站的曝光度。有些人为了图完成任务、短期内见效果,就一味的、大量的发布外链文章(在文章中添加目标网站的URL链接和关键词的堆砌)等等,这个会适得其反,严重会影响网站的排名和权重。因此,外链文章是一个长期的积累过程,不要求快、求量,还是需要有个度。
  
  三、网站推广有哪些好处?
  1、提高企业的知名度
  大多企业都是小型的企业,没有什么知名度,所以要结合互联网网络推广进行对企业的品牌提升的同时把企业的知名度提升上去,让更多的人群知道。
  2、增加用户粘度
  客户购买企业的产品,对产品的质量等方面都认可,就会认准企业的这个产品,所以客户会对企业产生一种依赖性同时粘度也增加了不少。
  3、长期的稳定性
  企业通过长期的推广和网络营销,会使企业的网站稳定性增加,网络推广不是短期就能出现效果的是需要通过长期的维护和优化进行运行才能体现的。
  4、增加产品的销售
  网站进行维护和优化后能达到销售产品就是网络推广的最终目的。呈现出企业网络双共赢的局面。
  可以联系小编
  百度广告前三,包月推广,当天上线,不限点击费,1500元/月,2800元/一季度,需要的请联系小编 查看全部

  网站推广主要有哪些方法?网站推广有哪些注意事项?
  网站推广是网络营销推广中非常重要的一个组成部分,如果企业决定做网络营销的话,那网站推广也是绕不开的,本文就带大家一起来了解一下网站推广主要有哪些方法?
  一、网站推广主要有哪些方法?
  1、搜索引擎推广方法
  搜索引擎推广是指利用搜索引擎、分类目录等具有在线检索信息功能的网络工具进行网站推广的方法。
  2、电子邮件推广方法
  以电子邮件为主要的网站推广手段,常用的方法包括电子刊物、会员通讯、专业服务商的电子邮件广告等。
  3、资源合作推广方法
  通过网站交换链接、交换广告、内容合作、用户资源合作等方式,在具有类似目标网站之间实现互相推广的目的,其中最常用的资源合作方式为网站链接策略,利用合作伙伴之间网站访问量资源合作互为推广。
  4、信息发布推广方法
  将有关的网站推广信息发布在其他潜在用户可能访问的网站上,利用用户在这些网站获取信息的机会实现网站推广的目的,适用于这些信息发布的网站包括在线黄页、分类广告、论坛、博客网站、供求信息平台、行业网站等。
  
  5、网络广告推广方法
  网络广告是常用的网络营销策略之一,在网络品牌、产品促销、网站推广等方面均有明显作用。网络广告的常见形式包括:BANNER广告、关键词广告、分类广告、赞助式广告、Email广告等。
  二、网站推广有哪些注意事项?
  1、不要把导航做成图片链接
  因为搜索引擎是一个大型数据库,而不是一个图片库,搜索引擎首页搜索引擎到的是你的标题,然后接着才通过你的导航系统搜索到你网站的其他内页。
  2、首页不能为了美观而大量使用图片
  所有的搜索引擎都喜欢有一个清晰的结构,而不喜欢把网站做成一张皮,让搜索引擎分不清你的重点所在。因此,一个清晰地网站结构和连接结构对于蜘蛛爬行和收录是非常重要的。
  3、外链平台的选择及发布
  发布链的作用是为了给网站导流、增加网站的曝光度。有些人为了图完成任务、短期内见效果,就一味的、大量的发布外链文章(在文章中添加目标网站的URL链接和关键词的堆砌)等等,这个会适得其反,严重会影响网站的排名和权重。因此,外链文章是一个长期的积累过程,不要求快、求量,还是需要有个度。
  
  三、网站推广有哪些好处?
  1、提高企业的知名度
  大多企业都是小型的企业,没有什么知名度,所以要结合互联网网络推广进行对企业的品牌提升的同时把企业的知名度提升上去,让更多的人群知道。
  2、增加用户粘度
  客户购买企业的产品,对产品的质量等方面都认可,就会认准企业的这个产品,所以客户会对企业产生一种依赖性同时粘度也增加了不少。
  3、长期的稳定性
  企业通过长期的推广和网络营销,会使企业的网站稳定性增加,网络推广不是短期就能出现效果的是需要通过长期的维护和优化进行运行才能体现的。
  4、增加产品的销售
  网站进行维护和优化后能达到销售产品就是网络推广的最终目的。呈现出企业网络双共赢的局面。
  可以联系小编
  百度广告前三,包月推广,当天上线,不限点击费,1500元/月,2800元/一季度,需要的请联系小编

搜索引擎进行信息检索的优化策略方法-乐题库

网站优化优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2022-07-31 06:01 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法-乐题库
  搜索引擎进行信息检索的优化策略方法1.检索词的创造。不断扩充检索词库,广泛采用长尾关键词的词频词库,将在检索词库内的搜索长尾关键词置于检索词条前面,用于制造检索词条。将搜索长尾关键词过滤成用于检索词条的关键词2.关键词的排列组合,用分词技术(主要是汉语语料库词库),形成智能词库,用词频分词把检索内容进行分割,分成多个组合查询,每组查询内再查询,形成一个查询树。
  
  这样检索词可以形成一个树状结构3.检索词与关键词的广泛匹配4.提高检索词的优先级:与关键词匹配的多个检索词要权重相等,从而使检索的字词密度提高。5.检索结果不断进行存储,形成索引库,形成后续检索6.提供索引词索引方式:利用两个或多个表的extra_info()方法提供检索词的索引方式选择。
  检索排序就是检索字段的排序。比如in-namesearchelement,有key-value表,key字段和value字段的位置都是不可改变的。其中key字段对序号(in-nametable的middle)和orderby长度有限制,value字段则是最多5个(取决于middle和valuelength的相同部分)。
  
  主要因为,如果一个字段的排序方式不是按照字典里的次序排序,那么我们就不能继续利用这个字段了。举个栗子:比如adj.的英文是advanced(达到了高级)。这个advanced既可以用字典表示,也可以用频数表示,还可以用权重表示。总之有大量的做法。再举个栗子:比如["some","somea","more","morebs"]的英文组合是someasome(达到了高级),有些情况下somemorearesome(达到了高级).此时我们也可以将这个字段作为索引的一部分来操作。
  此时就要确定,some也好,somea也好,more也好,他们分别表示的是谁,而这些我们是不可能用undefined来取代的。 查看全部

  搜索引擎进行信息检索的优化策略方法-乐题库
  搜索引擎进行信息检索的优化策略方法1.检索词的创造。不断扩充检索词库,广泛采用长尾关键词的词频词库,将在检索词库内的搜索长尾关键词置于检索词条前面,用于制造检索词条。将搜索长尾关键词过滤成用于检索词条的关键词2.关键词的排列组合,用分词技术(主要是汉语语料库词库),形成智能词库,用词频分词把检索内容进行分割,分成多个组合查询,每组查询内再查询,形成一个查询树。
  
  这样检索词可以形成一个树状结构3.检索词与关键词的广泛匹配4.提高检索词的优先级:与关键词匹配的多个检索词要权重相等,从而使检索的字词密度提高。5.检索结果不断进行存储,形成索引库,形成后续检索6.提供索引词索引方式:利用两个或多个表的extra_info()方法提供检索词的索引方式选择。
  检索排序就是检索字段的排序。比如in-namesearchelement,有key-value表,key字段和value字段的位置都是不可改变的。其中key字段对序号(in-nametable的middle)和orderby长度有限制,value字段则是最多5个(取决于middle和valuelength的相同部分)。
  
  主要因为,如果一个字段的排序方式不是按照字典里的次序排序,那么我们就不能继续利用这个字段了。举个栗子:比如adj.的英文是advanced(达到了高级)。这个advanced既可以用字典表示,也可以用频数表示,还可以用权重表示。总之有大量的做法。再举个栗子:比如["some","somea","more","morebs"]的英文组合是someasome(达到了高级),有些情况下somemorearesome(达到了高级).此时我们也可以将这个字段作为索引的一部分来操作。
  此时就要确定,some也好,somea也好,more也好,他们分别表示的是谁,而这些我们是不可能用undefined来取代的。

科学 · 新书 | 《信息检索与利用(第四版)》正式出版

网站优化优采云 发表了文章 • 0 个评论 • 55 次浏览 • 2022-06-24 02:16 • 来自相关话题

  科学 · 新书 | 《信息检索与利用(第四版)》正式出版
  
  
  
  信息化时代,瞬息万变的信息,已成为社会经济发展的重要因素。进入互联网时代,社交媒体和各种 APP 的广泛使用,使信息可以更为便捷地获取,但要获得“有用的知识”,似乎变得更难。面对纷繁无序的网络,如何高效、准确地查找所需要的信息,是每一个人都无法回避的问题,谁的“搜商”高,谁就更有可能抓住机遇;同时,信息安全和隐私保护也变得越来越重要。所以,信息检索能力既是一种素养,更是一种生活技能。
  
  
  
  
  
  新形态教材
  
  国家精品课程配套教材
  国家级精品资源共享课配套教材
  
  《信息检索与利用(第四版)》
  邓发云 编著
  书号:9787030713650
  定价:39.8元
  出版时间:2022年5月
  内容简介:本书系统地介绍信息素养、信息资源、信息检索及其应用的基本知识,以及各种常用检索工具的检索方法与技巧,提供了大量的案例、图表、思考与训练、研讨与训练、基于检索技巧的提示等,图文并茂,便于教学与阅读。
  本书既可作为高等学校本科生、研究生的“信息检索”课程教材与各类信息机构的岗位培训教材,也可作为工程技术人员、科研人员、教师从事信息检索时的参考书。
  作者建议
  
  
  
  信息素养是一种生活技能,为了读者更好地理解与使用本教材,有效地培养良好的信息素养和学习、适应能力,编者建议在使用中把握以下几点。
  强化 1 个信息意识。学会通过信息理解世界、沟通世界,学会通过信息检索扩展自己的认知;任何时候遇到任何事情都能通过检索、咨询已有的经验教训,优化自己的决策方案,减少不确定性。无论购物、旅游、交友、找工作、科学研究,都养成一个收集资料、帮助自己分析的习惯。
  注重 2 个能力培养。一是培养分析问题和解决问题的能力,既包括通过查询他人的或已有的历史成果与文献资料寻求答案或者激发灵感,也包括通过信息检索完善分析问题的框架、逻辑与思路;二是能够通过信息检索找到自己的目标与方向,进行规划与预测,从而构建适合自己学习、工作、生活、科研的信息环境,包括信息资源、平台、机构及其获取渠道。
  进行 3 种基本知识训练。一是掌握检索基本技术,包括逻辑组配、截词、字段选择、精确模糊匹配、检索词选取;二是了解常用资源、平台、工具,资源如中国知网、万方数据、SCI、SDOS、IEL,平台如本校图书馆、国家图书馆、CALIS、NSTL,工具如馆藏目录、搜索引擎、资源发现系统等;三是掌握常用检索方法,包括检索词选取、基本检索流程、检索策略调整、排序、分类与下载,能够将检索结果有效地融入需要解决的问题中。
  不断激发信息需求并通过检索满足信息需求,从本质而言,信息检索是一种匹配和选择,是信息需求与检索结果的匹配。信息需求决定检索工具、检索方式的选择。常识、大众化、新闻、娱乐信息可用搜索引擎检索;专利、标准与统计信息可从发布机构的网站检索;学术科研信息可用数据库检索。复杂、精确的需求可采用高级检索方式;模糊、简单的需求可采用简单检索方式。检索工具的功能设计(检索选项或检索框)正是用来满足各种需求的,灵活运用各种检索功能能够有效提高检索效率。从过程而言,信息检索是需求的明晰与调整,只有在检索的过程中,才能体会与领悟到检索的意义和乐趣;只有把学习、工作、生活与科研遇到的各种问题通过信息检索的途径解决,才能不断提高信息意识与检索技能,因此学好信息检索必须经过大量的实践训练。
  本书特色
  
  (1)将信息需求与信息检索结合起来,将十多位作者关于信息检索与利用的多年经验及技巧贯穿其中。
  (2)补充了新的内容:从国家、企业、个人层面介绍信息安全,从思维角度介绍网络资源检索技巧,从学习角度介绍数据获取,从使用角度介绍创新创业的信息资源。
  (3)增加了学生参与的内容,包括每章提供1~3个研讨与训练,针对16学时和32学时课程的不同上机练习题等。
  (4)通过二维码链接视频等数字资源,便于深化学习。
  目 录
  
  
  
  
  购书链接
  
  
  京东
  当当网
  相关课程授课教师
  可通过微信公众号“科学EDU”
  在线申请教学样书
  
  更多教学服务 查看全部

  科学 · 新书 | 《信息检索与利用(第四版)》正式出版
  
  
  
  信息化时代,瞬息万变的信息,已成为社会经济发展的重要因素。进入互联网时代,社交媒体和各种 APP 的广泛使用,使信息可以更为便捷地获取,但要获得“有用的知识”,似乎变得更难。面对纷繁无序的网络,如何高效、准确地查找所需要的信息,是每一个人都无法回避的问题,谁的“搜商”高,谁就更有可能抓住机遇;同时,信息安全和隐私保护也变得越来越重要。所以,信息检索能力既是一种素养,更是一种生活技能。
  
  
  
  
  
  新形态教材
  
  国家精品课程配套教材
  国家级精品资源共享课配套教材
  
  《信息检索与利用(第四版)》
  邓发云 编著
  书号:9787030713650
  定价:39.8元
  出版时间:2022年5月
  内容简介:本书系统地介绍信息素养、信息资源、信息检索及其应用的基本知识,以及各种常用检索工具的检索方法与技巧,提供了大量的案例、图表、思考与训练、研讨与训练、基于检索技巧的提示等,图文并茂,便于教学与阅读。
  本书既可作为高等学校本科生、研究生的“信息检索”课程教材与各类信息机构的岗位培训教材,也可作为工程技术人员、科研人员、教师从事信息检索时的参考书。
  作者建议
  
  
  
  信息素养是一种生活技能,为了读者更好地理解与使用本教材,有效地培养良好的信息素养和学习、适应能力,编者建议在使用中把握以下几点。
  强化 1 个信息意识。学会通过信息理解世界、沟通世界,学会通过信息检索扩展自己的认知;任何时候遇到任何事情都能通过检索、咨询已有的经验教训,优化自己的决策方案,减少不确定性。无论购物、旅游、交友、找工作、科学研究,都养成一个收集资料、帮助自己分析的习惯。
  注重 2 个能力培养。一是培养分析问题和解决问题的能力,既包括通过查询他人的或已有的历史成果与文献资料寻求答案或者激发灵感,也包括通过信息检索完善分析问题的框架、逻辑与思路;二是能够通过信息检索找到自己的目标与方向,进行规划与预测,从而构建适合自己学习、工作、生活、科研的信息环境,包括信息资源、平台、机构及其获取渠道。
  进行 3 种基本知识训练。一是掌握检索基本技术,包括逻辑组配、截词、字段选择、精确模糊匹配、检索词选取;二是了解常用资源、平台、工具,资源如中国知网、万方数据、SCI、SDOS、IEL,平台如本校图书馆、国家图书馆、CALIS、NSTL,工具如馆藏目录、搜索引擎、资源发现系统等;三是掌握常用检索方法,包括检索词选取、基本检索流程、检索策略调整、排序、分类与下载,能够将检索结果有效地融入需要解决的问题中。
  不断激发信息需求并通过检索满足信息需求,从本质而言,信息检索是一种匹配和选择,是信息需求与检索结果的匹配。信息需求决定检索工具、检索方式的选择。常识、大众化、新闻、娱乐信息可用搜索引擎检索;专利、标准与统计信息可从发布机构的网站检索;学术科研信息可用数据库检索。复杂、精确的需求可采用高级检索方式;模糊、简单的需求可采用简单检索方式。检索工具的功能设计(检索选项或检索框)正是用来满足各种需求的,灵活运用各种检索功能能够有效提高检索效率。从过程而言,信息检索是需求的明晰与调整,只有在检索的过程中,才能体会与领悟到检索的意义和乐趣;只有把学习、工作、生活与科研遇到的各种问题通过信息检索的途径解决,才能不断提高信息意识与检索技能,因此学好信息检索必须经过大量的实践训练。
  本书特色
  
  (1)将信息需求与信息检索结合起来,将十多位作者关于信息检索与利用的多年经验及技巧贯穿其中。
  (2)补充了新的内容:从国家、企业、个人层面介绍信息安全,从思维角度介绍网络资源检索技巧,从学习角度介绍数据获取,从使用角度介绍创新创业的信息资源。
  (3)增加了学生参与的内容,包括每章提供1~3个研讨与训练,针对16学时和32学时课程的不同上机练习题等。
  (4)通过二维码链接视频等数字资源,便于深化学习。
  目 录
  
  
  
  
  购书链接
  
  
  京东
  当当网
  相关课程授课教师
  可通过微信公众号“科学EDU”
  在线申请教学样书
  
  更多教学服务

收藏|信息检索技巧年终大盘点

网站优化优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2022-06-20 16:48 • 来自相关话题

  收藏|信息检索技巧年终大盘点
  
  据统计,科研人员开展项目时有51%的时间都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员的一项重要且亟待解决的问题。
  
  然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里寻找才能搜出。检索不到、检索不准、检索不全,都是目前科技信息检索中面临的严峻问题。
  如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用技巧和方法。
  数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,在检索时,根据所需信息的内容可以判断出从哪些数据库中获得能减少查询时间的合适数据,以此来提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库的话,可选择中国知网。
  检索字段的选取与确认
  在选取检索字段时,我们应遵循“选全、选准”的原则,尽量避免遗漏主题词,应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇,尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词,其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求的后果。所以,为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径和优化检索策略,从而提高检索字段的检索效率。
  如果想要使检索达到较高的专业度,就需要对检索字段、检索范围及检索策略等方面进行不断的修正、校准、优化。
  特殊检索符号的使用
  不同的算符会组成不同的检索式,因此,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1. 双引号
  双引号表示精确匹配。如果输入一个名称进行直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录;如果加上双引号再搜,只剩下两条!为什么会出现这种状况呢?双引号表示全字符匹配,就是一个字都不能差;可如果不加双引号,“天津”这个词能搜出10万条,“总后”这个词能搜出10万条,“军事”这个词又会搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,滤掉很多冗余信息。
  这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2. 减号
  “-”的作用是去除标题中不相关的结果,找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3. 逻辑算符AND
  用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。
  可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4. 位置算符
  ★ NEAR,表示两个检索词必须紧密相连,词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  ★WITH,表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class或high-class。
  5. 布尔逻辑算符
  运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  ★ OR,将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology的检索结果中必然包含education或technology中的一个。
  ★ NOT,排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6. 截词符
  ★“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。
  ★“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索虽减少了输入的字符数目,但可以有效预防漏检,提高查全率。
  其他重要检索事项
  
  1. 注意英文检索词的选择
  在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但在实际检索过程中,会发现英文原文给出的关键词有不准确或不全面的情况,除此之外,还会出现中文直译成英文的情况,这些都有可能导致搜集到的资料出现错误或不全。
  例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2. 搜索引擎的灵活应用
  搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。
  大多数搜索引擎都支持元词(metawords)检索功能,把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。
  例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能,可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用,它直接影响检索策略,影响检索效率和检索效果。
  在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。 查看全部

  收藏|信息检索技巧年终大盘点
  
  据统计,科研人员开展项目时有51%的时间都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员的一项重要且亟待解决的问题。
  
  然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里寻找才能搜出。检索不到、检索不准、检索不全,都是目前科技信息检索中面临的严峻问题。
  如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用技巧和方法。
  数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,在检索时,根据所需信息的内容可以判断出从哪些数据库中获得能减少查询时间的合适数据,以此来提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库的话,可选择中国知网。
  检索字段的选取与确认
  在选取检索字段时,我们应遵循“选全、选准”的原则,尽量避免遗漏主题词,应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇,尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词,其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求的后果。所以,为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径和优化检索策略,从而提高检索字段的检索效率。
  如果想要使检索达到较高的专业度,就需要对检索字段、检索范围及检索策略等方面进行不断的修正、校准、优化。
  特殊检索符号的使用
  不同的算符会组成不同的检索式,因此,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1. 双引号
  双引号表示精确匹配。如果输入一个名称进行直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录;如果加上双引号再搜,只剩下两条!为什么会出现这种状况呢?双引号表示全字符匹配,就是一个字都不能差;可如果不加双引号,“天津”这个词能搜出10万条,“总后”这个词能搜出10万条,“军事”这个词又会搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,滤掉很多冗余信息。
  这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2. 减号
  “-”的作用是去除标题中不相关的结果,找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3. 逻辑算符AND
  用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。
  可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4. 位置算符
  ★ NEAR,表示两个检索词必须紧密相连,词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  ★WITH,表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class或high-class。
  5. 布尔逻辑算符
  运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  ★ OR,将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology的检索结果中必然包含education或technology中的一个。
  ★ NOT,排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6. 截词符
  ★“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。
  ★“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索虽减少了输入的字符数目,但可以有效预防漏检,提高查全率。
  其他重要检索事项
  
  1. 注意英文检索词的选择
  在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但在实际检索过程中,会发现英文原文给出的关键词有不准确或不全面的情况,除此之外,还会出现中文直译成英文的情况,这些都有可能导致搜集到的资料出现错误或不全。
  例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2. 搜索引擎的灵活应用
  搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。
  大多数搜索引擎都支持元词(metawords)检索功能,把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。
  例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能,可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用,它直接影响检索策略,影响检索效率和检索效果。
  在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。

图解|通用搜索引擎背后的技术点

网站优化优采云 发表了文章 • 0 个评论 • 42 次浏览 • 2022-06-19 03:01 • 来自相关话题

  图解|通用搜索引擎背后的技术点
  1. 写在前面
  今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。
  
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。 查看全部

  图解|通用搜索引擎背后的技术点
  1. 写在前面
  今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。
  
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。

图解通用搜索引擎背后的技术点

网站优化优采云 发表了文章 • 0 个评论 • 48 次浏览 • 2022-06-19 03:00 • 来自相关话题

  图解通用搜索引擎背后的技术点
  
  1. 写在前面
  今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。
  
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。
  
  点个在看,赞支持我吧
   查看全部

  图解通用搜索引擎背后的技术点
  
  1. 写在前面
  今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。
  
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。
  
  点个在看,赞支持我吧
  

画了30张图:死磕搜索引擎背后的故事

网站优化优采云 发表了文章 • 0 个评论 • 41 次浏览 • 2022-06-18 07:08 • 来自相关话题

  画了30张图:死磕搜索引擎背后的故事
  关注“脚本之家”,与百万开发者在一起
  
  来源 |后端技术指南针
  1. 写在前面
  今天准备和小伙伴们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1.网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2.单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3.比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4.为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。 查看全部

  画了30张图:死磕搜索引擎背后的故事
  关注“脚本之家”,与百万开发者在一起
  
  来源 |后端技术指南针
  1. 写在前面
  今天准备和小伙伴们一起学习下关于通用搜索引擎的一些技术点。
  鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为。
  通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
  废话不说,各位抓紧上车,冲鸭!
  
  2. 初识搜索引擎2.1 搜索引擎分类
  搜索引擎根据其使用场景和规模,可以简单分为两大类:
  通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类。
  
  垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等。
  
  两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟。
  
  2.2 搜索和推荐
  搜索和推荐经常被相提并论,但是二者存在一些区别和联系。
  
  2.3 搜索引擎评价标准
  我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等。
  换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户。
  这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事。
  3. 通用搜索引擎的整体概览3.1 搜索引擎的基本流程
  大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
  1.网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的。
  
  2.单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页。
  
  3.比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户。
  用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程。
  4.为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页。
  比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
  3.2 搜索引擎的基本组成
  我们从整体简单看下基本组成以及各个模块的主要功能:
  
  接下来,我们将粗浅地介绍几个模块的基本内容和技术点。
  4. 网络爬虫模块简介
  网络爬虫模块是通用搜索引擎非常的基础组件,一般都会采用分布式爬虫来实现,我们来看看这个搬运工是如何实现海量网页发掘的:
  
  网络爬虫的基本流程:
  在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等。
  
  在工程实践中需要根据自身情况和搜索引擎特点进行选择某种策略或者多种策略组合。
  网络爬虫需要遵循Robots协议(网络爬虫排除标准),这是网络爬虫和站点之间的君子协定,站点通过协议告诉网络爬虫哪些可以抓哪些不可以。
  网络爬虫同时需要考虑抓取频率,防止给站点造成过重负担,总之,搜索引擎的网络爬虫需要是个谦谦君子。
  5. 网页内容处理模块
  爬虫模块将网页内容存储之后,网页内存处理模块开始解析网页内容,主要工作包括:数据清洗、网页内容分词、建立正排索引、建立倒排索引等。
  
  5.1 数据清洗
  一般来说,网页中除了具体内容还会有很多无关的东西,比如html标签、推广等,这些在实际搜索引擎中都是无用的。
  内容处理模块会将无用数据、标签清洗掉,为后续的分词做准备。
  5.2 中文分词
  将清洗完成的内容进行分词提取关键词,比如一个网页内容有1000字,分词之后大约有50个词,相当于提取了网页的主干,并且会对标题、摘要、正文等不同部分的内容做不同权重处理。
  分词过程中会剔除停用词、虚词等,比如"的、得、地"等,从而极力还原网页的主干内容。
  我们用在线网页分词工具和真实网页来模拟下这个过程:
  网页分词在线工具:
  抓取网页:
  可以看到分词后可以标注词频,这些都是后续作为网页排序的重要来源,但是中文是很复杂的,因此分词算法会有很多种,常见的包括:
  
  5.3 正排索引
  假定我们将每个网页进行唯一编号docid,经过前面的分词一个网页将被分成不同权重的多个实体词。
  所谓正排就是根据docid可以拿到属于该网页的所有内容,是一个符合我们思维的正向过程,相对而言会有倒排索引。
  我们以一篇《隐秘的角落》剧情简介的页面为例,模拟分词情况,大致如下(本分词结果纯属脑补,以实际为准):
  
  5.4 倒排索引
  假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系。
  
  那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程。
  
  就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要。
  
  5.5 本章小结
  内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。
  特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
  正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。
  倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。
  6. 网页排序和用户模块6.1 网页排序的必要性
  由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。
  网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。
  搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。
  事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
  我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:
  6.2 网页排序的常见策略
  网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
  这是早期搜索引擎常采取的方法,相对简单但是效果还不错。
  简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。
  词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
  TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
  TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
  TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举个栗子:
  网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。
  链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。
  
  基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。
  来看下PageRank算法的基本思想:
  网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。
  假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。
  另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
  PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题。
  与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了。
  6.3 网页反作弊和SEO
  搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值。
  这里就要提到SEO,先看下百度百科对SEO的定义:
  搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。
  搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。
  道高一尺魔高一丈,只有魔法可以打败魔法。
  
  网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等。
  
  6.4 用户搜索意图理解
  用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要。
  实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样。
  
  7. 全文总结
  搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了。
  搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅。

这些科技信息检索技巧,学到了吗?

网站优化优采云 发表了文章 • 0 个评论 • 53 次浏览 • 2022-06-10 11:04 • 来自相关话题

  这些科技信息检索技巧,学到了吗?
  
  据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
  二、科技信息检索的技巧
  (一)数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库,则可以选择中国知网。
  (二)检索字段的选取与确认
  检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  (三)检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  (四)检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
  (五)特殊检索符的巧用
  不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1、双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2、减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家
  乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3、逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4、位置算符。
  (1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  (2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
  5、布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  (1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。
  (2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6、截词符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
  (六)其他重要检索事项
  1、注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2、搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(metawords)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
  
  全文获取:知网篇名检索“科技信息检索的技巧” 查看全部

  这些科技信息检索技巧,学到了吗?
  
  据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
  二、科技信息检索的技巧
  (一)数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库,则可以选择中国知网。
  (二)检索字段的选取与确认
  检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  (三)检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  (四)检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
  (五)特殊检索符的巧用
  不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1、双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2、减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家
  乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3、逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4、位置算符。
  (1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  (2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
  5、布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  (1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。
  (2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6、截词符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
  (六)其他重要检索事项
  1、注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2、搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(metawords)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
  
  全文获取:知网篇名检索“科技信息检索的技巧”

整理网站推广二十九种经典方法

网站优化优采云 发表了文章 • 0 个评论 • 39 次浏览 • 2022-06-10 10:58 • 来自相关话题

  整理网站推广二十九种经典方法
  如何增加网站访问量?以下是你可以考虑采用 29 个方法。其中,你或许已经采用了一些,有的方法你可能忘了采用,还有一些是你从来没有听说过的。总之,在这里你可以了结到当前各种有效的网站推广方法。首先你要了解,网站推广是一个长期而且系统的过程,需要制定明确的目标和计划,并做好相应的准备。
  一、添加网页标题
  为每页内容写 5 到 8 个字的描述性标题。标题要简练“的”“和”这些不重要的词汇。要说明该页面,该网站最重要的内容是什么。网页标题将出现在搜索结果页面的链接上,因此可以写得稍带煽动性,以吸引搜索者点击该链接。同时在首页内容中写上你的公司名和你最重要的关键词,而不能只是写公司名。网站的每一个页面都应该有针对该页面的标题。
  二、添加描述性 META 标签
  除了网页标题,不少搜索引擎会搜索到 META 标签。这是一句说明性文字。描述网页正文的内容,句中也要包含本页使用到的关键词,词组等。目前,含关键词的 META 标签已经对排名帮助不大,但有时 META 标签会用于付费登陆技术中。而且谁又知道什么时候搜索引擎又会再次重视它呢?
  三、在网页粗体文字,一般为文章标题中也填上你的关键词
  搜索引擎很重视粗体文字,以为这是本页很重要的内容。因此,确保在一二个粗体文字标签中写上你的关键词。要尽量避免将重要的标题都制作成图片的形式,更不要将整个首页都做成一个图片。
  四、确保在你的正文第一段就出现关键词
  搜索引擎希望在第一段文字中就找到你的关键词,但不要充斥过多关键词。google 大概将全文每 100 个字出现 1.5 到 2 个关键词视为最佳的关键词密度,可获得好排名。其他可考虑放置关键词的地方可以在代码的 ALT 或者 COMMEET 标签里面。如果无法保证正文第一段出现关键词,可以考虑一些不救措施,比如给网页加一个批注等等。
  五、导航设计要易于搜索引擎搜索
  有些人在网页制作中使用框架,但是这对于搜索引擎是一个严重的问题。即使搜索引擎找到你的内容页面,也可能错过其中关键性的导航栏目,从而不能进入到其他页面。用 JAVA和 FLASH 做的导航按钮看起来是很漂亮美观,但是搜索引擎找不到它们。补救的办法是在页面底部用常规 HTML 链接再作一个导航条,确保可以通过这个导航条进入网站的每一页。你还可以做一个网站地图,也可以链接到每一页面。此外,有些内容管理系统和电子商务目录运用动态的网页,这些页面的网址后面一般都有一个问号带上数字,工作过度的搜索引擎往往在问号前停下,不在继续搜索。对于这种情况。可以通过更改 URL,付费登陆等手段加以解决。动态站点可以通过生成静态页面的技术方便搜索引擎的抓取。网站地图要尽量可能链接到所有的主要页面,并单独把站点地图页面提交给搜索引擎。多使用 HTML 静态网页,虽然增加了工作量,但可以增加搜索引擎的友好度,从而为获得好的排名打下基础。
  六、针对某些特别重要的关键词,专门做几个页面
  搜索引擎优化专家不推荐使用任何针对搜索引擎的欺骗性过渡页面,因为这些几乎是复制出来的网页可能搜索引擎的惩罚。但可以做几个页面,每页集中包含不同的关键词或词组 。例如,无须在某一页上介绍你所有的服务内容,而是为每种服务分别作一个页面。这样,每一页都有相对应额关键词,这些页面内容因为包含针对性的关键词而不是笼统的内容,从而可以提高排名。
  七、向搜索引擎提交网页
  在搜索引擎是找到【ADD YOUR URL】网站登陆的链接。搜索引擎将自动搜索你提交的网页。美国最著名的搜索引擎是:google、inktomi、alta、vista、 tehoma。这些搜索引擎向其它主要搜索引擎和门户网站提供搜索内容。在欧洲和其他地区你可以发布到区域性的搜索引擎。至于花钱请人帮你提交成千上万的搜索引擎的做法是在白花钱。也不要在那些 FFA(free for all pages)网站,即所谓将你的网站免费自动提交到数百搜索引擎的站点。这类提交不仅效果不好,还会给你带来大量的垃圾邮件,并可能导致搜索引擎对你的网页进行惩罚。也不要使用网站登陆软件,所谓可以一次性将你的网站提交给数以千计的搜索引擎,其实不仅是不可能的,也是没有实际价值的。最重要的是做好网站的优化设计,对于主要搜索引擎,采用逐个手工提交的方式来进行 。对于付费搜索引擎,更不可能依靠软件来提交。事实上,有效的搜索引擎营销策略根本不需要将网站登陆到数以千计的搜索引擎,因为访问量最大的几个搜索引擎几乎集中了 98%以上的访问量,剩下的搜索引擎没有多少实际意义。另外要注意,提交网页不应该是一次性的 ,随着内容的更新,应该定期重新提交网页。由于网络页面越来越多,很多搜索机器人的回访时间很长,定期提交可以让搜索引擎前来抓取最新的更新内容。
  八、调整主要内容页面以提高排名
  将你认为最重要的页面,或许是首页作一些调整,以提高他们的排名。有一些软件可以让你检查当前的排名,比较跟你的关键词相同的竞争者的网页排名,还可以获得搜索引擎对你的网页的首选统计数据,从而对自己的页面进行调整。你可以使用 webpositiongold 自己做这个工作,但由于很花时间,也可以请专业的公司帮你做。在其他网站做链接可以带来更多访问量。自从 google 等主要搜索引擎将网站的链接广泛度作为排名参考的重要因素以后,越多网站链接你,你的网站排名越高。同时,链接的质量也是搜索引擎考虑的重要因素。链接在访问量高的网站比链接在访问量低的网站更有优势。
  九、将网站提交到主要的检索目录
  确保你的网站登陆到免费的 open directory(),这是由人工进行登陆审查的网站。该分级目录为所有主要搜索引擎提供目录内容提供搜索。google 很看重你的网站是否在这类重要的网站有链接。yahoo 是另一个重要的检索目录,需要在上面登陆。提示:描述网站的字数最好比规定的最高字数少,不要刚好达到字数限制,以免太长的文字描述使得网站审核人员删除一些句段。目前商业网站登陆 yahoo 每年要交¥299,最好让他们在 7个工作日内就将你的网站登陆上去。其他可以考虑登陆的检索目录有 和。国内有很多网站导航站点。例http:// http:// 等等,也能带来非常大的流量。即使网络营销预算不多,但主要的搜索引擎如新浪,搜虎等也是很有必要登记的。
  十、做专业
  将网站登陆到行业站点和专业目录中有一些检索目录定位于某个行业,如教育或金融业。如果你属于某个贸易协会,该协会集中了诸多会员站点,你可向该协会网站申请加入你的站点,哪怕付费也是应该的,因为这会为你带来许多目标访问者。除了可以登陆到很多黄页类网站,到搜索引擎按照你的行业查找,一定也能找到很多相关的行业目录站点,应该尽量登陆这些站点。
  十一、请求互换链接
  寻找一些与你的网站内容互补的站点向对方要求互换链接。最理想的链接对象是那些与你的网站流量相当的网站。流量太大的网站管理员要应付太多要求互换链接的请求,容易将你忽略。小的一些网站页可以考虑。互换链接页面要放在网站比较偏僻的地方,以免将你的网站访问者很快引向他人的站点。找到可以互换链接的网站之后,发一封个性化的电邮给对方网站管理,如果对方没有回复,再打电话试一试。一定要关注对方网站的质量,不要片面追求链接数量,更不要发垃圾邮件。
  十二、发表免费文章,附带站点签名
  免费为其他网站的新闻邮件写一些专业性文章,文章里用简短的文字附带描述你提供的东西,并请求对方链接你的网站。这是一种有效的病毒营销方法,你的文章将作为成千上百的用户订阅信息发出去,让你的网站一次性获得几百个链接。没有自己的原创文章,转载别人的文章时一定也要加上自己的链接。网下的传统推广方法依然奏效。多种手段并用的方法尤其有效。
  十三、将你的网址印在信纸、名片、宣传册、印刷品上
  这种简单的方法有时候却被忽略了。确保网址拼写正确。建议把 http://部 分省 略,只书写 http://www.****.com/部分。一个易于记忆的域名有利于网站的推广,在选择域名时一定要仔细考虑。
  十四、使用传统媒体广告
  传统媒体广告不应该废止。无论是报纸还是杂志广告,务必确保在其中展示你的网址。要将查看网站作为广告的辅助内容,提醒用户浏览网站将取得更多相关信息。别忽视在一些定位相对比较狭窄的杂志或者贸易期刊刊登广告,有时候这些广告定位会更加准确、有效。而且比网络广告更便宜。还有其它传统方式可增加网站访问量,如直邮、分类广告、明信片等等。电视广告恐怕更适合于那些销售大众化商品的网站。让网址出现在广告中显眼的位置 ,相信比电话号码更好记忆
  十五、提供免费服务
  人们都喜欢免费的东西。通过免费信息内容吸引人们访问你的网站,比单纯叫人来访问了解你的业务更有效。建立免费资源需要花费时间和精力,但是对增加访问量非常有效。你提供的免费内容要与你销售的东西非常接近,这样你吸引来得访问者才有可能时目标潜在客户,提供免费服务的同时,网站要提供多种链接方式将获取免费信息的用户注意力引导到你销售的产品部分。免费资源比如:免费邮箱、免费网站登陆、免费发布信息、能提供具有特色的免费服务那就更好了。
  十六、发布新闻
  寻找具有新闻价值的事件,比如宣传你提供免费服务,并将新闻发布到你所在行业的印刷期刊和网站期刊上。你可以使用一些网络新闻发布服务。 新闻推广总是有效的,这就是为什么传统媒体会有那么多企业的广告看起来很像新闻的原因。电子邮件是增加访问量的重要方法,但前提是不能大量发送未经许可的垃圾邮件。
  十七、在你发出的邮件中创建一个签名,让潜在客户与你联系
  大部分的邮件系统都有创建签名的功能。签名会自动出现在你发出去的每封邮件末尾。签名要限制在 6-8 行之内。包括:公司名称、地址、电话、网址、电子邮件和一句你的企业的描述。签名不要为了漂亮设计为图片格式,要便于客户复制拷贝。
  十八、建立邮件列表,定期向用户发送新闻邮件或其他信息
  这是与客户保持联系、建立信任、发展品牌及建立长期关系的最好方法之一。你可以请网站访问者填写他们的电子邮件地址,从而收取你的新闻邮件。发送邮件需要采用群发服务器,这些在网络上有很多。
  十九、向邮件列表用户发布产品信息,如优惠券,新产品及其其他促销信息
  如果将邮件主题和正文进行个性化处理将获得更好的效果。邮件主题设计的 5 个基本原则是:1、体现出邮件内容的精华。2、体现出发件人信息中无法包含的内容。3、体现出品牌或者产品信息。4、邮件主题含有丰富的关键词。5、邮件主题不宜过于简单或者过于复杂 。
  二十、租用目标客户邮件列表
  这些邮件列表客户在邮件列表商的网站注册的时候同意接受某些类别商业邮件信息,因此向这些用户发送你的产品信息是合法的,不属于垃圾邮件。自己用邮址搜索软件收集电子邮件地址,或者购买电子邮件地址都属于垃圾邮件,不仅不会带来好处,甚至会收到惩罚。
  二十一、在邮件列表和新闻组中进行促销
  许多在某一专业领域中有着共同兴趣的人在网络上进行讨论交流,形成成千上万不同领域的新闻组。找到自己领域内的新闻组,不是要在其中公开宣传你的产品或者服务,而是在交流的签名中留下你的电子邮件地址和网站。当人们逐渐了解并信任你的时候,他们会访问你的网站。新闻组在国内应用不多,因此算不上常用的网站推广方法。论坛和聊天室曾经被用来宣传产品,但现在很多网站并不欢迎在这些网络社区发布广告信息,除非有专门的广告发布版块,否则尽量不要采用这种方式。
  二十二、运用竞赛
  你可以在网站上设计一个竞赛,奖品要能够吸引那些你最希望获得的那类客户。比如将奖品设计为你的产品或一定的购买折扣等等。运用竞赛可以有效的吸引更多访问量。如果你的知名度不高,如何让客户知道你开展竞赛也是一个问题,因此对有些网站这种方式并不适用。 查看全部

  整理网站推广二十九种经典方法
  如何增加网站访问量?以下是你可以考虑采用 29 个方法。其中,你或许已经采用了一些,有的方法你可能忘了采用,还有一些是你从来没有听说过的。总之,在这里你可以了结到当前各种有效的网站推广方法。首先你要了解,网站推广是一个长期而且系统的过程,需要制定明确的目标和计划,并做好相应的准备。
  一、添加网页标题
  为每页内容写 5 到 8 个字的描述性标题。标题要简练“的”“和”这些不重要的词汇。要说明该页面,该网站最重要的内容是什么。网页标题将出现在搜索结果页面的链接上,因此可以写得稍带煽动性,以吸引搜索者点击该链接。同时在首页内容中写上你的公司名和你最重要的关键词,而不能只是写公司名。网站的每一个页面都应该有针对该页面的标题。
  二、添加描述性 META 标签
  除了网页标题,不少搜索引擎会搜索到 META 标签。这是一句说明性文字。描述网页正文的内容,句中也要包含本页使用到的关键词,词组等。目前,含关键词的 META 标签已经对排名帮助不大,但有时 META 标签会用于付费登陆技术中。而且谁又知道什么时候搜索引擎又会再次重视它呢?
  三、在网页粗体文字,一般为文章标题中也填上你的关键词
  搜索引擎很重视粗体文字,以为这是本页很重要的内容。因此,确保在一二个粗体文字标签中写上你的关键词。要尽量避免将重要的标题都制作成图片的形式,更不要将整个首页都做成一个图片。
  四、确保在你的正文第一段就出现关键词
  搜索引擎希望在第一段文字中就找到你的关键词,但不要充斥过多关键词。google 大概将全文每 100 个字出现 1.5 到 2 个关键词视为最佳的关键词密度,可获得好排名。其他可考虑放置关键词的地方可以在代码的 ALT 或者 COMMEET 标签里面。如果无法保证正文第一段出现关键词,可以考虑一些不救措施,比如给网页加一个批注等等。
  五、导航设计要易于搜索引擎搜索
  有些人在网页制作中使用框架,但是这对于搜索引擎是一个严重的问题。即使搜索引擎找到你的内容页面,也可能错过其中关键性的导航栏目,从而不能进入到其他页面。用 JAVA和 FLASH 做的导航按钮看起来是很漂亮美观,但是搜索引擎找不到它们。补救的办法是在页面底部用常规 HTML 链接再作一个导航条,确保可以通过这个导航条进入网站的每一页。你还可以做一个网站地图,也可以链接到每一页面。此外,有些内容管理系统和电子商务目录运用动态的网页,这些页面的网址后面一般都有一个问号带上数字,工作过度的搜索引擎往往在问号前停下,不在继续搜索。对于这种情况。可以通过更改 URL,付费登陆等手段加以解决。动态站点可以通过生成静态页面的技术方便搜索引擎的抓取。网站地图要尽量可能链接到所有的主要页面,并单独把站点地图页面提交给搜索引擎。多使用 HTML 静态网页,虽然增加了工作量,但可以增加搜索引擎的友好度,从而为获得好的排名打下基础。
  六、针对某些特别重要的关键词,专门做几个页面
  搜索引擎优化专家不推荐使用任何针对搜索引擎的欺骗性过渡页面,因为这些几乎是复制出来的网页可能搜索引擎的惩罚。但可以做几个页面,每页集中包含不同的关键词或词组 。例如,无须在某一页上介绍你所有的服务内容,而是为每种服务分别作一个页面。这样,每一页都有相对应额关键词,这些页面内容因为包含针对性的关键词而不是笼统的内容,从而可以提高排名。
  七、向搜索引擎提交网页
  在搜索引擎是找到【ADD YOUR URL】网站登陆的链接。搜索引擎将自动搜索你提交的网页。美国最著名的搜索引擎是:google、inktomi、alta、vista、 tehoma。这些搜索引擎向其它主要搜索引擎和门户网站提供搜索内容。在欧洲和其他地区你可以发布到区域性的搜索引擎。至于花钱请人帮你提交成千上万的搜索引擎的做法是在白花钱。也不要在那些 FFA(free for all pages)网站,即所谓将你的网站免费自动提交到数百搜索引擎的站点。这类提交不仅效果不好,还会给你带来大量的垃圾邮件,并可能导致搜索引擎对你的网页进行惩罚。也不要使用网站登陆软件,所谓可以一次性将你的网站提交给数以千计的搜索引擎,其实不仅是不可能的,也是没有实际价值的。最重要的是做好网站的优化设计,对于主要搜索引擎,采用逐个手工提交的方式来进行 。对于付费搜索引擎,更不可能依靠软件来提交。事实上,有效的搜索引擎营销策略根本不需要将网站登陆到数以千计的搜索引擎,因为访问量最大的几个搜索引擎几乎集中了 98%以上的访问量,剩下的搜索引擎没有多少实际意义。另外要注意,提交网页不应该是一次性的 ,随着内容的更新,应该定期重新提交网页。由于网络页面越来越多,很多搜索机器人的回访时间很长,定期提交可以让搜索引擎前来抓取最新的更新内容。
  八、调整主要内容页面以提高排名
  将你认为最重要的页面,或许是首页作一些调整,以提高他们的排名。有一些软件可以让你检查当前的排名,比较跟你的关键词相同的竞争者的网页排名,还可以获得搜索引擎对你的网页的首选统计数据,从而对自己的页面进行调整。你可以使用 webpositiongold 自己做这个工作,但由于很花时间,也可以请专业的公司帮你做。在其他网站做链接可以带来更多访问量。自从 google 等主要搜索引擎将网站的链接广泛度作为排名参考的重要因素以后,越多网站链接你,你的网站排名越高。同时,链接的质量也是搜索引擎考虑的重要因素。链接在访问量高的网站比链接在访问量低的网站更有优势。
  九、将网站提交到主要的检索目录
  确保你的网站登陆到免费的 open directory(),这是由人工进行登陆审查的网站。该分级目录为所有主要搜索引擎提供目录内容提供搜索。google 很看重你的网站是否在这类重要的网站有链接。yahoo 是另一个重要的检索目录,需要在上面登陆。提示:描述网站的字数最好比规定的最高字数少,不要刚好达到字数限制,以免太长的文字描述使得网站审核人员删除一些句段。目前商业网站登陆 yahoo 每年要交¥299,最好让他们在 7个工作日内就将你的网站登陆上去。其他可以考虑登陆的检索目录有 和。国内有很多网站导航站点。例http:// http:// 等等,也能带来非常大的流量。即使网络营销预算不多,但主要的搜索引擎如新浪,搜虎等也是很有必要登记的。
  十、做专业
  将网站登陆到行业站点和专业目录中有一些检索目录定位于某个行业,如教育或金融业。如果你属于某个贸易协会,该协会集中了诸多会员站点,你可向该协会网站申请加入你的站点,哪怕付费也是应该的,因为这会为你带来许多目标访问者。除了可以登陆到很多黄页类网站,到搜索引擎按照你的行业查找,一定也能找到很多相关的行业目录站点,应该尽量登陆这些站点。
  十一、请求互换链接
  寻找一些与你的网站内容互补的站点向对方要求互换链接。最理想的链接对象是那些与你的网站流量相当的网站。流量太大的网站管理员要应付太多要求互换链接的请求,容易将你忽略。小的一些网站页可以考虑。互换链接页面要放在网站比较偏僻的地方,以免将你的网站访问者很快引向他人的站点。找到可以互换链接的网站之后,发一封个性化的电邮给对方网站管理,如果对方没有回复,再打电话试一试。一定要关注对方网站的质量,不要片面追求链接数量,更不要发垃圾邮件。
  十二、发表免费文章,附带站点签名
  免费为其他网站的新闻邮件写一些专业性文章,文章里用简短的文字附带描述你提供的东西,并请求对方链接你的网站。这是一种有效的病毒营销方法,你的文章将作为成千上百的用户订阅信息发出去,让你的网站一次性获得几百个链接。没有自己的原创文章,转载别人的文章时一定也要加上自己的链接。网下的传统推广方法依然奏效。多种手段并用的方法尤其有效。
  十三、将你的网址印在信纸、名片、宣传册、印刷品上
  这种简单的方法有时候却被忽略了。确保网址拼写正确。建议把 http://部 分省 略,只书写 http://www.****.com/部分。一个易于记忆的域名有利于网站的推广,在选择域名时一定要仔细考虑。
  十四、使用传统媒体广告
  传统媒体广告不应该废止。无论是报纸还是杂志广告,务必确保在其中展示你的网址。要将查看网站作为广告的辅助内容,提醒用户浏览网站将取得更多相关信息。别忽视在一些定位相对比较狭窄的杂志或者贸易期刊刊登广告,有时候这些广告定位会更加准确、有效。而且比网络广告更便宜。还有其它传统方式可增加网站访问量,如直邮、分类广告、明信片等等。电视广告恐怕更适合于那些销售大众化商品的网站。让网址出现在广告中显眼的位置 ,相信比电话号码更好记忆
  十五、提供免费服务
  人们都喜欢免费的东西。通过免费信息内容吸引人们访问你的网站,比单纯叫人来访问了解你的业务更有效。建立免费资源需要花费时间和精力,但是对增加访问量非常有效。你提供的免费内容要与你销售的东西非常接近,这样你吸引来得访问者才有可能时目标潜在客户,提供免费服务的同时,网站要提供多种链接方式将获取免费信息的用户注意力引导到你销售的产品部分。免费资源比如:免费邮箱、免费网站登陆、免费发布信息、能提供具有特色的免费服务那就更好了。
  十六、发布新闻
  寻找具有新闻价值的事件,比如宣传你提供免费服务,并将新闻发布到你所在行业的印刷期刊和网站期刊上。你可以使用一些网络新闻发布服务。 新闻推广总是有效的,这就是为什么传统媒体会有那么多企业的广告看起来很像新闻的原因。电子邮件是增加访问量的重要方法,但前提是不能大量发送未经许可的垃圾邮件。
  十七、在你发出的邮件中创建一个签名,让潜在客户与你联系
  大部分的邮件系统都有创建签名的功能。签名会自动出现在你发出去的每封邮件末尾。签名要限制在 6-8 行之内。包括:公司名称、地址、电话、网址、电子邮件和一句你的企业的描述。签名不要为了漂亮设计为图片格式,要便于客户复制拷贝。
  十八、建立邮件列表,定期向用户发送新闻邮件或其他信息
  这是与客户保持联系、建立信任、发展品牌及建立长期关系的最好方法之一。你可以请网站访问者填写他们的电子邮件地址,从而收取你的新闻邮件。发送邮件需要采用群发服务器,这些在网络上有很多。
  十九、向邮件列表用户发布产品信息,如优惠券,新产品及其其他促销信息
  如果将邮件主题和正文进行个性化处理将获得更好的效果。邮件主题设计的 5 个基本原则是:1、体现出邮件内容的精华。2、体现出发件人信息中无法包含的内容。3、体现出品牌或者产品信息。4、邮件主题含有丰富的关键词。5、邮件主题不宜过于简单或者过于复杂 。
  二十、租用目标客户邮件列表
  这些邮件列表客户在邮件列表商的网站注册的时候同意接受某些类别商业邮件信息,因此向这些用户发送你的产品信息是合法的,不属于垃圾邮件。自己用邮址搜索软件收集电子邮件地址,或者购买电子邮件地址都属于垃圾邮件,不仅不会带来好处,甚至会收到惩罚。
  二十一、在邮件列表和新闻组中进行促销
  许多在某一专业领域中有着共同兴趣的人在网络上进行讨论交流,形成成千上万不同领域的新闻组。找到自己领域内的新闻组,不是要在其中公开宣传你的产品或者服务,而是在交流的签名中留下你的电子邮件地址和网站。当人们逐渐了解并信任你的时候,他们会访问你的网站。新闻组在国内应用不多,因此算不上常用的网站推广方法。论坛和聊天室曾经被用来宣传产品,但现在很多网站并不欢迎在这些网络社区发布广告信息,除非有专门的广告发布版块,否则尽量不要采用这种方式。
  二十二、运用竞赛
  你可以在网站上设计一个竞赛,奖品要能够吸引那些你最希望获得的那类客户。比如将奖品设计为你的产品或一定的购买折扣等等。运用竞赛可以有效的吸引更多访问量。如果你的知名度不高,如何让客户知道你开展竞赛也是一个问题,因此对有些网站这种方式并不适用。

搜索引擎营销核心思路

网站优化优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-05-21 19:30 • 来自相关话题

  搜索引擎营销核心思路
  
  再不点蓝字关注,机会就要飞走了哦 搜索引擎目前仍然是最主要的网站推广手段之一,尤其基于自然搜索结果的搜索引擎推广,到目前为止 搜索引擎营销四个目标层次仍然是免费的,因此受到众多中小网站的重视,搜索引擎营销方法也成为网络营销方法体系的主要组成部分。目前对于搜索引擎营销的研究,无论是对于搜索引擎优化还是付费搜索引擎广告,基本上都处于操作层面,如果要对这些具体的操作方法和技巧归纳为搜索引擎推广的一般规律时,有必要提出这样的问题:搜索引擎推广的核心思想是什么? 新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。搜索引擎营销的核心思想对网站推广策略的指导意义“搜索引擎推广是基于网站有效文字信息的推广”,这一指导思想对制定网站推广策略的指导意义表现在几个方面:网站推广需要有效的网站内容网站的有效内容,亦即对网站推广有价值的内容。
  增加网站内容在的作用首先表现在满足用户获取信息方面,这是任何网站发布内容的基本目的,从直接浏览者的角度来看,网上的信息通常并不能完全满足所有 使用搜索引擎营销的企业行业用户的需要,每增加一个网页的内容,也就意味着为满足用户的信息需求需求增加了一点努力。因此网站内容策略的基本出发点是可以为用户提供有效的信息和服务,这样,无论用户通过哪种渠道来到网站,都可以获得尽可能详尽的信息。在满足用户这一基本需求的前提下,网站内容还应考虑到搜索引擎的收录和检索规律,这样可以为用户通过搜索引擎获取网站信息带来更多的机会。搜索引擎收录的信息量是以网页数为单位的,被收录的每一个网页都有被用户发现的机会,也只有被搜索引擎收录才能获得搜索引擎推广的机会。因此,通过增加网站内容而实现网站推广的策略,本质上仍然是搜索引擎推广方法的一种具体应用形式,应服从于搜索引擎营销的一般原理。网页内容是否具有网站推广的价值,不仅依赖于搜索引擎,也取决于用户使用搜索引擎的行为,只有做到网页内容被搜索引擎收录,并且在用户利用某些关键词检索时出现在检索结果靠前的位置,才有可能被用户发现并引起进一步的兴趣。网络营销的基本任务之一就是利用互联网手段将营销信息传递给目标用户,网站的内容策略正是实现这一基本任务的具体方法之一。
  网站内容策略与网站推广策略密不可分新竞争力的研究认为,网站推广是个系统工程,不仅网站建设的专业水平、网站的功能和结构等因素与网站推广策略和网站推广效果直接相关,网站的内容策略同样直接影响着网站推广的效果。只是在一般网站 搜索引擎营销关键因素推广策略方面,对网站内容策略的研究比较少,或者很少将网站内容策略与网站推广策略联系起来。考虑到网站内容对于网站推广的意义之后,便于协调网站内容策略与网站推广策略之间的关系,两者均为网络营销策略的重要组成部分,应在网络营销总体策略层面得到统一。前述分析说明,有效的网站内容对于网站推广策略如此重要,多一个网页,只要包含有效关键词,那么在搜索结果中就多了一次被用户发现的机会,但是实际上并不是每个网站都有很多内容,尤其是用户感兴趣的内容,因此显得内容贫乏,这种状况在许多中小型网站上尤为普遍,好像除了公司简介、产品简介之外,再没有其他内容可以发布了。那么,应该如何增加网站的有效内容?这正是许多企业网站面临的网站推广难题之一。对此,网上营销新观察进行的专题研究结论是,增加网站内容的途径可以从网站内部和外部两个方面的资源来考虑增加内容:(1)充分利用内部资源,也就是对网站现有内容的进行合理的包装、优化和扩展;(2)合理利用外部资源,包括利用合作伙伴的资源、利用相关的信息资源,以及将企业的信息资源通过其他网站进行传播等
  
  
  不关注
  
  就捣蛋
   查看全部

  搜索引擎营销核心思路
  
  再不点蓝字关注,机会就要飞走了哦 搜索引擎目前仍然是最主要的网站推广手段之一,尤其基于自然搜索结果的搜索引擎推广,到目前为止 搜索引擎营销四个目标层次仍然是免费的,因此受到众多中小网站的重视,搜索引擎营销方法也成为网络营销方法体系的主要组成部分。目前对于搜索引擎营销的研究,无论是对于搜索引擎优化还是付费搜索引擎广告,基本上都处于操作层面,如果要对这些具体的操作方法和技巧归纳为搜索引擎推广的一般规律时,有必要提出这样的问题:搜索引擎推广的核心思想是什么? 新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。搜索引擎营销的核心思想对网站推广策略的指导意义“搜索引擎推广是基于网站有效文字信息的推广”,这一指导思想对制定网站推广策略的指导意义表现在几个方面:网站推广需要有效的网站内容网站的有效内容,亦即对网站推广有价值的内容。
  增加网站内容在的作用首先表现在满足用户获取信息方面,这是任何网站发布内容的基本目的,从直接浏览者的角度来看,网上的信息通常并不能完全满足所有 使用搜索引擎营销的企业行业用户的需要,每增加一个网页的内容,也就意味着为满足用户的信息需求需求增加了一点努力。因此网站内容策略的基本出发点是可以为用户提供有效的信息和服务,这样,无论用户通过哪种渠道来到网站,都可以获得尽可能详尽的信息。在满足用户这一基本需求的前提下,网站内容还应考虑到搜索引擎的收录和检索规律,这样可以为用户通过搜索引擎获取网站信息带来更多的机会。搜索引擎收录的信息量是以网页数为单位的,被收录的每一个网页都有被用户发现的机会,也只有被搜索引擎收录才能获得搜索引擎推广的机会。因此,通过增加网站内容而实现网站推广的策略,本质上仍然是搜索引擎推广方法的一种具体应用形式,应服从于搜索引擎营销的一般原理。网页内容是否具有网站推广的价值,不仅依赖于搜索引擎,也取决于用户使用搜索引擎的行为,只有做到网页内容被搜索引擎收录,并且在用户利用某些关键词检索时出现在检索结果靠前的位置,才有可能被用户发现并引起进一步的兴趣。网络营销的基本任务之一就是利用互联网手段将营销信息传递给目标用户,网站的内容策略正是实现这一基本任务的具体方法之一。
  网站内容策略与网站推广策略密不可分新竞争力的研究认为,网站推广是个系统工程,不仅网站建设的专业水平、网站的功能和结构等因素与网站推广策略和网站推广效果直接相关,网站的内容策略同样直接影响着网站推广的效果。只是在一般网站 搜索引擎营销关键因素推广策略方面,对网站内容策略的研究比较少,或者很少将网站内容策略与网站推广策略联系起来。考虑到网站内容对于网站推广的意义之后,便于协调网站内容策略与网站推广策略之间的关系,两者均为网络营销策略的重要组成部分,应在网络营销总体策略层面得到统一。前述分析说明,有效的网站内容对于网站推广策略如此重要,多一个网页,只要包含有效关键词,那么在搜索结果中就多了一次被用户发现的机会,但是实际上并不是每个网站都有很多内容,尤其是用户感兴趣的内容,因此显得内容贫乏,这种状况在许多中小型网站上尤为普遍,好像除了公司简介、产品简介之外,再没有其他内容可以发布了。那么,应该如何增加网站的有效内容?这正是许多企业网站面临的网站推广难题之一。对此,网上营销新观察进行的专题研究结论是,增加网站内容的途径可以从网站内部和外部两个方面的资源来考虑增加内容:(1)充分利用内部资源,也就是对网站现有内容的进行合理的包装、优化和扩展;(2)合理利用外部资源,包括利用合作伙伴的资源、利用相关的信息资源,以及将企业的信息资源通过其他网站进行传播等
  
  
  不关注
  
  就捣蛋
  

搜索引擎框架介绍

网站优化优采云 发表了文章 • 0 个评论 • 44 次浏览 • 2022-05-21 02:21 • 来自相关话题

  搜索引擎框架介绍
  欢迎将公众号设置为星标,技术文章第一时间看到。我们将一如既往精选技术好文,提供有价值的阅读。如果文章对你有帮助,欢迎点个在看鼓励作者。
  技术经验交流:
  
  一、搜索引擎基础介绍1. 什么是搜索引擎
  搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。
  2. 传统的搜索与搜索引擎对比
  2.1 传统做法
  (1)文档中使用系统的Find查找
  (2)mysql中使用like模糊查询
  存在问题:
  (1)海量数据中不能及时响应,少量数据可以通过传统的MySql建立索引解决
  (2)一些无用词不能进行过滤,没法分词
  (3)数据量大的话难以拓展
  (4)相同的数据难以进行相似度最高的进行排序
  2.2 搜索引擎做法
  (1)存储非结构化的数据
  (2)快速检索和响应我们需要的信息,快-准
  (3)进行相关性的排序,过滤等
  (4)可以去掉停用词(没有特殊含义的词,比如英文的a,is等,中文: 这,的,是等),框架一般支持可以自定义停用词
  二、常见搜索引擎框架介绍与比较1. Java 全文搜索引擎框架 Lucene
  1.1 简介
  Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个搜素引擎需要自己去架构,另外它不支持实时搜索。但是solr和elasticsearch都是基于Lucene封装。
  1.2 优点
  成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持续快速的进步。庞大而活跃的开发社区,大量的开发人员。它只是一个类库,有足够的定制和优化空间:经过简单定制,就可以满足绝大部分常见的需求;经过优化,可以支持 10亿+ 量级的搜索。
  1.3 缺点
  需要额外的开发工作。所有的扩展,分布式,可靠性等都需要自己实现;非实时,从建索引到可以搜索中间有一个时间延迟,而当前的“近实时”(Lucene Near Real Time search)搜索方案的可扩展性有待进一步完善.
  2. Apache Solr
  2.1 简介
  Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
  2.2 优点
  (1)Solr有一个更大、更成熟的用户、开发和贡献者社区。
  (2)支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
  (3)Solr比较成熟、稳定。
  (4)不考虑建索引的同时进行搜索,速度更快。
  2.3 缺点
  建立索引时,搜索效率下降,实时索引搜索效率不高
  3. Elastic Search
  3.1 简介
  ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。
  3.2 优点
  (1)Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。
  (2)Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
  (3)处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。
  (4)Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。
  各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。
  3.3 缺点
  还不够自动(不适合当前新的Index Warmup API)
  4. Elasticsearch 与 Solr 的比较总结
  (1)二者安装都很简单
  (2)Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;
  (3)Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式;
  (4)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供;
  (5)Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch。
  (6)总之,Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用。
  5. Sphinx
  5.1 简介
  Sphinx一个基于SQL的全文检索引擎,特别为一些脚本语言(PHP,Python,Perl,Ruby)设计搜索API接口。
  Sphinx是一个用C++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空间换取事件的策略,在检索速度上,和lucene相差不大,但检索精准度方面Lucene要优于Sphinx,另外在加入中文分词引擎难度方面,Lucene要优于Sphinx.其中Sphinx支持实时搜索,使用起来比较简单方便.
  Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS 的原生支持)
  5.2 特点
  (1)高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
  (2)高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
  (3)可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可 处理100 M 文档);
  (4)提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
  (5)支持分布式搜索;
  (6)支持短语搜索
  (7)提供文档摘要生成
  (8)可作为MySQL的存储引擎提供搜索服务;
  (9)支持布尔、短语、词语相似度等多种检索模式;
  (10)文档支持多个全文检索字段(最大不超过32个);
  (11)文档支持多个额外的属性信息(例如:分组信息,时间戳等);
  (12)支持断词;
  6. Katta
  6.1 简介
  基于 Lucene 的,支持分布式,可扩展,具有容错功能,准实时的搜索方案。
  6.2 优点
  开箱即用,可以与 Hadoop 配合实现分布式。具备扩展和容错机制。
  6.3 缺点
  只是搜索方案,建索引部分还是需要自己实现。在搜索功能上,只实现了最基本的需求。成功案例较少,项目的成熟度稍微差一些。因为需要支持分布式,对于一些复杂的查询需求,定制的难度会比较大。
  三、参考文章 查看全部

  搜索引擎框架介绍
  欢迎将公众号设置为星标,技术文章第一时间看到。我们将一如既往精选技术好文,提供有价值的阅读。如果文章对你有帮助,欢迎点个在看鼓励作者。
  技术经验交流:
  
  一、搜索引擎基础介绍1. 什么是搜索引擎
  搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。
  2. 传统的搜索与搜索引擎对比
  2.1 传统做法
  (1)文档中使用系统的Find查找
  (2)mysql中使用like模糊查询
  存在问题:
  (1)海量数据中不能及时响应,少量数据可以通过传统的MySql建立索引解决
  (2)一些无用词不能进行过滤,没法分词
  (3)数据量大的话难以拓展
  (4)相同的数据难以进行相似度最高的进行排序
  2.2 搜索引擎做法
  (1)存储非结构化的数据
  (2)快速检索和响应我们需要的信息,快-准
  (3)进行相关性的排序,过滤等
  (4)可以去掉停用词(没有特殊含义的词,比如英文的a,is等,中文: 这,的,是等),框架一般支持可以自定义停用词
  二、常见搜索引擎框架介绍与比较1. Java 全文搜索引擎框架 Lucene
  1.1 简介
  Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个搜素引擎需要自己去架构,另外它不支持实时搜索。但是solr和elasticsearch都是基于Lucene封装。
  1.2 优点
  成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持续快速的进步。庞大而活跃的开发社区,大量的开发人员。它只是一个类库,有足够的定制和优化空间:经过简单定制,就可以满足绝大部分常见的需求;经过优化,可以支持 10亿+ 量级的搜索。
  1.3 缺点
  需要额外的开发工作。所有的扩展,分布式,可靠性等都需要自己实现;非实时,从建索引到可以搜索中间有一个时间延迟,而当前的“近实时”(Lucene Near Real Time search)搜索方案的可扩展性有待进一步完善.
  2. Apache Solr
  2.1 简介
  Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
  2.2 优点
  (1)Solr有一个更大、更成熟的用户、开发和贡献者社区。
  (2)支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
  (3)Solr比较成熟、稳定。
  (4)不考虑建索引的同时进行搜索,速度更快。
  2.3 缺点
  建立索引时,搜索效率下降,实时索引搜索效率不高
  3. Elastic Search
  3.1 简介
  ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。
  3.2 优点
  (1)Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。
  (2)Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
  (3)处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。
  (4)Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。
  各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。
  3.3 缺点
  还不够自动(不适合当前新的Index Warmup API)
  4. Elasticsearch 与 Solr 的比较总结
  (1)二者安装都很简单
  (2)Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;
  (3)Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式;
  (4)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供;
  (5)Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch。
  (6)总之,Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用。
  5. Sphinx
  5.1 简介
  Sphinx一个基于SQL的全文检索引擎,特别为一些脚本语言(PHP,Python,Perl,Ruby)设计搜索API接口。
  Sphinx是一个用C++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空间换取事件的策略,在检索速度上,和lucene相差不大,但检索精准度方面Lucene要优于Sphinx,另外在加入中文分词引擎难度方面,Lucene要优于Sphinx.其中Sphinx支持实时搜索,使用起来比较简单方便.
  Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS 的原生支持)
  5.2 特点
  (1)高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
  (2)高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
  (3)可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可 处理100 M 文档);
  (4)提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
  (5)支持分布式搜索;
  (6)支持短语搜索
  (7)提供文档摘要生成
  (8)可作为MySQL的存储引擎提供搜索服务;
  (9)支持布尔、短语、词语相似度等多种检索模式;
  (10)文档支持多个全文检索字段(最大不超过32个);
  (11)文档支持多个额外的属性信息(例如:分组信息,时间戳等);
  (12)支持断词;
  6. Katta
  6.1 简介
  基于 Lucene 的,支持分布式,可扩展,具有容错功能,准实时的搜索方案。
  6.2 优点
  开箱即用,可以与 Hadoop 配合实现分布式。具备扩展和容错机制。
  6.3 缺点
  只是搜索方案,建索引部分还是需要自己实现。在搜索功能上,只实现了最基本的需求。成功案例较少,项目的成熟度稍微差一些。因为需要支持分布式,对于一些复杂的查询需求,定制的难度会比较大。
  三、参考文章

聊聊搜索引擎--网页处理篇

网站优化优采云 发表了文章 • 0 个评论 • 34 次浏览 • 2022-05-21 02:21 • 来自相关话题

  聊聊搜索引擎--网页处理篇
  前面的一篇文章发得有点匆忙,主要是想在大家过节前发一篇,别浪费了公众号的发送次数。上文《》谈的是爬虫部分。文章里提到之前写过两篇有关搜索的文章,忘了链接过去了,这里放一下,方便有兴趣的读者阅读。
  《》
  《》
  前文提到,搜索引擎一般可以分为爬虫模块,网页处理,索引模块,检索模块,排序模块几个模块。爬虫负责抓取数据,算是数据生产方。今天我们要说的是数据的加工部门。也就是网页处理。
  网页处理在大部分介绍里,都算在爬虫部分。我呆过的第一家公司,并没有网页处理相关的小组。我当时基本上算是最主要的网页处理工程师了,写了包括网页解析基础库,各种网页里的质量信号的抽取等。不过我呆过的第二家搜索公司,当时有一个小组是专门做网页解析的。当然,本文要谈的不局限于网页解析,而是在索引之前的搜索特征提取。在我做搜索的时候,机器学习还没那么火,我们一般叫质量信号之类的。但是这些质量信号,主要是服务排序的,排序作为一个机器学习任务,使用到的因素,我们称之为特征比较好理解。而网页解析等大部分工作,可以看成网页排序这个复杂Task的特征工程。
  Index pipeline
  在一个网页搜索中,完整的index pipeline 很复杂,涉及到死链检测,soft 404页面检测,标题抽取,正文抽取,网页发布时间抽取,结构化信息抽取(比如论坛的各个帖子的内容,作者,时间等。再比如电影的导演,主演,名字,别名等),host rank 计算,page rank计算,色情页面检测,垃圾页面检测,作弊网页检测,重复页面检测,病毒页面检测等等。
  Html Parser
  那么要完成这么多的搜索排序的特征工程,首先我们需要打造一个方便易用的网页解析库。一般我们会实现一个html parser, 基本DomTree 或者是SAX。编写一个这样的引擎并不容易。解析一个网页比较容易,但是要能够解析几千亿的网页而不crash,并且碰到网页很大(比如超过2M),或者网页很病态(比如只有open tag, 没有close tag),解析的速度还能够很快,并且内存依然不会爆掉,需要对这个网页解析库进行千锤百炼。当然,网上已经有了不少开源的解析库了。不过大部分情况是这样的,要不接口不友好,要不性能糟糕,要么代码风格不好。之前谷歌也开源了一个网页解析的项目,我们测试下来,性能实在是跟不上,不太适合搜索引擎。
  Xpath
  网页解析除了html parser ,一般还需要方便工程师进行网页信息抽取,最好是基于配置文件进行抽取,因此一般需要支持xpath 查询语言。Xpath 的资料网上很丰富,大家有兴趣可以结合XML语言去学习了解。那如何高效支持 Xpath 进行信息抽取,甚至基于整个配置文件来抽取某一类网页,甚至某一类网站的多种信息抽取,就又有更高level的需求了,比如是否实现一个template config parser 之类的解析库。 核心诉求是,配置规则很简单,方便易学,甚至可以找一些三四千块钱的编辑就可以进行配置。那么怎么把这个库实现得优雅高效,方便易学,甚至如何开发出一些配套的浏览器工具,便是这块的核心竞争力。据我所知,百度等搜索公司对这方面都花了不少研发精力。
  网页解析这里有一个核心竞争力在于,如何利用你的工程能力,对网页解析库这样底层的基础工具进行性能优化,比如优化个10-20%,或者优化了三五倍的性能出来,那整体的搜索引擎相关的计算集群资源,就能得到很大的改进,省出来的银子,不见得比索引性能优化,或者是检索性能优化,或者是各种机器学习模型的排序性能优化来得少。
  CSS Parser
  网页解析还有好几个有挑战的事情,比如要解析出来网页里字体的大小(字体很小也是作弊的手段之一),颜色(颜色搞成和背景色一样,也是作弊的手段之一),或者是文字是否可见(常规的作弊手段之一)等,都是需要比较高阶的解析的。如果学过网页设计,大家应该知道这块需要对CSS进行解析。CSS一般分为tag 内部的,html 文件内的,外部CSS文件等。那么如何高效地进行CSS文件,并与HTML解析结果进行结合,就有不少工作值得深入。
  此外,CSS文件的压缩和存储/读取,也有一定的挑战。原因在于,不像html 这样,大部分网页的内容差异都比较大,CSS 一般是给一个网站,或者是一类风格的网页设计的,文件的规模比较少。有一些建站工具做出来的,甚至大部分CSS都一样。既然CSS文件的内容有特殊的规律,那么针对CSS的压缩,可能就会存在特殊的算法。还有一个问题是,网页的内容可能不会变,但是网页的风格却可能会被更新。在网页解析的时候,往往一次性分析百亿级别的网页,那如何高效读取各个网页对应的CSS文件呢?实时抓取么?还是存在mysql ? Nosql ? 还是怎么去特殊处理?
  CSS 文件怎么解析呢? 也有不少开源的项目,当然也可以参考各大浏览器开源项目。不过浏览器项目里一般代码依赖比较复杂,很难单独抽取出来。
  Javascript
  其实这部分放在爬虫部分更合适。在抓取的时候,往往会碰到页面跳转,或者是有一部分关键的网页内容,是在页面本身加载完毕后,才开始动态加载的。比如做新闻的Hub页抓取的时候,往往会发现我们想要的新闻内容页的链接信息,是通过 js 来生成的。那怎么办?如果只是抓取一个网站,当然我们可以通过抓包分析,靠人工来总结浏览器背后的网络行为,然后写代码模拟浏览器的行为。通用点的,公司内搭建或者开发一套浏览器抓取的方案,特殊的网页,都使用这些特殊的抓取服务来抓,这样在下游做网页解析的时候,看到的 html 都是一样带有我们想要抽取的页面内容的了。
  之所以放在这部分,很简单,js 是一门脚本语言,脚本语言的执行,其实也可以看成解析引擎在跑,只是这里的解析是脚本语言,而不是HTML 或者 XML 这样的标记语言。
  网页特征抽取
  不仅是搜索排序需要网页特征抽取,挂在网页里的广告系统,也需要使用到网页相关的信息,以判定哪些网页和哪些商业关键词更相关。
  那么前面提到的特种网页特征,活学活用上面提到的一些解析引擎就差不多了。当然做这个工作,很多时候需要有一双善于观察的眼睛。主要是几个原因:
  和网页处理相关的话题,其中有一个是非常重要的,一个是page rank, host rank, 一个是反作弊。Pagerank 的资料网上可以说是汗牛充栋了,谷歌和百度的创始人们,也都有这方面的论文或者专利。感兴趣的读者建议直接找一些相关的论文来阅读。
  反作弊和SEO
  说到反作弊,有兴趣的可以看谷歌反作弊工程师的博客。网址忘了,自己搜索。业界很多做SEO的人,据说都会去阅读上面的文章并做各种研究。反作弊和作弊这个事儿,和信息安全与病毒的关系差不多,因为作弊能够带来商业上的好处,所以商业搜索引擎和作弊者的斗争永远没有结束的时候。道高一尺魔高一丈,这会这些作弊的策略骗过了搜索引擎,明天可能就整站被下掉了。
  说过反作弊和SEO,往往外面的人觉得做搜索引擎开发的工程师都有特权,知道怎么去操纵网页的权重,其实都是想多了。一来,这事儿不是谁都懂,二来,这事儿关乎职场道德,三来,这事儿值钱的话,我为啥免费给你干?
  当然,反作弊的工作,往往也会干倒一大批,误伤三五家。我身边就有几个朋友曾经碰到类似的情况,托我帮找朋友去解决问题。
  反作弊的话题和SEO的话题都挺大的,我自己也不太删除。SEO之前曾经阅读过一本专著,好像是新加坡的一个哥们写的,现在忘了差不多了,不过大概的策略倒是和搜索排序的因子差不多正相关的。反作弊的话题,我记得吴军的《数学之美》曾有专门章节论述,有兴趣的同学也可以找来看看。吴军在谷歌的时候,应该专门从事过一段时间反作弊系统的研发。
  好了,这部分话题先分享到这里,下文分享下索引相关的话题。 查看全部

  聊聊搜索引擎--网页处理篇
  前面的一篇文章发得有点匆忙,主要是想在大家过节前发一篇,别浪费了公众号的发送次数。上文《》谈的是爬虫部分。文章里提到之前写过两篇有关搜索的文章,忘了链接过去了,这里放一下,方便有兴趣的读者阅读。
  《》
  《》
  前文提到,搜索引擎一般可以分为爬虫模块,网页处理,索引模块,检索模块,排序模块几个模块。爬虫负责抓取数据,算是数据生产方。今天我们要说的是数据的加工部门。也就是网页处理。
  网页处理在大部分介绍里,都算在爬虫部分。我呆过的第一家公司,并没有网页处理相关的小组。我当时基本上算是最主要的网页处理工程师了,写了包括网页解析基础库,各种网页里的质量信号的抽取等。不过我呆过的第二家搜索公司,当时有一个小组是专门做网页解析的。当然,本文要谈的不局限于网页解析,而是在索引之前的搜索特征提取。在我做搜索的时候,机器学习还没那么火,我们一般叫质量信号之类的。但是这些质量信号,主要是服务排序的,排序作为一个机器学习任务,使用到的因素,我们称之为特征比较好理解。而网页解析等大部分工作,可以看成网页排序这个复杂Task的特征工程。
  Index pipeline
  在一个网页搜索中,完整的index pipeline 很复杂,涉及到死链检测,soft 404页面检测,标题抽取,正文抽取,网页发布时间抽取,结构化信息抽取(比如论坛的各个帖子的内容,作者,时间等。再比如电影的导演,主演,名字,别名等),host rank 计算,page rank计算,色情页面检测,垃圾页面检测,作弊网页检测,重复页面检测,病毒页面检测等等。
  Html Parser
  那么要完成这么多的搜索排序的特征工程,首先我们需要打造一个方便易用的网页解析库。一般我们会实现一个html parser, 基本DomTree 或者是SAX。编写一个这样的引擎并不容易。解析一个网页比较容易,但是要能够解析几千亿的网页而不crash,并且碰到网页很大(比如超过2M),或者网页很病态(比如只有open tag, 没有close tag),解析的速度还能够很快,并且内存依然不会爆掉,需要对这个网页解析库进行千锤百炼。当然,网上已经有了不少开源的解析库了。不过大部分情况是这样的,要不接口不友好,要不性能糟糕,要么代码风格不好。之前谷歌也开源了一个网页解析的项目,我们测试下来,性能实在是跟不上,不太适合搜索引擎。
  Xpath
  网页解析除了html parser ,一般还需要方便工程师进行网页信息抽取,最好是基于配置文件进行抽取,因此一般需要支持xpath 查询语言。Xpath 的资料网上很丰富,大家有兴趣可以结合XML语言去学习了解。那如何高效支持 Xpath 进行信息抽取,甚至基于整个配置文件来抽取某一类网页,甚至某一类网站的多种信息抽取,就又有更高level的需求了,比如是否实现一个template config parser 之类的解析库。 核心诉求是,配置规则很简单,方便易学,甚至可以找一些三四千块钱的编辑就可以进行配置。那么怎么把这个库实现得优雅高效,方便易学,甚至如何开发出一些配套的浏览器工具,便是这块的核心竞争力。据我所知,百度等搜索公司对这方面都花了不少研发精力。
  网页解析这里有一个核心竞争力在于,如何利用你的工程能力,对网页解析库这样底层的基础工具进行性能优化,比如优化个10-20%,或者优化了三五倍的性能出来,那整体的搜索引擎相关的计算集群资源,就能得到很大的改进,省出来的银子,不见得比索引性能优化,或者是检索性能优化,或者是各种机器学习模型的排序性能优化来得少。
  CSS Parser
  网页解析还有好几个有挑战的事情,比如要解析出来网页里字体的大小(字体很小也是作弊的手段之一),颜色(颜色搞成和背景色一样,也是作弊的手段之一),或者是文字是否可见(常规的作弊手段之一)等,都是需要比较高阶的解析的。如果学过网页设计,大家应该知道这块需要对CSS进行解析。CSS一般分为tag 内部的,html 文件内的,外部CSS文件等。那么如何高效地进行CSS文件,并与HTML解析结果进行结合,就有不少工作值得深入。
  此外,CSS文件的压缩和存储/读取,也有一定的挑战。原因在于,不像html 这样,大部分网页的内容差异都比较大,CSS 一般是给一个网站,或者是一类风格的网页设计的,文件的规模比较少。有一些建站工具做出来的,甚至大部分CSS都一样。既然CSS文件的内容有特殊的规律,那么针对CSS的压缩,可能就会存在特殊的算法。还有一个问题是,网页的内容可能不会变,但是网页的风格却可能会被更新。在网页解析的时候,往往一次性分析百亿级别的网页,那如何高效读取各个网页对应的CSS文件呢?实时抓取么?还是存在mysql ? Nosql ? 还是怎么去特殊处理?
  CSS 文件怎么解析呢? 也有不少开源的项目,当然也可以参考各大浏览器开源项目。不过浏览器项目里一般代码依赖比较复杂,很难单独抽取出来。
  Javascript
  其实这部分放在爬虫部分更合适。在抓取的时候,往往会碰到页面跳转,或者是有一部分关键的网页内容,是在页面本身加载完毕后,才开始动态加载的。比如做新闻的Hub页抓取的时候,往往会发现我们想要的新闻内容页的链接信息,是通过 js 来生成的。那怎么办?如果只是抓取一个网站,当然我们可以通过抓包分析,靠人工来总结浏览器背后的网络行为,然后写代码模拟浏览器的行为。通用点的,公司内搭建或者开发一套浏览器抓取的方案,特殊的网页,都使用这些特殊的抓取服务来抓,这样在下游做网页解析的时候,看到的 html 都是一样带有我们想要抽取的页面内容的了。
  之所以放在这部分,很简单,js 是一门脚本语言,脚本语言的执行,其实也可以看成解析引擎在跑,只是这里的解析是脚本语言,而不是HTML 或者 XML 这样的标记语言。
  网页特征抽取
  不仅是搜索排序需要网页特征抽取,挂在网页里的广告系统,也需要使用到网页相关的信息,以判定哪些网页和哪些商业关键词更相关。
  那么前面提到的特种网页特征,活学活用上面提到的一些解析引擎就差不多了。当然做这个工作,很多时候需要有一双善于观察的眼睛。主要是几个原因:
  和网页处理相关的话题,其中有一个是非常重要的,一个是page rank, host rank, 一个是反作弊。Pagerank 的资料网上可以说是汗牛充栋了,谷歌和百度的创始人们,也都有这方面的论文或者专利。感兴趣的读者建议直接找一些相关的论文来阅读。
  反作弊和SEO
  说到反作弊,有兴趣的可以看谷歌反作弊工程师的博客。网址忘了,自己搜索。业界很多做SEO的人,据说都会去阅读上面的文章并做各种研究。反作弊和作弊这个事儿,和信息安全与病毒的关系差不多,因为作弊能够带来商业上的好处,所以商业搜索引擎和作弊者的斗争永远没有结束的时候。道高一尺魔高一丈,这会这些作弊的策略骗过了搜索引擎,明天可能就整站被下掉了。
  说过反作弊和SEO,往往外面的人觉得做搜索引擎开发的工程师都有特权,知道怎么去操纵网页的权重,其实都是想多了。一来,这事儿不是谁都懂,二来,这事儿关乎职场道德,三来,这事儿值钱的话,我为啥免费给你干?
  当然,反作弊的工作,往往也会干倒一大批,误伤三五家。我身边就有几个朋友曾经碰到类似的情况,托我帮找朋友去解决问题。
  反作弊的话题和SEO的话题都挺大的,我自己也不太删除。SEO之前曾经阅读过一本专著,好像是新加坡的一个哥们写的,现在忘了差不多了,不过大概的策略倒是和搜索排序的因子差不多正相关的。反作弊的话题,我记得吴军的《数学之美》曾有专门章节论述,有兴趣的同学也可以找来看看。吴军在谷歌的时候,应该专门从事过一段时间反作弊系统的研发。
  好了,这部分话题先分享到这里,下文分享下索引相关的话题。

搜索引擎进行信息检索的优化策略方法-上海怡健医学

网站优化优采云 发表了文章 • 0 个评论 • 59 次浏览 • 2022-05-18 18:04 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法-上海怡健医学
  搜索引擎进行信息检索的优化策略方法1.总体策略locally+not-recall值对商品重要性进行评估locallyanalyzedkeywords;以找出关键词最为关键的字组做为最先找到的关键词与其进行评估locallyimprovedtherankingpractice;使商品呈现出重要性,可选择符合要求的另一商品进行排序locallyadjustedthesolutionoforganizedtothesiteelementatetothetoplist;使用框架的字段拼接进行方案设计,允许多个关键字组进行竞争,但取出那些,实际用户搜索次数较少的关键字locallydefinedtheassets;找出并剔除对于构建大型数据集,这点很重要---这样可以简化框架数据结构简化机器学习模型2.字段设计风格采用某一小类的一个特征来配置整个模型是有效的,与其关联的字段可以有各种可能,比如此关键字是属于手机的,那么可以有not-recall取平均,那么可以就有money,wash,fancy的中文字段。
  你可以考虑属性之间的关系,比如你是无线商品,那么你是否为相似商品呢?也可以考虑下整个商品的特征所在库中是否有索引,比如系统的业务有多少条商品相似的查询?你可以用linguisticas_key()字段模拟查询n.可以用集合的字段配置商品类别(如not-recallunion)4.对于数据的取样采用特征随机去重后nms+shufflenetcrf等。 查看全部

  搜索引擎进行信息检索的优化策略方法-上海怡健医学
  搜索引擎进行信息检索的优化策略方法1.总体策略locally+not-recall值对商品重要性进行评估locallyanalyzedkeywords;以找出关键词最为关键的字组做为最先找到的关键词与其进行评估locallyimprovedtherankingpractice;使商品呈现出重要性,可选择符合要求的另一商品进行排序locallyadjustedthesolutionoforganizedtothesiteelementatetothetoplist;使用框架的字段拼接进行方案设计,允许多个关键字组进行竞争,但取出那些,实际用户搜索次数较少的关键字locallydefinedtheassets;找出并剔除对于构建大型数据集,这点很重要---这样可以简化框架数据结构简化机器学习模型2.字段设计风格采用某一小类的一个特征来配置整个模型是有效的,与其关联的字段可以有各种可能,比如此关键字是属于手机的,那么可以有not-recall取平均,那么可以就有money,wash,fancy的中文字段。
  你可以考虑属性之间的关系,比如你是无线商品,那么你是否为相似商品呢?也可以考虑下整个商品的特征所在库中是否有索引,比如系统的业务有多少条商品相似的查询?你可以用linguisticas_key()字段模拟查询n.可以用集合的字段配置商品类别(如not-recallunion)4.对于数据的取样采用特征随机去重后nms+shufflenetcrf等。

国内数据库对搜索引擎进行信息检索的优化策略方法

网站优化优采云 发表了文章 • 0 个评论 • 46 次浏览 • 2022-05-15 01:01 • 来自相关话题

  国内数据库对搜索引擎进行信息检索的优化策略方法
  搜索引擎进行信息检索的优化策略方法十多年来,搜索引擎优化一直是一项长期的技术工作,对搜索引擎内部很多相关过程都进行了梳理和分析,获得了很多相关的知识。然而搜索引擎优化的传统方法无法获得目标网站的内容的相关性分析的基础,所以搜索引擎方法一直作为基础方法来使用。所以,中国知网等国内数据库对这些方法来说可以作为第一步。
  搜索引擎优化主要思想是在满足内容搜索规律的前提下,通过各种手段降低用户点击搜索结果的概率,最大化用户体验。那么我们将搜索引擎优化分成两个阶段,提供相关性和改进用户体验。第一阶段(提供相关性):打破原网站旧的搜索结果信息,建立新的网站结果,提供新的内容,也就是原网站信息为搜索引擎优化第一阶段提供的内容,并针对网站,服务器及时修正搜索结果。
  提供新信息会直接提高网站的排名。同时可以找到更多的潜在信息,获得更多的潜在信息,也会提高网站排名。在提供这些新内容的同时,也会根据网站内容进行调整和更新,网站速度也会变快。提供相关性的同时,这些新内容也需要进行同步更新,也会加大网站传播速度,加快网站扩张速度。现有内容为搜索引擎优化方法带来了更多的信息。
  这些信息用来拓展搜索内容的可能性,搜索量也会越来越大。此时搜索引擎优化有些类似与百度这样大量的使用用户对于新内容的搜索方式。在新内容设置中有一个设置,就是在内容设置中选择是否要进行适当的网络爬虫抓取。如果无这个选项,由于搜索引擎的爬虫会对第一网站进行抓取,会提高网站的内容爬取率。速度也会加快。并且会直接产生一个优化效果,由于百度大量的爬虫爬取的原因,新内容也会不断地进入第一网站。 查看全部

  国内数据库对搜索引擎进行信息检索的优化策略方法
  搜索引擎进行信息检索的优化策略方法十多年来,搜索引擎优化一直是一项长期的技术工作,对搜索引擎内部很多相关过程都进行了梳理和分析,获得了很多相关的知识。然而搜索引擎优化的传统方法无法获得目标网站的内容的相关性分析的基础,所以搜索引擎方法一直作为基础方法来使用。所以,中国知网等国内数据库对这些方法来说可以作为第一步。
  搜索引擎优化主要思想是在满足内容搜索规律的前提下,通过各种手段降低用户点击搜索结果的概率,最大化用户体验。那么我们将搜索引擎优化分成两个阶段,提供相关性和改进用户体验。第一阶段(提供相关性):打破原网站旧的搜索结果信息,建立新的网站结果,提供新的内容,也就是原网站信息为搜索引擎优化第一阶段提供的内容,并针对网站,服务器及时修正搜索结果。
  提供新信息会直接提高网站的排名。同时可以找到更多的潜在信息,获得更多的潜在信息,也会提高网站排名。在提供这些新内容的同时,也会根据网站内容进行调整和更新,网站速度也会变快。提供相关性的同时,这些新内容也需要进行同步更新,也会加大网站传播速度,加快网站扩张速度。现有内容为搜索引擎优化方法带来了更多的信息。
  这些信息用来拓展搜索内容的可能性,搜索量也会越来越大。此时搜索引擎优化有些类似与百度这样大量的使用用户对于新内容的搜索方式。在新内容设置中有一个设置,就是在内容设置中选择是否要进行适当的网络爬虫抓取。如果无这个选项,由于搜索引擎的爬虫会对第一网站进行抓取,会提高网站的内容爬取率。速度也会加快。并且会直接产生一个优化效果,由于百度大量的爬虫爬取的原因,新内容也会不断地进入第一网站。

检索技巧 | 这些科技信息检索技巧,学到了吗?

网站优化优采云 发表了文章 • 0 个评论 • 110 次浏览 • 2022-05-14 19:25 • 来自相关话题

  检索技巧 | 这些科技信息检索技巧,学到了吗?
  
  据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
  二、科技信息检索的技巧
  (一)数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库,则可以选择中国知网。
  (二)检索字段的选取与确认
  检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  (三)检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  (四)检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
  (五)特殊检索符的巧用
  不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1、双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2、减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家
  乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3、逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4、位置算符。
  (1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  (2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
  5、布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  (1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。
  (2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6、截词符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
  (六)其他重要检索事项
  1、注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2、搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(metawords)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
  
  全文获取:知网篇名检索“科技信息检索的技巧” 查看全部

  检索技巧 | 这些科技信息检索技巧,学到了吗?
  
  据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
  二、科技信息检索的技巧
  (一)数据库的选择
  数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库,则可以选择中国知网。
  (二)检索字段的选取与确认
  检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。
  (三)检索范围的调整
  在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。
  (四)检索策略的优化
  采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
  (五)特殊检索符的巧用
  不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
  1、双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。
  2、减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家
  乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
  3、逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
  4、位置算符。
  (1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。
  (2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
  5、布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。
  (1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。
  (2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
  6、截词符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
  (六)其他重要检索事项
  1、注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
  2、搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(metawords)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。
  检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
  
  全文获取:知网篇名检索“科技信息检索的技巧”

外贸业务员应该知道的搜索引擎查询方法

网站优化优采云 发表了文章 • 0 个评论 • 55 次浏览 • 2022-05-14 04:35 • 来自相关话题

  外贸业务员应该知道的搜索引擎查询方法
  
  所谓搜索引擎,是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。从用户的角度来讲,搜索引擎就是帮助用户方便地查询网上信息的。而对于外贸业务员,那么搜索引擎就可以被用来寻找客户、查询客户信息等。 但是如果外贸业务员不熟悉搜索引擎的话,往往输入搜索词后出现了成百上千个查询结果,而这些结果中并没有多少想要的东西。面对着一堆信息垃圾,可想而知这时业务员的心情该是如何的沮丧。不过,这不是因为搜索引擎没有用,而是由于外贸业务员没能很好地驾驭它,没有掌握它的使用技巧,才导致这样的后果。 其实,每个搜索引擎都有自己的查询方法,只有熟练的掌握它才能运用自如。虽然,不同的搜索引擎提供的查询方法不完全相同,但是一些通用的查询方法,各个搜索引擎基本上都具有,下面就逐一介绍一些常用的查询方法。 一、简单查询 在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。 二、使用双引号("") 给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。
  例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。 三、使用加号(+) 在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 四、使用减号(-) 在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。 五、使用通配符(*和?) 通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。 六、使用布尔检索 所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
   and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book; or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book; not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车); near,它表示两个关键词之间的词距不能超过n个单词。 在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。 七、使用括号 当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。 八、使用元词检索 大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。
  例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domain:org”,就可以查到所有以org为后缀的网站。其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。 九、区分大小写 这是检索英文信息时要注意的一个问题,许多英文搜索引擎如谷歌(Google)可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网。 当然,以上列举的搜索引擎查询技巧只是一些最基础的,但也是外贸业务员最需要了解的搜索引擎查询方法。然而,想要获取查询到更直接、更有效的信息,外贸业务员就应该选择好查询用的关键词或者关键词组合。 查看全部

  外贸业务员应该知道的搜索引擎查询方法
  
  所谓搜索引擎,是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。从用户的角度来讲,搜索引擎就是帮助用户方便地查询网上信息的。而对于外贸业务员,那么搜索引擎就可以被用来寻找客户、查询客户信息等。 但是如果外贸业务员不熟悉搜索引擎的话,往往输入搜索词后出现了成百上千个查询结果,而这些结果中并没有多少想要的东西。面对着一堆信息垃圾,可想而知这时业务员的心情该是如何的沮丧。不过,这不是因为搜索引擎没有用,而是由于外贸业务员没能很好地驾驭它,没有掌握它的使用技巧,才导致这样的后果。 其实,每个搜索引擎都有自己的查询方法,只有熟练的掌握它才能运用自如。虽然,不同的搜索引擎提供的查询方法不完全相同,但是一些通用的查询方法,各个搜索引擎基本上都具有,下面就逐一介绍一些常用的查询方法。 一、简单查询 在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。 二、使用双引号("") 给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。
  例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。 三、使用加号(+) 在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 四、使用减号(-) 在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。 五、使用通配符(*和?) 通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。 六、使用布尔检索 所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
   and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book; or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book; not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车); near,它表示两个关键词之间的词距不能超过n个单词。 在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。 七、使用括号 当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。 八、使用元词检索 大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。
  例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domain:org”,就可以查到所有以org为后缀的网站。其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。 九、区分大小写 这是检索英文信息时要注意的一个问题,许多英文搜索引擎如谷歌(Google)可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网。 当然,以上列举的搜索引擎查询技巧只是一些最基础的,但也是外贸业务员最需要了解的搜索引擎查询方法。然而,想要获取查询到更直接、更有效的信息,外贸业务员就应该选择好查询用的关键词或者关键词组合。

官方客服QQ群

微信人工客服

QQ人工客服


线