搜索引擎关键词优化方法( 本发明提供基于关键词优化实现搜索引擎优化技术的*敏*感*词*)

优采云 发布时间: 2022-02-10 12:18

  搜索引擎关键词优化方法(

本发明提供基于关键词优化实现搜索引擎优化技术的*敏*感*词*)

  

  本发明涉及语义网络技术领域,尤其涉及一种基于关键词优化实现搜索引擎优化的技术。

  背景技术:

  由于关键词优化策略是公认的搜索引擎优化策略,也是整个搜索引擎优化的核心内容。用户在搜索引擎输入信息后,总希望能找到切入信息的相关信息。这里我们称用户输入的信息为“关键词(Keywords)”。关键词 也是搜索引擎在构建索引表时使用的术语。目前很多学者对关键词的提取进行了深入的研究,发现了很多成熟的提取方法,比如使用TFIDF方法提取关键词的方法,就是计算外观对网页中某个词的计算,对于极其重要且不常用的关键词是非常不利的 存在于网页中,实现基于信息熵频率的提取;以信息熵为核心技术从数学角度提取关键词也不是很准确。为了满足上述需求,本发明提供了一种基于关键词优化的搜索引擎优化技术。

  技术实施要素:

  针对网页中关键词提取准确率不够的问题,本发明提供了一种基于关键词优化的搜索引擎优化技术。

  为解决上述问题,本发明通过以下技术方案实现:

  第一步:网页主题内容抓取;

  第二步:对以上文档进行分词;

  第三步:计算词贡献值;

  Step 4:关键词 Grab,即按照每个词的贡献值对词进行排序;

  第五步:关键词插入位置分析;

  第六步:在网页中插入关键词,以达到优化的效果;

  本发明的有益效果是:

  1、提取的关键词排序顺序更符合经验值

  2、为后续长尾关键词优化提供技术支持

  3、在网站优化方面提供更高效的关键词

  4、可以帮助网站在短时间内快速提升其关键词排名。

  图纸说明

  图1 基于关键词优化的搜索引擎优化技术结构流程图

  图 2. n-gram 分词算法*敏*感*词*

  图3 中文文本预处理流程图

  详细说明

  为了解决网页中关键词提取准确率不够的问题,结合图1对本发明进行详细说明。1、其具体实现步骤如下:

  Step 1:网页主题内容爬取,具体描述流程如下:

  一般要爬取的网页分为两部分:一部分是网页的主题内容;另一部分是与主题无关的“页面噪音”,比如广告、推广链接等。其实需要爬取的是网页的主题内容。您可以使用“火狐”的插件“Data Scraper”和“Meta Studio”抓取网页,保留网页的主题内容,去除“网页噪音”,转换抓取的网页主题内容页面转为“Word”格式文档,方便后续操作。

  第二步:对上述文档进行分词。具体分割技术如下:

  步骤2.1:根据“分词词典”,在待分词中找到与词典相匹配的词,扫描待分词字符串,在系统词典中查找匹配。如果字典中没有相关匹配,只需将单个字符分割为一个单词;直到中文字符串为空。

  Step2.2:根据概率统计,将待切分句子拆分成网络结构,即得到n个可能的句子结构组合,依次定义该结构的每个序列节点为SM1M2M3M4M5E,其*敏*感*词*如下图2所示。

  Step2.3:基于信息论方法,对上述网格结构的每条边赋予一定的权重,具体计算过程如下:

  根据“分词词典”匹配的词典词和未匹配的单个词,第i条路径收录的词个数为ni。即n个路径词的数量集是(n1, n2, ..., nn)。

  得到 min()=min(n1, n2, ..., nn)

  在上面剩下的剩余 (nm) 路径中,求解每个相邻路径的权重大小。

  在统计语料库中,计算每个词的信息量X(Ci),然后计算路径中相邻词的共现信息。

  利息金额X(Ci, Ci+1)。有以下公式:

  X(Ci)=|x(Ci)1-x(Ci)2|

  上式x(Ci)1是词Ci在文本语料库中的信息量,x(Ci)2是收录词Ci的文本的信息量。

  x(Ci)1=-p(Ci)1lnp(Ci)1

  上式 p(Ci)1 是 Ci 在文本语料库中的概率,n 是收录单词 Ci 的文本语料库的数量。

  x(Ci)2=-p(Gi)2lnp(Ci)2

  上式p(Ci)2为收录单词Ci的文本数量的概率值,N为统计语料库中文本的总数。

  同样 X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|

  x(Ci, Ci+1)1 为文本语料库中词(Ci, Ci+1)) 的共现信息,x(Ci, Ci+1)2 为相邻词( Ci, Ci+1) 共同出现的文本信息量。

  同理 x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1

  上式p(Ci,Ci+1)1为文本语料库中词(Ci,Ci+1)的共现概率,m为词(Ci,Ci+< @1) 在文本语料库中)存在的文本量。

  x(Ci,Ci+1)2=-P(Ci,Ci+1)2lnp(Ci,Ci+1)2

  p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1))共现的文本个数概率。

  综上,可以得到每条相邻路径的权重为

  w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)

  Step 2.4:找到权重最大的路径,即待分句的分词结果。具体计算过程如下:

  有n条路径,每条路径的长度不同。假设路径长度的集合是(L1, L2, ..., Ln)。

  假设取路径中的最小字数后排除m条路径,m<n。也就是说,剩余的(nm)路径,让路径长度的集合为

  那么每条路径的权重为:

  上面的公式分别是第1和第2到路径边缘的权重值,可以按照步骤1.4一一计算出来,也就是剩下的第Sj个路径的长度( nm) 路径。

  权重最大的路径:

  步骤2.5:根据停用词表,对文本词汇进行处理,去除停用词,其具体描述如下:

  停用词是在文本中频繁出现,但对文本的识别作用不大的词。去除停用词的过程是将特征项与停用词列表中的单词进行比较,如果匹配则删除该特征项。

  集成分词和停用词去除技术,中文文本预处理过程流程图如图3所示。

  第三步:计算词贡献值。具体计算过程如下:

  步骤3.1)先找出网页的核心关键词,按以下公式找出:

  A=1 表示 关键词 出现在标题中

  上式A=0或1,A=0表示关键词没有出现在标题中,k是标题中的关键词在网页中出现的段落数,而αi 给每个段落赋予一定的权重,ni 是标题中的 关键词 在第 i 段中出现的次数。

  选择上面公式最大值对应的标题中的关键词作为网页的核心关键词Cmain;

  步骤3.2)计算其他关键词网页的权重系数,根据下式可以得到每个词对网页的重要性,即下式:

  上式h为单词出现的段落数,Pi为单词在第i段出现的权重系数,即:

  Pi=αini

  是网页核心关键词的期望值,即:

  上式x2越小,关键词与网页核心关键词Cmain的相关性越高,反之亦然。

  步骤3.3)再根据语义相似度合并上面的关键词,有如下公式:

  上式s1为Ci与Cj共同祖先的深度比,m1为Ci与Cj共同祖先的密度比,n(Ci,C)为词Ci与词C的共现次数, n(Cj, C) 是词 Cj 与词 C 的共现次数,这里

  设置上述阈值 sim(Ci, Cj)>β, β∈(0, 1)

  如果满足阈值条件,则合并关键词,权重为两个关键词权重之和。

  Step 4:关键词 Grab,即按照每个词的贡献值对词进行排序;

  第五步:关键词插入位置分析;

  第六步:在网页中插入关键词以达到优化效果。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线