搜索引擎关键词优化方法( 本发明提供基于关键词优化实现搜索引擎优化技术的敏感词)

优采云发布时间: 2022-02-10 12:18

　　搜索引擎关键词优化方法(

本发明提供基于关键词优化实现搜索引擎优化技术的*敏*感*词*)

　　本发明涉及语义网络技术领域，尤其涉及一种基于关键词优化实现搜索引擎优化的技术。

　　背景技术：

　　由于关键词优化策略是公认的搜索引擎优化策略，也是整个搜索引擎优化的核心内容。用户在搜索引擎输入信息后，总希望能找到切入信息的相关信息。这里我们称用户输入的信息为“关键词(Keywords)”。关键词也是搜索引擎在构建索引表时使用的术语。目前很多学者对关键词的提取进行了深入的研究，发现了很多成熟的提取方法，比如使用TFIDF方法提取关键词的方法，就是计算外观对网页中某个词的计算，对于极其重要且不常用的关键词是非常不利的存在于网页中，实现基于信息熵频率的提取；以信息熵为核心技术从数学角度提取关键词也不是很准确。为了满足上述需求，本发明提供了一种基于关键词优化的搜索引擎优化技术。

　　技术实施要素：

　　针对网页中关键词提取准确率不够的问题，本发明提供了一种基于关键词优化的搜索引擎优化技术。

　　为解决上述问题，本发明通过以下技术方案实现：

　　第一步：网页主题内容抓取；

　　第二步：对以上文档进行分词；

　　第三步：计算词贡献值；

　　Step 4：关键词 Grab，即按照每个词的贡献值对词进行排序；

　　第五步：关键词插入位置分析；

　　第六步：在网页中插入关键词，以达到优化的效果；

　　本发明的有益效果是：

　　1、提取的关键词排序顺序更符合经验值

　　2、为后续长尾关键词优化提供技术支持

　　3、在网站优化方面提供更高效的关键词

　　4、可以帮助网站在短时间内快速提升其关键词排名。

　　图纸说明

　　图1 基于关键词优化的搜索引擎优化技术结构流程图

　　图 2. n-gram 分词算法*敏*感*词*

　　图3 中文文本预处理流程图

　　详细说明

　　为了解决网页中关键词提取准确率不够的问题，结合图1对本发明进行详细说明。1、其具体实现步骤如下：

　　Step 1：网页主题内容爬取，具体描述流程如下：

　　一般要爬取的网页分为两部分：一部分是网页的主题内容；另一部分是与主题无关的“页面噪音”，比如广告、推广链接等。其实需要爬取的是网页的主题内容。您可以使用“火狐”的插件“Data Scraper”和“Meta Studio”抓取网页，保留网页的主题内容，去除“网页噪音”，转换抓取的网页主题内容页面转为“Word”格式文档，方便后续操作。

　　第二步：对上述文档进行分词。具体分割技术如下：

　　步骤2.1：根据“分词词典”，在待分词中找到与词典相匹配的词，扫描待分词字符串，在系统词典中查找匹配。如果字典中没有相关匹配，只需将单个字符分割为一个单词；直到中文字符串为空。

　　Step2.2：根据概率统计，将待切分句子拆分成网络结构，即得到n个可能的句子结构组合，依次定义该结构的每个序列节点为SM1M2M3M4M5E，其*敏*感*词*如下图2所示。

　　Step2.3：基于信息论方法，对上述网格结构的每条边赋予一定的权重，具体计算过程如下：

　　根据“分词词典”匹配的词典词和未匹配的单个词，第i条路径收录的词个数为ni。即n个路径词的数量集是(n1, n2, ..., nn)。

　　得到 min()=min(n1, n2, ..., nn)

　　在上面剩下的剩余 (nm) 路径中，求解每个相邻路径的权重大小。

　　在统计语料库中，计算每个词的信息量X(Ci)，然后计算路径中相邻词的共现信息。

　　利息金额X(Ci, Ci+1)。有以下公式：

　　X(Ci)=|x(Ci)1-x(Ci)2|

　　上式x(Ci)1是词Ci在文本语料库中的信息量，x(Ci)2是收录词Ci的文本的信息量。

　　x(Ci)1=-p(Ci)1lnp(Ci)1

　　上式 p(Ci)1 是 Ci 在文本语料库中的概率，n 是收录单词 Ci 的文本语料库的数量。

　　x(Ci)2=-p(Gi)2lnp(Ci)2

　　上式p(Ci)2为收录单词Ci的文本数量的概率值，N为统计语料库中文本的总数。

　　同样 X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|

　　x(Ci, Ci+1)1 为文本语料库中词(Ci, Ci+1)) 的共现信息，x(Ci, Ci+1)2 为相邻词( Ci, Ci+1) 共同出现的文本信息量。

　　同理 x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1

　　上式p(Ci,Ci+1)1为文本语料库中词(Ci,Ci+1)的共现概率，m为词(Ci,Ci+< @1) 在文本语料库中）存在的文本量。

　　x(Ci,Ci+1)2=-P(Ci,Ci+1)2lnp(Ci,Ci+1)2

　　p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1))共现的文本个数概率。

　　综上，可以得到每条相邻路径的权重为

　　w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)

　　Step 2.4：找到权重最大的路径，即待分句的分词结果。具体计算过程如下：

　　有n条路径，每条路径的长度不同。假设路径长度的集合是(L1, L2, ..., Ln)。

　　假设取路径中的最小字数后排除m条路径，m<n。也就是说，剩余的（nm）路径，让路径长度的集合为

　　那么每条路径的权重为：

　　上面的公式分别是第1和第2到路径边缘的权重值，可以按照步骤1.4一一计算出来，也就是剩下的第Sj个路径的长度（ nm) 路径。

　　权重最大的路径：

　　步骤2.5：根据停用词表，对文本词汇进行处理，去除停用词，其具体描述如下：

　　停用词是在文本中频繁出现，但对文本的识别作用不大的词。去除停用词的过程是将特征项与停用词列表中的单词进行比较，如果匹配则删除该特征项。

　　集成分词和停用词去除技术，中文文本预处理过程流程图如图3所示。

　　第三步：计算词贡献值。具体计算过程如下：

　　步骤3.1)先找出网页的核心关键词，按以下公式找出：

　　A=1 表示关键词出现在标题中

　　上式A=0或1，A=0表示关键词没有出现在标题中，k是标题中的关键词在网页中出现的段落数，而αi 给每个段落赋予一定的权重，ni 是标题中的关键词在第 i 段中出现的次数。

　　选择上面公式最大值对应的标题中的关键词作为网页的核心关键词Cmain；

　　步骤3.2)计算其他关键词网页的权重系数，根据下式可以得到每个词对网页的重要性，即下式：

　　上式h为单词出现的段落数，Pi为单词在第i段出现的权重系数，即：

　　Pi=αini

　　是网页核心关键词的期望值，即：

　　上式x2越小，关键词与网页核心关键词Cmain的相关性越高，反之亦然。

　　步骤3.3)再根据语义相似度合并上面的关键词，有如下公式：

　　上式s1为Ci与Cj共同祖先的深度比，m1为Ci与Cj共同祖先的密度比，n(Ci,C)为词Ci与词C的共现次数, n(Cj, C) 是词 Cj 与词 C 的共现次数，这里

　　设置上述阈值 sim(Ci, Cj)>β, β∈(0, 1)

　　如果满足阈值条件，则合并关键词，权重为两个关键词权重之和。

　　Step 4：关键词 Grab，即按照每个词的贡献值对词进行排序；

　　第五步：关键词插入位置分析；

　　第六步：在网页中插入关键词以达到优化效果。

0

2022-02-10

搜索引擎关键词优化方法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎关键词优化方法( 本发明提供基于关键词优化实现搜索引擎优化技术的敏感词)

0 个评论

发起人

AI时代内容工厂

搜索引擎关键词优化方法( 本发明提供基于关键词优化实现搜索引擎优化技术的*敏*感*词*)

0 个评论

发起人

相关问题

搜索引擎关键词优化方法( 本发明提供基于关键词优化实现搜索引擎优化技术的敏感词)