搜索引擎关键词优化方法( 本发明提供基于关键词优化实现搜索引擎优化技术的*敏*感*词*)
优采云 发布时间: 2022-02-10 12:18搜索引擎关键词优化方法(
本发明提供基于关键词优化实现搜索引擎优化技术的*敏*感*词*)
本发明涉及语义网络技术领域,尤其涉及一种基于关键词优化实现搜索引擎优化的技术。
背景技术:
由于关键词优化策略是公认的搜索引擎优化策略,也是整个搜索引擎优化的核心内容。用户在搜索引擎输入信息后,总希望能找到切入信息的相关信息。这里我们称用户输入的信息为“关键词(Keywords)”。关键词 也是搜索引擎在构建索引表时使用的术语。目前很多学者对关键词的提取进行了深入的研究,发现了很多成熟的提取方法,比如使用TFIDF方法提取关键词的方法,就是计算外观对网页中某个词的计算,对于极其重要且不常用的关键词是非常不利的 存在于网页中,实现基于信息熵频率的提取;以信息熵为核心技术从数学角度提取关键词也不是很准确。为了满足上述需求,本发明提供了一种基于关键词优化的搜索引擎优化技术。
技术实施要素:
针对网页中关键词提取准确率不够的问题,本发明提供了一种基于关键词优化的搜索引擎优化技术。
为解决上述问题,本发明通过以下技术方案实现:
第一步:网页主题内容抓取;
第二步:对以上文档进行分词;
第三步:计算词贡献值;
Step 4:关键词 Grab,即按照每个词的贡献值对词进行排序;
第五步:关键词插入位置分析;
第六步:在网页中插入关键词,以达到优化的效果;
本发明的有益效果是:
1、提取的关键词排序顺序更符合经验值
2、为后续长尾关键词优化提供技术支持
3、在网站优化方面提供更高效的关键词
4、可以帮助网站在短时间内快速提升其关键词排名。
图纸说明
图1 基于关键词优化的搜索引擎优化技术结构流程图
图 2. n-gram 分词算法*敏*感*词*
图3 中文文本预处理流程图
详细说明
为了解决网页中关键词提取准确率不够的问题,结合图1对本发明进行详细说明。1、其具体实现步骤如下:
Step 1:网页主题内容爬取,具体描述流程如下:
一般要爬取的网页分为两部分:一部分是网页的主题内容;另一部分是与主题无关的“页面噪音”,比如广告、推广链接等。其实需要爬取的是网页的主题内容。您可以使用“火狐”的插件“Data Scraper”和“Meta Studio”抓取网页,保留网页的主题内容,去除“网页噪音”,转换抓取的网页主题内容页面转为“Word”格式文档,方便后续操作。
第二步:对上述文档进行分词。具体分割技术如下:
步骤2.1:根据“分词词典”,在待分词中找到与词典相匹配的词,扫描待分词字符串,在系统词典中查找匹配。如果字典中没有相关匹配,只需将单个字符分割为一个单词;直到中文字符串为空。
Step2.2:根据概率统计,将待切分句子拆分成网络结构,即得到n个可能的句子结构组合,依次定义该结构的每个序列节点为SM1M2M3M4M5E,其*敏*感*词*如下图2所示。
Step2.3:基于信息论方法,对上述网格结构的每条边赋予一定的权重,具体计算过程如下:
根据“分词词典”匹配的词典词和未匹配的单个词,第i条路径收录的词个数为ni。即n个路径词的数量集是(n1, n2, ..., nn)。
得到 min()=min(n1, n2, ..., nn)
在上面剩下的剩余 (nm) 路径中,求解每个相邻路径的权重大小。
在统计语料库中,计算每个词的信息量X(Ci),然后计算路径中相邻词的共现信息。
利息金额X(Ci, Ci+1)。有以下公式:
X(Ci)=|x(Ci)1-x(Ci)2|
上式x(Ci)1是词Ci在文本语料库中的信息量,x(Ci)2是收录词Ci的文本的信息量。
x(Ci)1=-p(Ci)1lnp(Ci)1
上式 p(Ci)1 是 Ci 在文本语料库中的概率,n 是收录单词 Ci 的文本语料库的数量。
x(Ci)2=-p(Gi)2lnp(Ci)2
上式p(Ci)2为收录单词Ci的文本数量的概率值,N为统计语料库中文本的总数。
同样 X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|
x(Ci, Ci+1)1 为文本语料库中词(Ci, Ci+1)) 的共现信息,x(Ci, Ci+1)2 为相邻词( Ci, Ci+1) 共同出现的文本信息量。
同理 x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1
上式p(Ci,Ci+1)1为文本语料库中词(Ci,Ci+1)的共现概率,m为词(Ci,Ci+< @1) 在文本语料库中)存在的文本量。
x(Ci,Ci+1)2=-P(Ci,Ci+1)2lnp(Ci,Ci+1)2
p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1))共现的文本个数概率。
综上,可以得到每条相邻路径的权重为
w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)
Step 2.4:找到权重最大的路径,即待分句的分词结果。具体计算过程如下:
有n条路径,每条路径的长度不同。假设路径长度的集合是(L1, L2, ..., Ln)。
假设取路径中的最小字数后排除m条路径,m<n。也就是说,剩余的(nm)路径,让路径长度的集合为
那么每条路径的权重为:
上面的公式分别是第1和第2到路径边缘的权重值,可以按照步骤1.4一一计算出来,也就是剩下的第Sj个路径的长度( nm) 路径。
权重最大的路径:
步骤2.5:根据停用词表,对文本词汇进行处理,去除停用词,其具体描述如下:
停用词是在文本中频繁出现,但对文本的识别作用不大的词。去除停用词的过程是将特征项与停用词列表中的单词进行比较,如果匹配则删除该特征项。
集成分词和停用词去除技术,中文文本预处理过程流程图如图3所示。
第三步:计算词贡献值。具体计算过程如下:
步骤3.1)先找出网页的核心关键词,按以下公式找出:
A=1 表示 关键词 出现在标题中
上式A=0或1,A=0表示关键词没有出现在标题中,k是标题中的关键词在网页中出现的段落数,而αi 给每个段落赋予一定的权重,ni 是标题中的 关键词 在第 i 段中出现的次数。
选择上面公式最大值对应的标题中的关键词作为网页的核心关键词Cmain;
步骤3.2)计算其他关键词网页的权重系数,根据下式可以得到每个词对网页的重要性,即下式:
上式h为单词出现的段落数,Pi为单词在第i段出现的权重系数,即:
Pi=αini
是网页核心关键词的期望值,即:
上式x2越小,关键词与网页核心关键词Cmain的相关性越高,反之亦然。
步骤3.3)再根据语义相似度合并上面的关键词,有如下公式:
上式s1为Ci与Cj共同祖先的深度比,m1为Ci与Cj共同祖先的密度比,n(Ci,C)为词Ci与词C的共现次数, n(Cj, C) 是词 Cj 与词 C 的共现次数,这里
设置上述阈值 sim(Ci, Cj)>β, β∈(0, 1)
如果满足阈值条件,则合并关键词,权重为两个关键词权重之和。
Step 4:关键词 Grab,即按照每个词的贡献值对词进行排序;
第五步:关键词插入位置分析;
第六步:在网页中插入关键词以达到优化效果。