敏感词考试行测备考：如何正确使用HTML格式的HTML代码

优采云发布时间: 2021-08-09 01:23

　　*敏*感*词*考试行测备考：如何正确使用HTML格式的HTML代码

　　1、提取文本目前的搜索引擎还是以文本内容为主。蜘蛛抓取的页面中的HTML代码除了用户在浏览器上可以看到的可见文本之外，还收录大量的HTML。格式标签、JavaScript程序等不能用于排名的内容，搜索引擎预处理首先要做的是从HTML文件中去除标签和程序，提取出可用于排名处理的网页文本内容。 2、中文处理分词是中文搜索引擎独有的一步。搜索引擎存储和处理页面，用户搜索基于单词。英语等语言中词与词之间存在空格，搜索引擎索引程序可以直接将句子分成词组。但是，中文单词之间没有分隔符，句子中的所有字符和单词都连接在一起。搜索引擎必须首先区分哪些词构成一个词，哪些词本身就是一个词。例如，“*敏*感*词*考试”将分为“*敏*感*词*”和“考试”两个词。 3、去止词无论是英文还是中文，页面内容中都会出现一些频繁出现但对内容没有影响的词，如“的”、“地”、“得”等辅助词, " "A"、"ha" 和 "Ya" 等感叹词，以及 "theby"、"yi" 和 "que" 等副词或介词。这些词被称为停用词，因为它们对主语没有影响。页面的意义，英文中常见的停用词有the、a、an、to、of等。4、Remove noise。页面上的大部分内容也对页面的主题贡献不大，比如版权声明文字、导航栏、广告等

　　以常见的博客导航为例。几乎每个博客页面都会出现文章category、历史存档等导航内容。这些页面本身与“类别”和“历史”这两个词无关。当用户搜索“历史”和“类别”这些关键词时，仅仅因为这些词出现在页面上并返回到博客帖子是没有意义的，完全无关紧要。因此，这些区都受到噪音的影响，只能起到分散页面话题的作用。 5、去重和去重的基本方法是对页面特征的关系词计算指纹，即选取页面关键词的大部分主要内容（往往是最常出现的关系词），然后计算这些关键词的数字指纹。这些关键词选择是在分词、去除停用词和降噪之后。一般选择10个特征关键词可以达到比较高的计算准备，选择更多的词对去重准确率的提升贡献不大。 6、前进索引7、倒序索引8、链接关系计算页面上哪些链接指向其他页面，每个页面导入哪些链接，链接中使用了什么锚文本，这些复杂的链接指向关系形式网站和页面链接权重9、特殊文件处理除了HTML文件，搜索引擎通常可以抓取和索引多种基于文本的文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我们经常在搜索结果中看到这些文件类型。但是，目前的搜索引擎无法处理图片、视频、Flash等非文本内容，也无法执行脚本和程序

0

2021-08-09

庆华购物网站seo搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

敏感词考试行测备考：如何正确使用HTML格式的HTML代码

0 个评论

发起人

AI时代内容工厂

*敏*感*词*考试行测备考：如何正确使用HTML格式的HTML代码

0 个评论

发起人

相关问题

敏感词考试行测备考：如何正确使用HTML格式的HTML代码