*敏*感*词*考试行测备考:如何正确使用HTML格式的HTML代码

优采云 发布时间: 2021-08-09 01:23

  *敏*感*词*考试行测备考:如何正确使用HTML格式的HTML代码

  1、提取文本 目前的搜索引擎还是以文本内容为主。蜘蛛抓取的页面中的HTML代码除了用户在浏览器上可以看到的可见文本之外,还收录大量的HTML。格式标签、JavaScript程序等不能用于排名的内容,搜索引擎预处理首先要做的是从HTML文件中去除标签和程序,提取出可用于排名处理的网页文本内容。 2、中文 处理分词是中文搜索引擎独有的一步。搜索引擎存储和处理页面,用户搜索基于单词。英语等语言中词与词之间存在空格,搜索引擎索引程序可以直接将句子分成词组。但是,中文单词之间没有分隔符,句子中的所有字符和单词都连接在一起。搜索引擎必须首先区分哪些词构成一个词,哪些词本身就是一个词。例如,“*敏*感*词*考试”将分为“*敏*感*词*”和“考试”两个词。 3、去止词 无论是英文还是中文,页面内容中都会出现一些频繁出现但对内容没有影响的词,如“的”、“地”、“得”等辅助词, " "A"、"ha" 和 "Ya" 等感叹词,以及 "theby"、"yi" 和 "que" 等副词或介词。这些词被称为停用词,因为它们对主语没有影响。页面的意义,英文中常见的停用词有the、a、an、to、of等。4、Remove noise。页面上的大部分内容也对页面的主题贡献不大,比如版权声明文字、导航栏、广告等

  以常见的博客导航为例。几乎每个博客页面都会出现文章category、历史存档等导航内容。这些页面本身与“类别”和“历史”这两个词无关。当用户搜索“历史”和“类别”这些关键词时,仅仅因为这些词出现在页面上并返回到博客帖子是没有意义的,完全无关紧要。因此,这些区都受到噪音的影响,只能起到分散页面话题的作用。 5、去重和去重的基本方法是对页面特征的关系词计算指纹,即选取页面关键词的大部分主要内容(往往是最常出现的关系词) ,然后计算这些关键词的数字指纹。这些关键词 选择是在分词、去除停用词和降噪之后。一般选择10个特征关键词可以达到比较高的计算准备,选择更多的词对去重准确率的提升贡献不大。 6、前进索引7、倒序索引8、链接关系 计算页面上哪些链接指向其他页面,每个页面导入哪些链接,链接中使用了什么锚文本,这些复杂的链接指向关系形式网站和页面链接权重9、特殊文件处理除了HTML文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们经常在搜索结果中看到这些文件类型。但是,目前的搜索引擎无法处理图片、视频、Flash等非文本内容,也无法执行脚本和程序

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线