php 网页抓取(中文分词的分词方法和基于字符串匹配的方法、基于统计的方法)

优采云发布时间: 2022-04-08 17:35

　　2022-03-02中文分词技术

　　将汉字序列划分为有意义的词，即为中文分词，也有人称其为分词。

　　现有的分词算法可以分为三类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

　　关于搜索引擎的网站：

　　中文搜索引擎的“准”需要保证前几十个搜索结果与搜索词有很大的相关性，这需要通过“分词技术”和“排序技术”来确定；中文搜索引擎的“全”需要保证没有。漏掉一些重要的结果，又能找到最新的网页，需要搜索引擎有一个强大的网页采集器，俗称“网络蜘蛛”，也叫“网络机器人”。

　　搜索引擎在搜索时不可能实时查看每个网页，但需要先抓取网页，并根据关键词建立索引。每次搜索的结果将直接来自搜索引擎索引的数据库。查找结果并将结果返回给访问者。

　　网络蜘蛛通过网页的链接地址寻找网页，从网站的某个页面（通常是首页）开始，读取网页的内容，寻找网页中的其他链接地址，然后通过这些链接地址寻找下一页。一个网页，以此类推，直到这个网站的所有网页都被爬取。

　　很多搜索引擎的网络蜘蛛只抓取那些重要的网页，而在抓取时评估重要性的主要依据是某个网页的链接深度。

　　在抓取网页时，网络蜘蛛一般有两种策略：广度优先和深度优先。

　　对于网站设计师来说，扁平的网站设计有助于搜索引擎抓取更多的网页。

　　现在一般网站希望搜索引擎能更全面的抓取他们的网站网页，因为这样可以让更多的访问者通过搜索引擎找到这个网站。为了让这个网站的网页爬得更全面，网站管理员可以创建一个网站地图，即Site Map。许多网络蜘蛛会使用 sitemap.htm 文件作为网站网络爬取的入口。网站管理员可以将所有内部网页的网站链接放到这个文件中，然后网络蜘蛛就可以轻松抓取整个网站。

　　搜索结果的排名权重取决于网页链接的数量和质量。从专家文档页面到目标文档的链接决定了链接网页的“权重分数”的主要部分。可以看出，在网页设计中选择合适的锚文本会增加你所在的网页和你所指向的网页的重要性。合理利用网页的页面布局，会提高网页在搜索结果页中的排名位置。SEO是一种用于搜索引擎排名的技术。通过修改网页（或网站）的结构并主动添加网站链接，搜索引擎认为这些网页非常重要，从而改进搜索引擎中的网页。对结果进行排序。

　　搜索引擎的门槛主要是技术门槛，包括快速网页数据采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言对技术的了解等等，这些都是搜索引擎的门槛。

　　搜索引擎的实现原理可以看成是四个步骤：从互联网上抓取网页→建立索引库→在索引库中搜索→对搜索结果进行处理和排序。

　　从 Internet 抓取网页。使用网络蜘蛛程序，自动从互联网采集网页，自动访问互联网，并将任何网页中的所有URL爬取到其他网页，重复这个过程，采集所有爬取到服务器的网页。

　　建立索引数据库。索引系统程序对采集到的网页进行分析，提取相关网页信息（包括网页所在的URL、编码类型、页面内容中收录的关键词和关键词位置、生成时间、 size) , 与其他网页的链接关系等)，按照一定的相关性算法进行大量复杂的计算，得到每个网页对页面内容中每个关键词的相关性（或重要性）和超链接，然后利用这些相关信息建立网页索引数据库。

　　在索引数据库中搜索。当用户输入关键词搜索时，搜索请求被分解，搜索系统程序从网页索引数据库中查找与关键词匹配的所有相关网页。

　　处理和排序搜索结果。关键词的所有相关信息都记录在索引数据库中。只需要综合相关信息和网页级别，形成相关值，然后进行排序。排名越高。最后，页面生成系统将搜索结果的链接地址和页面内容摘要整理后返回给用户。

　　向“查询服务器”提交查询请求，服务器在“索引数据库”中搜索相关网页，而“网页评分”结合查询请求和链接信息来评估搜索结果的相关性。查询服务器”按相关性排序，提取关键词的内容摘要，整理最终页面返回给“用户”。

　　数据的索引分为三个步骤：网页内容的提取、词的识别、索引库的建立。

　　Internet 上的大部分信息都以 HTML 格式存在，而对于索引，只处理文本信息。因此，需要提取网页中的文本内容，过滤掉一些脚本标识和一些无用的广告信息，同时记录文本的布局格式信息[1]。单词识别是搜索引擎中非常关键的部分，网页中的单词是通过字典文件来识别的。对于西方信息，需要识别不同形式的词，如单复数、过去时、复合词、词根等，而对于一些亚洲语言（汉语、日语、韩语等），需要分词处理[3]。识别网页中的每个单词，并分配一个唯一的 wordID 编号以服务于数据索引中的索引模块。

　　索引库的建立是数据索引结构中最复杂的部分。一般需要建立两种索引：文档索引和关键词索引。文档索引为每个网页分配一个唯一的 docID 编号。根据docID索引，这个网页出现了多少个wordID，每个wordID出现的次数，位置，大写格式等，形成docID对应的wordID的数据列表；关键词@ > 索引实际上是文档索引的反向索引。根据 wordID 索引，该词出现在那些网页中（以 wordID 表示），每个网页上出现的次数、位置、大小写等，形成 wordID 对应的 docID 列表。

　　搜索过程是满足用户搜索请求的过程。通过用户输入搜索关键词，搜索服务器对应关键词词典，搜索关键词转化为wordID，然后在索引数据库中获取。docID列表，扫描docID列表匹配wordID，提取符合条件的网页，然后计算网页与关键词的相关性，根据相关性的值返回前K个结果（不同的搜索引擎每页不同数量的搜索结果）返回给用户。如果用户查看了第二页或页数，则再次进行搜索，将排序结果中K+1到2*Kth的网页组织返回给用户。

　　以下是一些典型的搜索引擎：

　　新闻搜索引擎。看新闻是很多网民上网的主要目的，新闻搜索已经成为看新闻的重要工具。新闻搜索引擎的实现过程比较简单。一般是扫描*敏*感*词*知名新闻网站，爬取新闻网页，建立自己的新闻数据库，然后提供搜索，但是新闻网页的抓取频率很高。有些需要每隔几分钟扫描一次。现在很多大型网络搜索引擎都提供了相应的新闻搜索功能，如：谷歌新闻搜索()、中搜新闻搜索()、百度新闻搜索()等。

　　音乐搜索引擎。随着互联网的出现，音乐得到了广泛的传播。对于喜欢音乐的网友来说，音乐搜索引擎已经成为他们最喜欢的工具。音乐搜索引擎需要对互联网上的*敏*感*词*音乐网站进行监控，捕捉其音乐数据的描述信息，形成自己的数据库。音乐下载和试听将在其原创音乐网站上进行。目前有：搜网()、百度mp3搜()、1234567搜()等。

　　图片搜索引擎。你可以通过图片搜索引擎找到你感兴趣的图片链接，各大搜索引擎也提供图片搜索功能。图像文件本身不能被搜索引擎索引，但搜索引擎可以通过链接文本分析和图像注释来获取图像信息。目前有：Google Image Search()、VisionNext Search()、Baidu Image Search()等。

　　商机搜索引擎。电子商务一直是互联网的热点，商机搜索也对电子商务的发展起到了巨大的推动作用。模型。商机搜索引擎通过抓取电子商务网站的商品信息等商业信息，为访问者提供统一的搜索平台。目前有：搜搜价格搜索引擎（）、8848购物搜索（）、阿里巴巴商机搜索（）等。

　　其他特色搜索引擎包括专利搜索、软件搜索、ftp搜索、游戏搜索、法律搜索等。

　　分类：

　　技术要点：

2022-04-08

php 网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 网页抓取(中文分词的分词方法和基于字符串匹配的方法、基于统计的方法)

0 个评论

发起人