搜索引擎如何抓取网页(Google,可以用lucene,lucene)

优采云 发布时间: 2021-11-06 09:15

  搜索引擎如何抓取网页(Google,可以用lucene,lucene)

  1.可以使用Lucene,lucene现在已经发展到1.9.版本1,相当稳定。网上有丰富的中英文资源,甚至关于这个工具包的书籍(lucene in action)都有。如果只做站内搜索,可以直接从读取的数据库中读取数据,调用Lucene进行索引。编写前端查询接口,调用Lucene查询索引并在前台显示结果。

  如果不想写任何程序,可以参考以下2个解决方案

  2.使用heritrix + nutchwax,heritrix也是一个非常成熟的爬虫。他将网页下载并压缩为 arc 格式的文件。一个arc文件一般在100兆左右。Heritrix 不解析和提取网页内容。Nutchwax 负责解析网页、提取内容和建立索引,nutchwax 提供了一个搜索界面。缺点是nutchwax安装很麻烦。

  3.使用nutch,一个超级开源软件,作者是lucene的作者。这个软件的目标是像谷歌一样强大。nutch的很多分布式实现思路都来自于谷歌,并且已经分布式了。爬虫,分布式检索,有人用它爬取了数亿个网页。Nutch 功能包括下载网页、分析网页、计算网页重要性、索引、前端搜索以及搜索引擎所需的大部分功能。他在网站上搜索也很方便。该软件支持中文。目前nutch的稳定版本是0.7.2 使用这个软件的缺点是网上中文资料不多。你必须习惯阅读英文材料

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线