网页信息抓取软件(假设要做一个书籍搜索和比价服务,使用网页抓取/数据抽取/信息提取软件工具)

优采云 发布时间: 2021-12-24 09:11

  网页信息抓取软件(假设要做一个书籍搜索和比价服务,使用网页抓取/数据抽取/信息提取软件工具)

  假设您想做图书搜索和价格比较服务。网页抓取/数据提取/信息提取软件工具包MetaSeeker创建的服务和其他类似的网站有什么区别?

  确实有很大的不同。主要原因是MetaSeeker工具包中的SliceSearch搜索引擎是一个全面的异构数据信息对象管理系统,所做的垂直搜索在用户体验上有很大的不同。下面将详细说明。

  垂直搜索服务与普通搜索不同。垂直搜索抓取HTML网页时,不是将所有的文本都存储在库中,而是使用抽取技术分别抽取数据对象的各个字段,数据对象就变成了有结构的,每个字段都与特定的语义描述,就像关系数据库中的每个字段都有一个字段名称。成为结构化数据后,存储和索引方式灵活:一种方式是存储在关系型数据库中,彻底解决了搜索引擎准确率的问题。1为1,2为2,查询数据库时不能出现。检查1得到2的问题,但是关系型数据库只能存储表,并且语义结构非常复杂的内容需要非常麻烦的关系设计过程,分解成多个表;另一种方法是使用普通的索引技术,例如使用Lucene Indexes和搜索引擎,但是由于结构化数据是抽取出来的,所以在索引的时候是可以划分字段的。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样,它保留了数据库的种类,根据语义结构存储和检索的特点,可以获得很高的搜索性能。索引的时候可以分字段。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样,它保留了数据库的种类,根据语义结构存储和检索的特点,可以获得很高的搜索性能。索引的时候可以分字段。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样,它保留了数据库的种类,根据语义结构存储和检索的特点,可以获得很高的搜索性能。

  网页抓取/数据提取/信息提取软件工具包MetaSeeker提供了完整的解决方案。以网站一本书为例,使用MetaSeeker中的MetaStudio工具可以快速实现多个目标网站页面内容建立语义结构,并可以自动生成和提取指令文件,具有完整的图形界面, 无需编程,熟练的操作者几分钟就可以定义一个指令文件。然后使用DataScraper工具定期抓取这些网站,执行提取指令,将结果存入结构化的XML文件中。该工具还有一个SliceSearch管理接口,可以灵活定义信息对象的索引参数和语义索引方法,然后,将提取结果交给SliceSearch,它是一个信息对象索引和搜索引擎,使用专利技术准确搜索结果。例如,用户可以先进行一般的搜索,就像使用普通搜索引擎,输入一段文字“概率论”,但是这个词可能会出现在书名中,书名中,甚至读者的评论。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列的可能性,并推荐给用户,以进一步细化搜索结果。但这个词可能会出现在书名、书的介绍,甚至读者的评论中。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列的可能性,并推荐给用户,以进一步细化搜索结果。但这个词可能会出现在书名、书的介绍,甚至读者的评论中。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列的可能性,并推荐给用户,以进一步细化搜索结果。

  看完这个,你可能会问,为什么不直接提供一个类似于现有图书搜索网站的用户界面,允许用户根据字段进行查询,例如按书名、ISBN、价格、作者、出版商等等。当然,你可以在界面上这样做,但这样做是有代价的。这个搜索引擎只针对书籍搜索是固定的,也就是所谓的同构数据对象搜索。如果你要构建一个异构数据对象的综合搜索引擎,有各种结构的内容,比如书籍、外包项目、房地产出租和销售等,你怎么知道用户想要搜索什么给他看?合理的界面。当然,您可以要求用户先输入一个语义类别。这时候就要解决同义词、

  使用MetaSeeker提供的基于语义结构的处理方法,也可以轻松自然地解决数据对象的显示问题。在MetaSeeker后端语义库中,存储了具体语义对象的展示方法定义,简单理解为模板,每个A语义结构关联,当用户搜索一个对象时,调用关联的展示模板根据其自身的语义实现表示。

  MetaSeeker 经历了垂直搜索、SNS、微博等多波浪潮的洗礼,发展到V3版本,并免费下载使用网络版,推动互联网向语义网络演进。SliceSearch异构信息对象搜索引擎以开放的框架提供给有需要的用户。用户可以开发自己的模块,增强自己的功能。例如,用户可以针对异构数据对象开发自己的显示方式,例如选择XML+XSLT解释方式,或者选择程序代码方式。

  在线的

  威客任务/外包项目/招标项目搜索

  这是一个示例服务。虽然目前这个搜索引擎中只有同构的数据-项目信息,但可以看出用户界面的特点。例如,搜索“php”会得到大量相关结果。在搜索结果页面给出多种语义结构,可以将搜索限制在一个特定的语义类别,例如只查找关于php的海外项目,然后在标题中进一步搜索关于php的海外项目,然后进行过滤准时信息。

  以上界面功能可应用于手机搜索,采用启发式语义导航搜索结果提取方式,方便用户快速定位到想要的结果

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线