网页信息抓取软件(假设要做一个书籍搜索和比价服务,使用网页抓取/数据抽取/信息提取软件工具)
优采云 发布时间: 2021-10-15 20:28网页信息抓取软件(假设要做一个书籍搜索和比价服务,使用网页抓取/数据抽取/信息提取软件工具)
假设您想做图书搜索和价格比较服务。网页抓取/数据提取/信息提取软件工具包MetaSeeker创建的服务和其他类似的网站有什么区别?
确实有很大的不同。主要原因是MetaSeeker工具包中的SliceSearch搜索引擎是一个全面的异构数据信息对象管理系统,所做的垂直搜索在用户体验上有很大的不同。下面将详细说明。
垂直搜索服务不同于普通搜索。垂直搜索抓取HTML网页时,不是将所有的文本都存储在库中,而是利用抽取技术分别抽取数据对象的各个字段,数据对象就变成了有结构的,每个字段都与特定的语义描述,就像关系数据库中的每个字段都有一个字段名称。成为结构化数据后的存储和索引方式变得更加灵活:一种方式是存储在关系型数据库中,彻底解决了搜索引擎准确率的问题,1为1,2为2,查询时不可能出现数据库检查1得到2的问题,但是关系型数据库只能存储表,并且语义结构非常复杂的内容需要非常麻烦的关系设计过程,分解成多个表;另一种方法是使用普通的索引技术,例如使用Lucene Indexes和搜索引擎,但是由于结构化数据是提取的,所以在索引时可以将其划分为字段。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样就保留了数据库。根据语义结构存储和检索的特点,可以获得较高的搜索性能。因为结构化数据是抽取出来的,所以在索引的时候可以划分字段。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样就保留了数据库。根据语义结构存储和检索的特点,可以获得较高的搜索性能。因为结构化数据是抽取出来的,所以在索引的时候可以划分字段。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样就保留了数据库。根据语义结构存储和检索的特点,可以获得较高的搜索性能。
网页抓取/数据提取/信息提取软件工具包MetaSeeker提供了完整的解决方案。以网站一本书为例,使用MetaSeeker中的MetaStudio工具可以快速实现多个目标网站页面内容建立语义结构,并能自动生成提取指令文件,全图形化界面, 无需编程,熟练的操作人员可以在几分钟内定义一个指令文件。然后使用DataScraper工具定期抓取这些网站,执行提取指令,将结果存入结构化的XML文件中。该工具还有一个SliceSearch管理接口,可以灵活定义信息对象的索引参数和语义索引方法,然后,将提取结果交给SliceSearch,它是一个信息对象索引和搜索引擎,使用专利技术准确搜索结果。例如,用户可以先进行一般搜索,就像使用普通搜索引擎一样,输入一段文字“Probability Theory”,但是这个词可能会出现在书名中,书名中,甚至读者的评论。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列的可能性,并推荐给用户,以进一步细化搜索结果。但是这个词可能会出现在书名中,书的介绍中,甚至读者的评论中。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列的可能性,并推荐给用户,以进一步细化搜索结果。但是这个词可能会出现在书名中,书的介绍中,甚至读者的评论中。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列可能性,并推荐给用户,以进一步细化搜索结果。
看完这个,你可能会问,为什么不直接提供一个类似于现有图书搜索网站的用户界面,让用户可以根据字段进行查询,例如按书名、ISBN、价格、作者、出版商还有很多。当然,您可以在界面上执行此操作,但这样做是有代价的。这个搜索引擎只针对书籍搜索是固定的,也就是所谓的同构数据对象搜索。如果你要构建一个异构数据对象的综合搜索引擎,内容的结构多种多样,比如书籍、外包项目、房地产出租和销售等,你怎么知道用户想要搜索什么,给他看什么?合理的界面。当然,你可以让用户先输入一个语义类别。此时,
使用MetaSeeker提供的基于语义结构的处理方法,也可以轻松自然地解决数据对象的显示问题。在MetaSeeker后端语义库中,存储了具体语义对象的展示方法定义,简单理解为模板,每个A语义结构关联,当用户搜索一个对象时,调用关联的展示模板根据其自身的语义实现表示。
MetaSeeker经历了垂直搜索、SNS、微博等多波浪潮的洗礼,发展到了V3版本,免费下载使用网络版,推动互联网向语义网络演进。SliceSearch异构信息对象搜索引擎以开放的框架提供给有需要的用户。用户可以开发自己的模块,增强自己的功能。例如,用户可以开发自己的方式来展示异构数据对象,例如,选择 XML+XSLT 解释模式,或者选择程序代码模式。
在线自由任务/外包项目/投标项目搜索是一个示例服务。虽然这个搜索引擎目前只有同构的数据-项目信息,但是可以看出用户界面的特点,比如搜索“php”,会得到大量的相关结果,并且有多种语义结构在搜索结果页面给出,搜索可以限制在一个特定的语义类别,例如只查找关于php的海外项目,然后再查找关于php海外项目的标题,然后根据项目进行过滤准时信息。
以上界面功能可应用于手机搜索,采用启发式语义导航搜索结果提取方式,方便用户快速定位到想要的结果