XML中国科学院计算机网络信息中心文章分析和介绍对互联网中XML+XSL
优采云 发布时间: 2021-05-11 18:16XML中国科学院计算机网络信息中心文章分析和介绍对互联网中XML+XSL
中国科学院XML计算机网络信息中心文章分析并介绍了Internet上XML + XSL网页资源的链接分析和内容采集的方法,包括传统HTML中的链接分析,XML转换后的链接分析。到HTML,手动定制XML链接分析和传统HTML信息采集,XML信息提取以及将XML转换为HTML信息采集等。:Internet信息采集链接分析XML资源:TP393文档标识代码:A [ 文章号:基于Internet资源的XML / XSLY链接分析杜丽华,中国科学院温文教计算机网络信息中心摘要:论文分析基于链接分析内容的基于Internet资源的XML / XSL网页,包括传统的HMTL链接,从XML派生的HTML链接,手动客户化的XML链接,传统的HTML信息挖掘,XML信息提取指令,从XML派生的HTML信息挖掘等。采矿;链接分析; XML资源Internet上有大量的数据和信息。目前,网站页大多为HTML格式。由于HTML标记日益膨胀,文件结构缺乏组织,描述能力有限以及有效数据提取复杂等原因,它不再能满足网络需求。为了满足新的应用程序需求,作为W3C推荐的下一代Web发布语言,XML + XSL方法是大势所趋,并且已经有一些网站应用程序,例如37c Medical Network和CCID Network。
但是,当前的主要搜索引擎Spider系统和Internet信息智能采集系统都是HTML格式链接分析和内容提取,它们不支持XML检索或具有很大的局限性1、传统HTML中的链接。解析传统HTML时标签的定义很明确,表明用于超链接的标签受到限制。解析过程通常是将shape = between和网页源文件的框架之间的所有内容都取出,然后除去中间内容,单引号,双引号和其他干扰信息。对于每个链接部分,可以根据链接URL部分和链接是否收录>符号将其分开。在标题部分,将链接URL部分与网页URL(URL)进行比较和分析,以获得完整的URL。如果链接文本部分不可用或不合法,则可以进一步获取源文件中和源文件之间的内容。 2、将XML转换为HTML之后的链接解析。 XML使用DTD来显示数据,并使用XSL来描述文档显示。 XML格式网页中的每个节点都是灵活定义的,无法用传统的HTML进行解析。正如浏览器在识别到XML + XSL格式时首先在客户端中解析网页一样,我们也可以使用XSL XML将其转换为HTML语言,然后以传统的HTML方式进行解析。该方法是通过获取XSL文件的地址来获取XML源文件的内容,然后使用XML解析器(XMLDOM)组合并将其转换为HTML 3、通过转换为HTML手动定制XML链接解析语言,然后解析链接比较通用,适用于全方位分析。
由于相关的超链接信息存储在XML文件中的特定类型的节点中,因此,每次使用XSL转换时,都会在性能上产生不必要的开销。因此,有时,尤其是在跟踪某种类型的网站信息时,它的性能会更高。性能可能仅是获得链接的所需部分,并且有必要使用手动定制的链接解析度。手动配置方法是首先手动查看源XML XSL(在浏览器中查看源文件),找到带有节点名称的超链接(包括文本,图片,附件),并将其添加到配置文件的xmlhref项中。 ,然后系统将对其进行相应的分析。与同一XSL文档相对应的XML是同构的,因此指定了与每个XSL文档相对应的hreftext(链接文本)和hreflink(链接的URL)。例如,新闻频道网页的相关链接部分采用config.xml格式,例如ritems / item / itemtitle ritems / item itemhref xslsite>…