XML中国科学院计算机网络信息中心文章分析和介绍对互联网中XML+XSL

优采云发布时间: 2021-05-11 18:16

　　中国科学院XML计算机网络信息中心文章分析并介绍了Internet上XML + XSL网页资源的链接分析和内容采集的方法，包括传统HTML中的链接分析，XML转换后的链接分析。到HTML，手动定制XML链接分析和传统HTML信息采集，XML信息提取以及将XML转换为HTML信息采集等。：Internet信息采集链接分析XML资源：TP393文档标识代码：A [ 文章号：基于Internet资源的XML / XSLY链接分析杜丽华，中国科学院温文教计算机网络信息中心摘要：论文分析基于链接分析内容的基于Internet资源的XML / XSL网页，包括传统的HMTL链接，从XML派生的HTML链接，手动客户化的XML链接，传统的HTML信息挖掘，XML信息提取指令，从XML派生的HTML信息挖掘等。采矿；链接分析； XML资源Internet上有大量的数据和信息。目前，网站页大多为HTML格式。由于HTML标记日益膨胀，文件结构缺乏组织，描述能力有限以及有效数据提取复杂等原因，它不再能满足网络需求。为了满足新的应用程序需求，作为W3C推荐的下一代Web发布语言，XML + XSL方法是大势所趋，并且已经有一些网站应用程序，例如37c Medical Network和CCID Network。

　　但是，当前的主要搜索引擎Spider系统和Internet信息智能采集系统都是HTML格式链接分析和内容提取，它们不支持XML检索或具有很大的局限性1、传统HTML中的链接。解析传统HTML时标签的定义很明确，表明用于超链接的标签受到限制。解析过程通常是将shape = between和网页源文件的框架之间的所有内容都取出，然后除去中间内容，单引号，双引号和其他干扰信息。对于每个链接部分，可以根据链接URL部分和链接是否收录>符号将其分开。在标题部分，将链接URL部分与网页URL（URL）进行比较和分析，以获得完整的URL。如果链接文本部分不可用或不合法，则可以进一步获取源文件中和源文件之间的内容。 2、将XML转换为HTML之后的链接解析。 XML使用DTD来显示数据，并使用XSL来描述文档显示。 XML格式网页中的每个节点都是灵活定义的，无法用传统的HTML进行解析。正如浏览器在识别到XML + XSL格式时首先在客户端中解析网页一样，我们也可以使用XSL XML将其转换为HTML语言，然后以传统的HTML方式进行解析。该方法是通过获取XSL文件的地址来获取XML源文件的内容，然后使用XML解析器（XMLDOM）组合并将其转换为HTML 3、通过转换为HTML手动定制XML链接解析语言，然后解析链接比较通用，适用于全方位分析。

　　由于相关的超链接信息存储在XML文件中的特定类型的节点中，因此，每次使用XSL转换时，都会在性能上产生不必要的开销。因此，有时，尤其是在跟踪某种类型的网站信息时，它的性能会更高。性能可能仅是获得链接的所需部分，并且有必要使用手动定制的链接解析度。手动配置方法是首先手动查看源XML XSL（在浏览器中查看源文件），找到带有节点名称的超链接（包括文本，图片，附件），并将其添加到配置文件的xmlhref项中。，然后系统将对其进行相应的分析。与同一XSL文档相对应的XML是同构的，因此指定了与每个XSL文档相对应的hreftext（链接文本）和hreflink（链接的URL）。例如，新闻频道网页的相关链接部分采用config.xml格式，例如ritems / item / itemtitle ritems / item itemhref xslsite>…

0

2021-05-11

js提取指定网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

XML中国科学院计算机网络信息中心文章分析和介绍对互联网中XML+XSL

0 个评论

发起人

AI时代内容工厂

XML中国科学院计算机网络信息中心文章分析和介绍对互联网中XML+XSL

0 个评论

发起人

相关问题