ajax抓取网页内容( 北京交通大学计算机与信息技术学院北京100044摘要(组图))
优采云 发布时间: 2022-04-13 14:37ajax抓取网页内容(
北京交通大学计算机与信息技术学院北京100044摘要(组图))
第 38 卷,第 10 期,专辑,2011 年 10 月,计算机科学 Vol38No. 10SuppComputerScience0ct2011采集Ajan Web Crawler Research and Implementation Wang Jia Wei Huiqin 北京交通大学计算机与信息学院 北京 100044 摘要 使用浏览器API操作网页元素,模拟用户行为采集Aj Qiang 网页信息是基于同一个站点上同类型Ajax网页结构的相似性。预*敏*感*词*大师。主要研究方向是计算机网络与数据库 E-mnilowmgi 婚姻 163.00ln Dian ■ 秦暖教授的研究方向是计算机网络与数据库。middot196middot 此示例图解释如下。点击状态sl的ldquo/body/div[1]/a[2]rdquo表示的网页元素。可以在状态 S3 中转换到状态 SzI。将鼠标移动到ldquoIbodyldiv[1]/a[2]rdquo表示的网页元素上,可以转换为状态s2等。3.2 有效
样例网页采用全检测扫描的方法来查找网页中的有效元素。查找过程如下: 1PrcccdmPmpmcpainitORL2 获取初始状态,构建该状态的DOM,并保存状态的标识和状态的内容。whUe 仍然有未处理的状态 4 如果状态是第一次处理并且 5 保持状态。获取触发事件表 6d7 查询触发事件表 8wⅦe 请说明还有事件需要处理 9 触发事件 10 获取触发事件后的状态 11.1f 给Aiax的新状态有效 12. 添加新的对应标识获得了Ajldquo的野心加状态库到logo库。13. 遇到触发事件前的状态 14. endwhile15endwhile 该流程图中有两个存储结构状态标识库和状态库状态标识库,用于存储每十个Ajax状态标识。状态的hiax事件操作的网页元素的XPath是从状态序号的起始状态和状态的XPath得到的。DOM树组合状态库保存Ajax状态的序号所有内容处理_番口是根据网页链接获取的初始状态浏览器自动执行过程中的重要步骤如下1触发事件列表是通过遍历AjaX 状态的 DOM 树 得到的结果是基于对每个站点的分析。Feng系统中找到的火灾事件的元素仅限于a标签中的元素,div 标签和 spangt 标签。2 必须确定新获得的Ajax状态的有效性。有效性判断不仅要满足hiax状态结构的相似性,还要判断内容的出现。为了改变,系统使用简单的树匹配算法03来检测Ajax状态的结构相似度,如果少数节点的内容发生了变化,则确定Ajax状态下相似度较大的DOM节点的内容。那么就认为是无效的Aj8x状态。将保存的Ajax状态添加到状态库中,相应的标记添加到状态标记库中。3 状态再现由于浏览器目前不支持返回到Aj8X状态的操作,返回执行动作之前的状态是基于从有向状态转移图中得到的4个周期完成对样本触发元素的搜索。由于状态标识符库收录有效的 Ajax 状态标识符,因此可以从页面中提取有效的触发元素 XPeth 和相应的操作。因此,在推理完成后会得到网页中的有效信息。有效触发元素规范 对找到的有效触发元素进行元素序列号规范,其中每个触发元素的名称和动作都相同。例如,对于这种类型的触发元素,ldquo/body/div[8]/div[1]/div[1]/ul/li[3]/adlckrdquoldquo/body/div[8]/div[1]/dlv[1]/ul/li[ 4]/acli baseldquo/body/div[8]/dlv[1]/div[1]/ul/li[5]/ac11cp还原结果为ldquo/lmdy/div[8]/div[1]/div[ 1]/ul/ll[]/aclIckrdquo2 有效触发元素水平分类对这些有效触发元素的研究表明,这些触发元素可以分为两种模式。一种是独立模式,另一种是关联模式——独立模式。这种模式意味着每个元素代表一个 Aj8x 状态。例如图2中,以文本为数字的页面元素,每个A页面元素代表一页评论信息—— Day 1 图2 独立模式 模式2 关联模式 在该模式下,每个状态都与之前的状态相关触发事件。例如,一类对搜狗新闻评论有效的触发元素。@采集系统根据元素的文本信息完成信息的排序采集对于米德兰模式的动态信息搜索系统,系统搜索固定网页元素采集例如,在图3的情况下。系统在当前Ajax状态下寻找带有文本ldquo下一页rdquo的有效触发元素触发该元素完成信息采集设置4j Ajax页面信息采集@ >Stage Ajax网页信息采集Stage是根据上一个stage得到的各个页面的有效页面触发元素的Xpath,以及需要越来越多的事件,以及的pattern信息这样的元素来完成动态信息<
iondick/Motion//带有触发元素的操作Model2/Modell/触发元素模式1为独立模式2为关联模式1etgt下一页/Text//有效触发元素的文本/Option此规则收录有效触发元素的Xpath动作模式文本信息还可以根据系统的需要设置存储路径等信息。4 实验结果对触发元件进行了协议处理。我们没有进一步分类有效的触发元素。我们随机采集 3条腾讯新闻评论为待处理 根据站点有效触发元素规则采集选取网页的实验结果如表1所示。实验结果与测试结果对比数据见表一。@采集 动态信息的效率降低了有效信息的重复采集结束语本文提出了一种高效的动态网页采集该方法首先为每个站点选择一些样本网页,并利用页面的相似度发现网页的有效性触发元素和法规,对有效触发元素进行分类,为每个站点建立动态网页信息采集规则实现Ajax网页有效信息的快速性采集由于Ajax站点信息的动态特性,建立相应的重复采集机制是未来研究的重点[6]参考DudaCFreyCKossmannDeta1。AJAXSearchCrawlingIn-dexingandSearchingW song 2. 0ApplicationsACM2008VLDBEndowmentMesbahA80IXlagEVanDeursenACrawlingAJAXbyInfer-ringUserInterfaceStatechallginfin 口]。IEEE。DOI10.1109/IgtWE200824 夏兵,高军,杨冬青等.一种高效的动态脚本网站有效的页面获取方法[J]. 软件研究所中国科学院 Scimdashenceamp 软件杂志 200920l176-189DudaCFreyCKossmannDeta1. Aj "AXCrawllMakingAJAXApplicationSearchable[J]. IEEE. DOI10.1109/IcDE200990 何欣谢志鹏. 基于简单树匹配算法的网页结构相似度测量[J]. 计算机研究与开发200711mdash1777/TPl1-6 Summer. Ajax站点数据采集研究综述[J].情报分析与研究 2010t52mdash57 续第 185 页 ltluenumerationvaluerdquo2rdquo/gtltxsenumerationvaluerdquo3rdquo/gtltxsenumerationvaluerdquo4rdquo/gtltxsenumerationvaluerdquo5rdquo/gt/xsrestrictionlt/xssimpleTypelt/x。sschema 结语 高职商务日语专业教学资源数据库系统实现了实用日语视听日语报刊杂志、旅游日语等课程的Web教学资源的录入,自我评价和自主 评估大量多媒体材料,引导学生朝着明确的目标朝着更加主动和自主的方向学习。在后续工作中,我们将充分考虑系统的个性化服务功能。不断丰富、拓展和完善教学资源,实现高职院校优质资源的共建。共享服务经济社会发展 参考文献[13 全国信息技术标准化技术委员会教育技术分技术委员会。基础教育教学资源元数据规范。http//万维网。凯尔特人。cllE23 孙波。傅伟。基于webService的开放式教育资源图书馆系统研究D]. 中国电子教育2003.1079[33李家厚. 吴振华。陈双银等。美国教育资源门户及其对我国教育资源建设的启示[J]. 电子教育研究2003.867]]]]]]口心口H口西孙博.傅伟。基于webService的开放式教育资源图书馆系统研究D]. 中国电子教育2003.1079[33李家厚. 吴振华。陈双银等。美国教育资源门户及其对我国教育资源建设的启示[J]. 电子教育研究2003.867]]]]]]口心口H口西孙博.傅伟。基于webService的开放式教育资源图书馆系统研究D]. 中国电子教育2003.1079[33李家厚. 吴振华。陈双银等。美国教育资源门户及其对我国的启示 s 教育资源建设[J].电子教育研究2003.867]]]]]]口心口H口西