搜索引擎如何抓取网页( 基于IE内核和DOM的面向垂直搜索引擎中怎样动态生成的主题网页)

优采云 发布时间: 2022-01-28 01:19

  搜索引擎如何抓取网页(

基于IE内核和DOM的面向垂直搜索引擎中怎样动态生成的主题网页)

  

  一种垂直搜索引擎的动态网页爬取方法 杨希 罗彦静 钟峰,北京航空航天大学软件工程学院 fetcher 的一个难题 本文提出了一种基于IE内核和DOM的垂直搜索引擎动态网页爬取方法。实验表明,该方法对动态网页和主题网页抓取的平均准确率在95以上,平均召回率在97以上。以上[关键词]动态网页IE内核DOM提取方式1介绍网页爬虫垂直搜索引擎只抓取与主题相关的网页,同时必须在缩小搜索范围的前提下更深入地抓取网页,包括占网页总数的比例越来越大的动态网页目前的网络爬虫一般不能爬取动态网页。为了解决动态网页的抓取问题,只抓取与主题相关的动态网页,本文提出了一种面向垂直搜索引擎的爬虫。获取动态网页的方法是基于IE Internet Explorer内核和DHTML对象模型[1]。DHTML对象模型用于提取页面中收录的与获取动态网页相关的网页元素信息。每个网页元素对应于 IE 内核的 MSHTML 组件中的一个接口。对应界面的操作实现网页上相关链接或查询按钮的自动点击,模拟用户“ s 在浏览器上浏览网页的行为。数据库交互动态生成的主题网页 2 基于IE内核和DOM的动态网页抓取方法 函数参考[1]给出了WebBrowser组件、MSHTML组件、URLMon组件和WinInet位于底层的IE架构,这是IE的核心。在该方法中,这些 IE 内核用于模拟用户在网页中查找并点击链接或按钮以触发浏览器的动作。下载网页 MSHTML 可以读取和显示 HTML 网页。MSHTML 组件定义了 DOM[2] DocumentObjectModel 将所有元素及其属性封装在 HTML 语言中。DOM 模型中的每个元素都有对应的对象和接口。这些接口的操作用于访问指定网页中的所有元素。22 模拟浏览操作,获取动态网页。动态网页需要执行aspphpjspnet等程序生成客户端网页代码。网页静态网页的URL以html超链接的形式直接嵌入到客户端网页中。目前已知的HTML文件中的网络爬虫程序可以很容易地爬取相应的页面[3] 仔细研究网页结构和HTML语言可以发现,获取指定网页中的动态网页主要有两种方式。点击以图片等形式提供的界面网页元素后,客户端响应一段脚本代码,需要执行该脚本代码,动态生成URL2查询界面。用户填写表单,向服务器提交查询,服务器返回动态生成的查询结果页面。无论哪种方式,它都是从浏览器用户的角度填写的。表单或鼠标反复点击,所以只要在指定网页上找到需要填写的获取动态页面的表单元素或需要点击的按钮图标,然后对相关元素进行操作即可模拟用户在浏览器中填写各种表单或者点击操作,实现自动浏览,最后将动态页面下载到本地抓取到 23. 生成提取模式,定位相关元素。IE内核的MSHTML组件在DOM中定义了DOM。网页中的每个元素通过 IE 对应 DOM 树的一个节点。内核支持 DOM 树。每个指定网页对应一棵DOM树,从而将网页中某个元素的搜索转化为该元素在DOM树中对应节点的定位和搜索,以传递一个或多个指定的样本网页. 学习抓取具有相似结构的所有此类网页必须生成提取模式。使用生成的提取模式从所有相似的网页中提取网页元素信息,以获得动态的网页元素信息。在 DHTMLDOM 模型的支持下,可以映射收录要提取信息的网页元素。搜索类别会得到属于该类别的所有元素的集合,然后在该集合中查找提取的信息所在的网页元素。网页元素的nameid等属性或valuehref等网页元素的其他属性在这些方法无法区分网页元素时进行定位,最后可以通过代表网页元素的标签中的文本内容来定位识别 24 基于 IE 内核爬取少量用户参与的动态网页,使用项目开发的抽取模式辅助生成工具*敏*感*词*生成抽取模式,然后输入抽取模式作为爬取配置信息进入网络爬虫。网络爬虫WebCrawler在抽取模式的引导下,只定位和找到与动态生成的主题网页相关的网页元素信息,例如表单中的文本输入元素或可点击的按钮图片等,然后通过定位到的网页元素对应的界面对该元素进行操作。自动填表和自动点击功能触发集成IE核心组件WebBrowser的网络爬虫执行客户端脚本代码,向服务器发送请求下载对应的主题网页。服务器响应请求,将动态生成的页面返回给爬虫进行最终爬取。通过实验3对提取方式确定的相应主题网页进行验证。为了便于评估,预先预设了一些具有层次结构的垂直站点位置。对于 4 爬取多达 5500 个页面,本文提出的基于IE内核并结合辅助生成工具的网页爬取方法在准确率采集上远优于目标页面数,总爬取次数平均在95次以上目前,大部分系统使用的分类器方法采用本文方法的召回率。召回率采集 ö 目标页面总数达到97个左右,而分类器方法一般只有70个左右。 结论 网页抓取的关键技术——动态网页抓取——基于——深入研究,提出新方法。该方法利用IE内核的事件触发机制和DOM的支持,自动填表,模拟用户 s 鼠标点击实现自动浏览功能,然后抓取动态网页。实验表明,该方法在构建辅助生成工具的基础上,采用基于IE内核的主题网页爬取方法,*敏*感*词*生成爬取配置信息,可以有效地爬取动态网页。参考文献[1] internetexplorerdevelopmentMSDNdevelopment2Center [DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usaspx2007-03 [2] DocumentObjectModelW3CRecommendation1998 [DBöOL]httpööwwww3orgöT-RöREC-DOM级-1ö1998-10[3] AllanHeydonMarcNajorkMercatorAscalabelex2tensibleWebCrawler [J] WorldWideWeb199924219-229502计算机和网络信息TECHNOLOGYThe的深度从网页提供的查询入口抓取动态网页为4,最大抓取5500页。本文提出的基于IE内核并结合辅助生成工具的网页爬取方法在准确率采集目标页面数ö总爬取次数平均在95个以上,比目前大多数系统使用的分类器方法的召回率要好很多。本文方法的召回率是召回率 采集 目标页面数 ö 目标页面总数达到 97 左右分类器方法一般只有 70 左右。 4 结论 本文提出了一个在深入研究垂直搜索引擎网页抓取关键技术——动态网页抓取的基础上提出的新方法。此方法传递 IE 内核的事件。DOM的激发机制和支持,通过在浏览器上自动填写表单,模拟用户鼠标点击捕捉动态网页,实现自动浏览。IE内核主题网页爬取方法可以有效爬取动态网页参考[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usapx2007-03[2]DocumentObjectModelW3CRecommendation1998[DBöOL]httpööwwww3orgöT-RöREC-DOM-Level-1ö1998-10 [3]AllanHeydonMarcNajorkWeblerMercatorAs [J]WorldWideWeb199924219-229502科技信息计算机与网络从网页提供的查询入口抓取动态网页的深度为4,最大抓取5500页。本文提出的基于IE内核并结合辅助生成工具的网页爬取方法在准确率采集目标页面数ö总爬取次数平均在95个以上,比目前大多数系统使用的分类器方法的召回率要好很多。本文方法的召回率是召回率 采集 目标页面数 ö 目标页面总数达到 97 左右分类器方法一般只有 70 左右。 4 结论 本文提出了一个在深入研究垂直搜索引擎网页抓取关键技术——动态网页抓取的基础上提出的新方法。此方法传递 IE 内核的事件。DOM的激发机制和支持,通过在浏览器上自动填写表单,模拟用户鼠标点击捕捉动态网页,实现自动浏览。IE内核主题网页的爬取方法可以有效爬取动态网页参考[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usapx2007-03[2]DocumentObjectModelW3CRecommendation1998[DBöOL]httpööwwww3orgöT-RöREC-DOM-Level-1ö1998-10 [3]AllanHeydonMarcNajorkMercatorAsscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络目标页面总数约为97个,而分类器方法一般只有70个左右。4 结束语 本文在深入研究的基础上提出了垂直搜索引擎网络爬取的关键技术——动态网络爬取。一种新方法。该方法利用IE内核的事件触发机制和对DOM的支持,通过自动填写表单,模拟用户在浏览器上的鼠标点击,实现自动浏览功能,进而爬取动态网页。在自动生成爬取配置信息的基础上,基于IE内核主题网页的爬取方法可以有效爬取动态网页参考[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usapx2007-03[2]DocumentObjectModelW3CRecommendation1998[DBöOL]httpööwwww3orgöT-RöREC-DOM-Level-1ö1998-10[ 3]AllanHeydonMarcNajorkMercatorAsscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络目标页面总数约为97个,而分类器方法一般只有70个左右。 4 结语 本文提出了垂直搜索引擎网络爬取的关键技术——动态网络爬虫——在深入研究的基础上。一种新方法。该方法利用IE内核的事件触发机制和对DOM的支持,通过自动填写表单,模拟用户在浏览器上的鼠标点击,实现自动浏览功能,进而爬取动态网页。在自动生成爬取配置信息的基础上,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线