手机网页视频抓取(抓取更多类手机游戏网页数据定义demo__game_basic主题)
优采云 发布时间: 2021-10-07 20:20手机网页视频抓取(抓取更多类手机游戏网页数据定义demo__game_basic主题)
在抓取更多类型的手游网页数据定义demo_list_game_basic主题时,我们选择了示例页面/html/game/dongzuo/。我们继续研究这个网页的结构,我们看到了两个分类列表(图1A和B)。经过分析,发现两个列表都指向同一个网页,但是网页的网址不同(其实是一样的,A使用网页网址的路径名访问默认的index.html页面,而B使用完整的URL地址),您可以选择A或B,但为了与demo_list_game_basic保持一致,我们选择A。 图1放大)为其他类型的手游定义网页数据捕获规则时可以使用快捷方式列表。如果其他类型的手游列表页面的网页结构与动作类型的网页结构相同,则快捷方式非常有效。如果不同,则需要重新定义一个符合目标类的信息结构。下面我们解释如何使用快捷方式。使用快捷方式定义其他类型的 Web 数据捕获规则。在 MetaStudio 的 Schema List 工作台上找到这个主题,并加载它。等到 MetaStudio 底部的状态栏显示出来。在MetaStudio的URL输入栏输入运动射击网页的URL(/html/game/sheji/),回车,等待网页加载(显示状态栏),点击菜单文件->分析页面(图2) 如果网页结构与action类完全一致,中间不会出现信息属性定位不到的对话框,但最后会弹出对话框说:
它可能需要重命名。这是一条提示信息,表示分析成功,页面结构一致。demo_list_game_basic主题的网页数据抓取规则可以用来抓取其他类型的游戏列表信息。此时,需要做出决定: • 体育射击游戏排行榜的主题是否需要与动作类别保持一致?• 运动射击类游戏详情页的抓取主题是否与动作类游戏的抓取主题一致?图 2 放大) 上面描述的提示框是供操作员做这个决定的。不同的决策可能会产生 4 种不同的网络爬虫路线图,如图 3 所示。• 图 3A 显示游戏列表页和游戏详情页使用相同的数据捕获主题 • 图 3B 显示游戏列表页使用不同的数据捕获主题,而游戏详情页使用相同的主题 • 图 3C,表示游戏列表页使用相同的数据抓取主题,而游戏详情页使用不同的主题•图3D,表示使用不同的游戏抓取主题,图3放大)命名主题的目的是,一方面是给定主题的网络爬虫的规则路线图,另一方面是让数据集成软件能够以不同的方式处理所爬取的网络数据。因此,原则上不同语义的网页应该使用不同的主题名称,例如图3D所示的方式。然而,语义本身的理解也是一个分类问题。如果不想区分动作手游和射击游戏,语义可以是“游戏”,那么可以使用图3A。这时候网页数据抓取结果程序就不要尝试区分手机动作游戏和射击游戏了。
一般来说,没有理由使用图 3B。它首先被分离,然后混合在一起。没有理由这样做。可以使用图 3C。抓取列表数据的时候是混在一起的,因为只是抓取后续主题的超链接而已。区别对待它们意义不大。类别的处理方式不同。这是一种先进的技术,可能并不总是符合要求。根据实际情况,查看网页上是否有区分标记,见下一节。我们不妨采用每个类型的手游使用不同主题的基本原则,即Figure 3D。执行以下步骤1. 在主题编辑器工作台上为主题命名:demo_game_list_sheji2. 将线索编辑器工作台上的信息线索(用于抓取详细的游戏信息网页数据)的主题命名为:demo_game_sheji。工作台上还有翻页的线索线索1。主题名称应更改为 demo_game_list_sheji。你不需要输入它。可以通过两次点击inthread复选框自动填写demo_game_list_sheji(见图4)3. 上传的信息*敏*感*词*4放大) 总结以上快捷键主要用于网页结构一致的情况下。如果分类网页的结构不同,分析页面操作不完全成功,则需要修改整理框的结构。在这种情况下,最好使用图 3D 中的网络爬虫路线图,因为具有不同的主题,网络爬虫使用不同的爬取路径,肯定不会混淆。如果使用图 3A 或图 3C,则必须在同一主题下定义多个信息结构。获取验证规则决定了使用哪种信息结构来获取当前网页。当定义的信息结构不明确(语义交集)时,可能会判断错误。
以上方法继续扩展到其他类别,针对本次目标的手游网站定义了12个类别的列表爬取主题。下一步做什么 目前有12个游戏分类列表主题,它们都有一个线索。DataScraper 网络爬虫从 12 条线索开始。它首先抓取游戏列表和超链接,然后抓取详细的游戏信息。类别是可见的。网页列表是网络爬虫的入口点,称为*敏*感*词*页。如果要向前扩展话题网络图,使得爬取上一个话题的网页时得到12条线索,而不是手动创建,那么,当在网站上添加类别时,网络爬虫可以自动添加分类列表主题的线索数量,我该怎么办?在下一节中解释。