chrome插件网页抓取插件新版本都支持插件抓取原理
优采云 发布时间: 2022-07-04 09:00chrome插件网页抓取插件新版本都支持插件抓取原理
chrome插件网页抓取插件新版本都支持chrome插件,相比旧版本chrome插件chrome插件抓取原理分三种:1.googlespiderapi,这种方式是依赖于谷歌的开放api,开放,多数是封装好的,可以让开发者自己抓取其中的cookie,执行spiderscript等功能,这种抓取方式运行比较麻烦,得安装插件,缺点是抓取的cookie,spiderscript可能会被其他插件利用抓取cookie,导致抓取到的内容被篡改,用户操作频繁的话会反应不灵敏。
2.yandex-ajax,这种抓取方式需要指定“yandex-”作为ajax和“ajax-mfrontend”的前缀或ajax_mfrontend作为ajax的后缀,才能使用自己开发的ajax-mfrontend-a,首先在“选择性载入”里面把yandex-ajax设置成“yandex-mfrontend”,然后在百度搜索栏前面加上这个方法:“chrome-xx-ajax",加好之后再chrome搜索栏里面加上“chrome-xxx”,就能使用了。
3.chromewebstore,这种方式需要在chrome浏览器上安装chromewebstore插件,实现方式如下:在chrome网上应用商店内搜索:“chromewebstore-image”,然后将“chromewebstore”替换为自己网站的名称,以便于将来chrome访问本站内容。这种方式运行快速,抓取前端页面是通过谷歌api抓取的,不太依赖网站页面。
下面介绍几个正则表达式抓取cookie的网站:/-methods/?spider:get_cookie.axml简单的restful框架,支持javascript语法解析抓取cookie/admin//items/get_cookie.axml基于libzootwork框架,功能强大,可以抓取js文件,html页面等,自己打包抓取也很方便。
/items/org/javascript_cookie.axmlkeyvaluefortheitemgetcookie.axml正则表达式提取特定元素,把包含某个元素的集合,提取成string或list对象/libs/list//items/search_item_abs.axml基于libzootwork框架,抓取js文件,html页面,还可以添加对话框,自定义各种尺寸,各种页面配置,可以按照某些条件抓取/hello.js简单的restful框架,支持javascript语法解析抓取cookie/wifi/wifi_mirror/t.axml主要支持两种集合操作,获取首部和尾部cookie/admin/get_print_cookie.axml每个cookie一个正则表达式,不支持单一正则,这个的话,可以自己实现一个:。