话题：可视化 - 自动文章采集器-优采云官网

开源爬虫框架各有哪些优缺点？

采集交流 • 优采云发表了文章 • 0 个评论 • 261 次浏览 • 2020-06-27 08:00 • 来自相关话题

　　爬虫是一个很复杂的系统，可以从多种不同的角度进行分类，前面一些回答早已涉及了不少，我想从信息抓取和提取，手工编码和可视化，静态页面剖析和互动这三个方面再讨论一下。
　　1,信息抓取和提取
　　信息抓取是指怎样获得网站上的信息的过程，而信息提取是指怎样从获得的页面上辨识出自己所须要的信息的过程。使用爬虫爬取单个或则少数网站的时侯，那么主要需解决抓取问题，而目标网站数目好多的时侯，信息提取就成为主要矛盾。
　　举个事例，Scrapy是一个解决信息抓取问题的软件平台。而使用Xpath或则CSS Selector可进行少量站点的信息提取，但面对大规模信息提取Xpath就无能为力了，在这些情况下，应该使用一些机器学习算法开源爬虫软件，比如IBL（Instance based Learning），可以按照某网站的一个或则少量页面进行学习，然后快速生成该网站的辨识模型，scrapely就是这样的一个软件模块。
　　2,手工编码和可视化
　　我们在网路上见到的大部分教程，都是基于某种编程语言（比如Python）和软件库（比如Scrapy）进行手工编码的，这种方法的优点是十分灵活，可扩展性好，能针对特定站点给出高效的实现。但它的缺点也是显著的，就是须要爬虫开发人员懂编程语言，门槛比较高。
　　为了解决这个问题，人们又提出了可视化爬虫，在定义可视化爬虫时，远程网站的页面将直观地展示下来，然后人们可以通过键盘进行点击操作，就可以定义爬取逻辑（包括爬取目标、爬取次序、爬取深度等）和抓取逻辑（页面中的哪部份内容应当被辨识为属性），和手工编码爬虫相比，可视化爬虫大大增加了爬虫定义的门槛，但是爬取效率不如手工编程的高，另外，由于可视化爬虫对爬取逻辑进行了具象，可能难以做到对于一些特殊网站的支持。
　　Portia就是一个典型的可视化爬虫，人们常常觉得pyspider也是一个可视化爬虫，但似乎并不是，pyspider只是一个拥有GUI的手工编码爬虫。
　　3,被动爬虫和互动爬虫
　　大部分爬虫都是基于对页面进行剖析，如果须要将使用浏览器引擎对页面中的Javascript代码进行执行，然后获得渲染后的页面，再从中提取出自己所须要的信息。
　　但有些情况下，我们还须要才能和这种页面进行互动，比如输入用户名和口令登录到系统中去之后再进行爬取，又例如我们须要输入关键字之后只爬取搜索结果。在这种情况下，我们须要在爬虫定义时才能将这种用户输入保存出来，然后在爬虫执行期，将这种交互信息重新回放回来，就像一个人在做这种动作一样。
　　Selenium是这些爬虫的一个事例，用户用Selenium IDE录制用户动作，保存为Selenese命令序列，然后使用Web driver模仿浏览器重放这种命令。交互式爬虫的优点是可以象人一样作出各类动作，缺点是因为须要建立完整的浏览器引擎开源爬虫软件，系统开支十分大，爬取效率太低。
　　最后，做一个广告，我近来开源了一个爬虫portia-dashboard，按照上面的分类方式，这个爬虫是一个“面向多个站点的”、“主要支持信息抓取的”、“同时支持被动抓取和互动抓取” 的“可视化”爬虫，而且提供了Portia中没有的dashboard功能，使用dashboard可以布署爬虫、启动爬虫、监控爬虫状态，浏览提取的信息等等。
　　使用代码安装可能有点复杂，最简单的方式是使用docker，欢迎你们使用，并提出宝贵意见。查看全部

基于chrome插件的爬虫可视化点选配置工具

采集交流 • 优采云发表了文章 • 0 个评论 • 351 次浏览 • 2020-05-29 08:01 • 来自相关话题

　　Chrome插件是一个用Web技术开发、用来提高浏览器功能的软件，它虽然就是一个由HTML、CSS、JS、图片等资源组成的一个.crx后缀的压缩包.
　　Chrome插件没有严格的项目结构要求，只要保证本目录有一个manifest.json即可，也不需要专门的IDE，普通的web开发工具即可。
　　从右上角菜单->更多工具->扩展程序可以步入插件管理页面，也可以直接在地址栏输入chrome://extensions 访问。
　　
　　网上介绍chrome插件开发的文章已经好多了，这里就不赘言了，只列一些项目中须要的
　　这是一个Chrome插件最重要也是必不可少的文件，用来配置所有和插件相关的配置，必须置于根目录。其中，manifest_version、name、version3个是必不可少的，description和icons是推荐的。
　　下面给出的是一些常见的配置项，均有英文注释
　　{
// 清单文件的版本，这个必须写，而且必须是2
"manifest_version": 2,
// 插件的名称
"name": "demo",
// 插件的版本
"version": "1.0.0",
// 插件描述
"description": "简单的Chrome扩展demo",
// 图标，一般偷懒全部用一个尺寸的也没问题
"icons":
{
"16": "img/icon.png",
"48": "img/icon.png",
"128": "img/icon.png"
},
// 会一直常驻的后台JS或后台页面
"background":
{
// 2种指定方式，如果指定JS，那么会自动生成一个背景页
"page": "background.html"
//"scripts": ["js/background.js"]
},
// 浏览器右上角图标设置，browser_action、page_action、app必须三选一
"browser_action":
{
"default_icon": "img/icon.png",
// 图标悬停时的标题，可选
"default_title": "这是一个示例Chrome插件",
"default_popup": "popup.html"
},
// 当某些特定页面打开才显示的图标
/*"page_action":
{
"default_icon": "img/icon.png",
"default_title": "我是pageAction",
"default_popup": "popup.html"
},*/
// 需要直接注入页面的JS
"content_scripts":
[
{
//"matches": ["http://*/*", "https://*/*"],
// "<all_urls>" 表示匹配所有地址
"matches": ["<all_urls>"],
// 多个JS按顺序注入
"js": ["js/jquery-1.8.3.js", "js/content-script.js"],
// JS的注入可以随便一点，但是CSS的注意就要千万小心了，因为一不小心就可能影响全局样式
"css": ["css/custom.css"],
// 代码注入的时间，可选值： "document_start", "document_end", or "document_idle"，最后一个表示页面空闲时，默认document_idle
"run_at": "document_start"
},
// 这里仅仅是为了演示content-script可以配置多个规则
{
"matches": ["*://*/*.png", "*://*/*.jpg", "*://*/*.gif", "*://*/*.bmp"],
"js": ["js/show-image-content-size.js"]
}
],
// 权限申请
"permissions":
[
"contextMenus", // 右键菜单
"tabs", // 标签
"notifications", // 通知
"webRequest", // web请求
"webRequestBlocking",
"storage", // 插件本地存储
"http://*/*", // 可以通过executeScript或者insertCSS访问的网站
"https://*/*" // 可以通过executeScript或者insertCSS访问的网站
],
// 普通页面能够直接访问的插件资源列表，如果不设置是无法直接访问的
"web_accessible_resources": ["js/inject.js"],
// 插件主页，这个很重要，不要浪费了这个免费广告位
"homepage_url": "https://www.baidu.com",
// 覆盖浏览器默认页面
"chrome_url_overrides":
{
// 覆盖浏览器默认的新标签页
"newtab": "newtab.html"
},
// Chrome40以前的插件配置页写法
"options_page": "options.html",
// Chrome40以后的插件配置页写法，如果2个都写，新版Chrome只认后面这一个
"options_ui":
{
"page": "options.html",
// 添加一些默认的样式，推荐使用
"chrome_style": true
},
// 向地址栏注册一个关键字以提供搜索建议，只能设置一个关键字
"omnibox": { "keyword" : "go" },
// 默认语言
"default_locale": "zh_CN",
// devtools页面入口，注意只能指向一个HTML文件，不能是JS文件
"devtools_page": "devtools.html"
}
　　所谓content-scripts，其实就是Chrome插件中向页面注入脚本的一种方式（虽然名为script，其实还可以包括css的），借助content-scripts我们可以实现通过配置的形式轻松向指定页面注入JS和CSS（如果须要动态注入，可以参考下文），最常见的例如：广告屏蔽、页面CSS订制，等等。
　　示例配置：
　　{
// 需要直接注入页面的JS
"content_scripts":
[
{
//"matches": ["http://*/*", "https://*/*"],
// "<all_urls>" 表示匹配所有地址
"matches": ["<all_urls>"],
// 多个JS按顺序注入
"js": ["js/jquery-1.8.3.js", "js/content-script.js"],
// JS的注入可以随便一点，但是CSS的注意就要千万小心了，因为一不小心就可能影响全局样式
"css": ["css/custom.css"],
// 代码注入的时间，可选值： "document_start", "document_end", or "document_idle"，最后一个表示页面空闲时，默认document_idle
"run_at": "document_start"
}
],
}
　　特别注意，如果没有主动指定run_at为document_start（默认为document_idle），下面这些代码是不会生效的
　　document.addEventListener('DOMContentLoaded', function()
{
console.log('我被执行了！');
});
　　content-scripts和原始页面共享DOM，但是不共享JS，如要访问页面JS（例如某个JS变量），只能通过`injected
　　js来实现。content-scripts不能访问绝大部分chrome.xxx.api`，除了下边这4种：
　　由于content-script可以注入到页面，所以我们即将开发的插件的主要功能就在这里
　　后台（姑且如此翻译吧）爬虫软件增加网页访问，是一个常驻的页面，它的生命周期是插件中所有类型页面中最长的，它随着浏览器的打开而打开，随着浏览器的关掉而关掉，所以一般把须要仍然运行
　　的、启动就运行的、全局的代码放到background上面。
　　background的权限十分高，几乎可以调用所有的Chrome扩充API（除了devtools），而且它可以无限制跨域，也就是可以跨域访问任何网站而无需要
　　求对方设置CORS。
　　经过测试，其实不止是background，所有的直接通过chrome-extension://id/xx.html这些方法打开的网页都可以无限制跨域。
　　配置中，background可以通过page指定一张网页，也可以通过scripts直接指定一个JS，Chrome会手动为这个JS生成一个默认的网页：
　　{
// 会一直常驻的后台JS或后台页面
"background":
{
// 2种指定方式，如果指定JS，那么会自动生成一个背景页
"page": "background.html"
//"scripts": ["js/background.js"]
},
}
　　这里顺带介绍一下event-pages，它是一个哪些东西呢？鉴于background生命周期很长，长时间挂载后台可能会影响性能，所以Google又弄一个event-pages，在配置文件上，它与background的惟一区别就是多了一个persistent参数：
　　{
"background":
{
"scripts": ["event-page.js"],
"persistent": false
},
}
　　它的生命周期是：在被须要时加载，在空闲时被关闭，什么叫被须要时呢？比如第一次安装、插件更新、有content-script向它发送消息，等等。
　　我们要开发的插件目前用到了background和content_scripts这两个选项，如果之后添加新功能时再瞧瞧其他的选项爬虫软件增加网页访问，对chrome插件开发感兴趣的朋友可以瞧瞧这本书查看全部

　　网上介绍chrome插件开发的文章已经好多了，这里就不赘言了，只列一些项目中须要的
　　这是一个Chrome插件最重要也是必不可少的文件，用来配置所有和插件相关的配置，必须置于根目录。其中，manifest_version、name、version3个是必不可少的，description和icons是推荐的。
　　下面给出的是一些常见的配置项，均有英文注释
　　{
// 清单文件的版本，这个必须写，而且必须是2
"manifest_version": 2,
// 插件的名称
"name": "demo",
// 插件的版本
"version": "1.0.0",
// 插件描述
"description": "简单的Chrome扩展demo",
// 图标，一般偷懒全部用一个尺寸的也没问题
"icons":
{
"16": "img/icon.png",
"48": "img/icon.png",
"128": "img/icon.png"
},
// 会一直常驻的后台JS或后台页面
"background":
{
// 2种指定方式，如果指定JS，那么会自动生成一个背景页
"page": "background.html"
//"scripts": ["js/background.js"]
},
// 浏览器右上角图标设置，browser_action、page_action、app必须三选一
"browser_action":
{
"default_icon": "img/icon.png",
// 图标悬停时的标题，可选
"default_title": "这是一个示例Chrome插件",
"default_popup": "popup.html"
},
// 当某些特定页面打开才显示的图标
/*"page_action":
{
"default_icon": "img/icon.png",
"default_title": "我是pageAction",
"default_popup": "popup.html"
},*/
// 需要直接注入页面的JS
"content_scripts":
[
{
//"matches": ["http://*/*", "https://*/*"],
// "<all_urls>" 表示匹配所有地址
"matches": ["<all_urls>"],
// 多个JS按顺序注入
"js": ["js/jquery-1.8.3.js", "js/content-script.js"],
// JS的注入可以随便一点，但是CSS的注意就要千万小心了，因为一不小心就可能影响全局样式
"css": ["css/custom.css"],
// 代码注入的时间，可选值： "document_start", "document_end", or "document_idle"，最后一个表示页面空闲时，默认document_idle
"run_at": "document_start"
},
// 这里仅仅是为了演示content-script可以配置多个规则
{
"matches": ["*://*/*.png", "*://*/*.jpg", "*://*/*.gif", "*://*/*.bmp"],
"js": ["js/show-image-content-size.js"]
}
],
// 权限申请
"permissions":
[
"contextMenus", // 右键菜单
"tabs", // 标签
"notifications", // 通知
"webRequest", // web请求
"webRequestBlocking",
"storage", // 插件本地存储
"http://*/*", // 可以通过executeScript或者insertCSS访问的网站
"https://*/*" // 可以通过executeScript或者insertCSS访问的网站
],
// 普通页面能够直接访问的插件资源列表，如果不设置是无法直接访问的
"web_accessible_resources": ["js/inject.js"],
// 插件主页，这个很重要，不要浪费了这个免费广告位
"homepage_url": "https://www.baidu.com",
// 覆盖浏览器默认页面
"chrome_url_overrides":
{
// 覆盖浏览器默认的新标签页
"newtab": "newtab.html"
},
// Chrome40以前的插件配置页写法
"options_page": "options.html",
// Chrome40以后的插件配置页写法，如果2个都写，新版Chrome只认后面这一个
"options_ui":
{
"page": "options.html",
// 添加一些默认的样式，推荐使用
"chrome_style": true
},
// 向地址栏注册一个关键字以提供搜索建议，只能设置一个关键字
"omnibox": { "keyword" : "go" },
// 默认语言
"default_locale": "zh_CN",
// devtools页面入口，注意只能指向一个HTML文件，不能是JS文件
"devtools_page": "devtools.html"
}
　　所谓content-scripts，其实就是Chrome插件中向页面注入脚本的一种方式（虽然名为script，其实还可以包括css的），借助content-scripts我们可以实现通过配置的形式轻松向指定页面注入JS和CSS（如果须要动态注入，可以参考下文），最常见的例如：广告屏蔽、页面CSS订制，等等。
　　示例配置：
　　{
// 需要直接注入页面的JS
"content_scripts":
[
{
//"matches": ["http://*/*", "https://*/*"],
// "<all_urls>" 表示匹配所有地址
"matches": ["<all_urls>"],
// 多个JS按顺序注入
"js": ["js/jquery-1.8.3.js", "js/content-script.js"],
// JS的注入可以随便一点，但是CSS的注意就要千万小心了，因为一不小心就可能影响全局样式
"css": ["css/custom.css"],
// 代码注入的时间，可选值： "document_start", "document_end", or "document_idle"，最后一个表示页面空闲时，默认document_idle
"run_at": "document_start"
}
],
}
　　特别注意，如果没有主动指定run_at为document_start（默认为document_idle），下面这些代码是不会生效的
　　document.addEventListener('DOMContentLoaded', function()
{
console.log('我被执行了！');
});
　　content-scripts和原始页面共享DOM，但是不共享JS，如要访问页面JS（例如某个JS变量），只能通过`injected
　　js来实现。content-scripts不能访问绝大部分chrome.xxx.api`，除了下边这4种：
　　由于content-script可以注入到页面，所以我们即将开发的插件的主要功能就在这里
　　后台（姑且如此翻译吧）爬虫软件增加网页访问，是一个常驻的页面，它的生命周期是插件中所有类型页面中最长的，它随着浏览器的打开而打开，随着浏览器的关掉而关掉，所以一般把须要仍然运行
　　的、启动就运行的、全局的代码放到background上面。
　　background的权限十分高，几乎可以调用所有的Chrome扩充API（除了devtools），而且它可以无限制跨域，也就是可以跨域访问任何网站而无需要
　　求对方设置CORS。
　　经过测试，其实不止是background，所有的直接通过chrome-extension://id/xx.html这些方法打开的网页都可以无限制跨域。
　　配置中，background可以通过page指定一张网页，也可以通过scripts直接指定一个JS，Chrome会手动为这个JS生成一个默认的网页：
　　{
// 会一直常驻的后台JS或后台页面
"background":
{
// 2种指定方式，如果指定JS，那么会自动生成一个背景页
"page": "background.html"
//"scripts": ["js/background.js"]
},
}
　　这里顺带介绍一下event-pages，它是一个哪些东西呢？鉴于background生命周期很长，长时间挂载后台可能会影响性能，所以Google又弄一个event-pages，在配置文件上，它与background的惟一区别就是多了一个persistent参数：
　　{
"background":
{
"scripts": ["event-page.js"],
"persistent": false
},
}
　　它的生命周期是：在被须要时加载，在空闲时被关闭，什么叫被须要时呢？比如第一次安装、插件更新、有content-script向它发送消息，等等。
　　我们要开发的插件目前用到了background和content_scripts这两个选项，如果之后添加新功能时再瞧瞧其他的选项爬虫软件增加网页访问，对chrome插件开发感兴趣的朋友可以瞧瞧这本书

开源爬虫框架各有哪些优缺点？

采集交流 • 优采云发表了文章 • 0 个评论 • 261 次浏览 • 2020-06-27 08:00 • 来自相关话题

基于chrome插件的爬虫可视化点选配置工具

采集交流 • 优采云发表了文章 • 0 个评论 • 351 次浏览 • 2020-05-29 08:01 • 来自相关话题

更多...

AI时代内容工厂

可视化

开源爬虫框架各有哪些优缺点？

基于chrome插件的爬虫可视化点选配置工具

开源爬虫框架各有哪些优缺点？

基于chrome插件的爬虫可视化点选配置工具

话题描述

相关话题

1 人关注该话题