汇总:【大数据】五、链接分析(PageRank、Topic
优采云 发布时间: 2022-11-11 16:59汇总:【大数据】五、链接分析(PageRank、Topic
文章目录
1. PageRank
术语作弊:
重复单词数千次设置单词的颜色以匹配背景颜色
为了打击学期作弊,谷歌提出了两项创新:
使用 PageRank 技术来模拟 Web 浏览者的行为,更多浏览者访问的页面被认为比浏览较少浏览者访问的页面更重要。在判断网页的内容时,不仅要考虑网页上出现的术语,还要考虑网页链接中或周围使用的术语。
PageRank 是一个为每个网页分配一个真实值的函数。一个网页的PageRank越高,它就越重要。
1.1 常用PageRank算法示例
计算步骤
写出转移矩阵,初始化 v = e/n 不断迭代 v' = Mv
2.避免终止节点
如果图中存在终止节点,则迭代最终计算的 v = 0 向量。
避免终止节点的方法
不断地从图中移除终止节点,最终得到一个强连通图;随机修改冲浪的过程。2.1 消除终止节点
在第一种方法中,如何计算移除点的 PageRank(如 C)?
A、B、D迭代的PageRan分别为2/9、4/9、3/9。那么C的PageRank = 1/3 × 2/9 + 1/2 × 3/9 = 13/54
2.2 采集器 陷阱和“抽税”方法(自环和参数β)
采集器Trap 表示自循环。在计算PageRank的时候,需要加上一个参数β(tax)来避免掉入陷阱。
PageRank的迭代公式是:
例子
3. 面向主题的PageRank
将主题并入公式中,因此公式有一些细微的变化。
例子
汇总:如何采集网页数据导出至excel
如何采集将网页数据导出到excel
如何将网页数据采集导出为excel格式供我们使用?本文将教你如何以图形形式导出到excel。
1.通过浏览器导出网页数据
具体操作:打开网页后,在网页空白处右击,在下拉列表中选择“另存为”,然后在弹出的保存窗口中选择保存类型为“所有网页”。选择保存位置并确认,保存后会自动保存两个文件,一个是网址,一个是保存网页内容元素。
如何导出网页数据,以赶集网采集为例 图1
2.通过网页数据采集器导出网页数据
先传网页数据采集器,下载网页数据采集,然后导出成需要的格式。本文中使用
它是一个简单而强大的优采云采集器。下面是一个完整的优采云采集和导出网页数据的例子。例子中的采集是赶集线上房地产-店铺-深圳-南山类下所有店铺的信息。
示例网站:
第 1 步:创建一个 采集 任务
1)进入主界面,选择“自定义模式”
如何导出网页数据,以赶集网采集为例 图2
2) 将要为采集的网址的网址复制粘贴到网址输入框中,点击“保存网址”
如何导出网页数据,以赶集网采集为例 图3
第 2 步:创建翻页循环
1) 在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个部分。将页面下拉至最下方,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”
如何导出网页数据,以赶集网采集为例 图4
第 3 步:创建列表循环
1) 移动鼠标选择页面上的第一个店铺链接。选中后,系统会自动识别页面中其他类似的链接。在右侧的操作提示框中,选择“全选”
如何导出网页数据,以赶集网采集为例 图5
2)选择“循环通过每个链接”创建一个列表循环
如何导出网页数据,以赶集网采集为例 图6
第四步:提取店铺信息
1)创建列表循环后,系统会自动点击第一个店铺链接进入店铺详情页面。点击所需的字段信息,在右侧的操作提示框中,选择“采集该元素的文本”
如何导出网页数据,以赶集网采集为例 图7
2)字段信息选择完成后,选择对应字段,自定义字段名称。完成后点击左上角的“Save and Launch”启动采集任务
如何导出网页数据,以赶集网采集为例 图8
3) 选择“启动本地采集”
如何导出网页数据,以赶集网采集为例 图9
第 5 步:数据采集 和导出
1)采集完成后会弹出提示,选择“导出数据”
如何导出网页数据,以赶集网采集为例 图10
2)选择“合适的导出方式”导出采集好店铺信息数据
如何导出网页数据,以赶集网采集为例 图11
3)这里我们选择excel作为导出格式,数据导出如下图
如何导出网页数据,以赶集网采集为例 图12
经过以上操作,我们采集就到了赶集网的南山门店信息数据。网站 上其他公共数据的基本采集 步骤相同。有些网页比较复杂(涉及点击、登录、翻页、识别验证码、瀑布流、Ajax),可以在优采云中设置一些高级选项。
数据采集完成后,我们可以将数据导出,为以后的数据分析和挖掘提供数据支持。如上图所示,优采云目前支持的导出格式包括excel 2007、excel 2003、csv文件、HTML文件和导出到数据库。
3.通过excel导出网页数据
1)打开excel(本文以2010为例),点击“数据”中的“From 网站”,在弹出的窗口中,在地址栏中输入目标URL,点击“Go”,窗口将打开将跳转到目标页面
如何导出网页数据,以赶集网采集为例 图13
2)将鼠标移动到对话框中网页表格的左上角,会出现一个黄底黑色箭头,表示Excel已经识别出该网页上的表格。点击箭头,箭头会变成绿色的对勾,表示选表成功,最后点击下方的“导入”,如下图:
如何导出网页数据,以赶集网采集为例 图14
3)选择放置数据的工作表后,点击“确定”,网页数据就会导出到这个工作表中。
4)这种方法获取的数据需要等待很长时间,容易出错。最好使用 采集器 来高效便捷地导出数据。
相关 采集 教程:
网页数据导出
优采云7.0 教程-查看数据和导出数据
网页采集任务导入导出方法及优采云页面介绍
如何将网页采集的数据导出到mysql数据库
网页数据提取方法添加特殊字段、上下移动、导入导出示例
优采云采集数据导出到sqlserver数据库(手动和自动)
优采云数据导出API通用教程
如何将数据导出到Oracle数据库
优采云——70万用户选择的网页数据采集器。
1.操作简单,任何人都可以使用:不需要技术背景,只要能上网采集即可。完成流程可视化,点击鼠标完成操作,2分钟快速上手。
2、功能强大,任意网站可选:对于点击、登录、翻页、身份验证码、瀑布流、Ajax脚本异步加载数据,所有页面都可以通过简单设置采集。
3.云采集,也可以关机。配置采集任务后,可以将其关闭,并可以在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。
4、免费功能+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。