免规则采集器列表算法(社交网络数据采集算法的设计(软件工程课程设计报告)课程设计)
优采云 发布时间: 2021-10-29 03:06免规则采集器列表算法(社交网络数据采集算法的设计(软件工程课程设计报告)课程设计)
社交网络数据采集算法设计(软件工程课程设计报告)软件工程课程设计社交网络数据采集算法设计组号21组长姓名:盖云东学号:9组员姓名:任志成学生ID:1群员名:马建南 学号:4 群员名:陈海涛 学号:5 摘要 随着互联网的发展,人们进入了一个信息爆炸的时代。社交网络数据信息量大,主观性强。它具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。一些社交平台如***、新浪微博、人人网等,允许用户申请平台数据采集权限,并提供相应API接口采集数据,通过注册社交平台、应用API授权、调用API方法等流程获取社交信息数据。但是社交平台采集的权限申请比较严格,对申请成功后的数据采集也有限制。因此,本文采用网络爬虫的方式,利用社交账号模拟登录社交平台,访问社交平台的网页信息,并在爬虫任务执行后及时返回任务执行结果。与过去信息匮乏相比,现阶段面对海量信息数据,信息的筛选和过滤成为衡量一个系统质量的重要指标。本文使用爬虫和协同过滤算法来采集在线社交数据。关键词:软件工程;社交网络; 爬虫;Collaborative Filtering Algorithm Directory Summary-2-Contents-3-The purpose of Project Research-1-1.1 Project Research Background-1-2 Priority Grabbing Strategies --PageRank -2-2.1 简介PageRank-2-2.2 PageRank流程-2-3 crawlers-4-3.1 crawler介绍-4-3.1.1crawlers介绍-4-3.1.2工作流程-4-3.1.3爬取策略介绍-5-3.2工具介绍-6-3.2. 1Eclipse -7-3.
随着社交网络网站的兴起,在线社交网络蓬勃发展,新的互联网热潮再次升温。有分析人士甚至表示,在线社交网络将创造一种新的人际交流模式。互联网的兴起打破了传统的社交方式。简单、快捷、无距离的社交体验推动了社交网络的快速发展。以Facebook、Twitter、微博等为代表的应用吸引了大量活跃的在线用户,以及社交网络信息。呈现爆发式增长。社交网络信息反映了用户的网络行为特征。通过对这些信息的研究,可以实现社会舆论监测、网络营销、股市预测等。社交网络信息的重要价值在于实时性,如何快速、准确、有效地获取目标信息非常重要。但是,社交网络属于DeepWeb的专有网络,信息量大,主题性强。传统搜索引擎无法索引这些 DeepWeb 页面。只有通过网站提供的查询界面或登录网站才能访问其信息。这增加了获取社交网络信息的难度。目前国外对社交网络数据采集模型的研究较少,对社交网络的研究主要集中在社交网络分析领域。国内社交网络平台采集的数据在技术研究上取得了一定的成果。例如,
2 优先爬取策略-PageRank2.1 PageRank简介 PageRank,即页面排名,也称页面排名,谷歌左排名或页面排名是谷歌创始人拉里·佩奇和谢尔盖·布林在构建时提出的链接分析算法1997年的早期搜索系统原型,自从谷歌取得空前的商业成功后,该算法也成为其他搜索引擎和学术界关注的计算模型。目前,很多重要的链接分析算法都是从PageRank算法衍生出来的。2.2PageRank过程 首先,PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下: 1) 初始阶段:网页通过链接关系构建Web图,并且每个页面都设置了相同的 PageRank 值。经过几轮计算,最终会得到每个页面得到的PageRank值。每轮计算,网页当前的PageRank值都会不断更新。2) 一轮更新页面PageRank分数的计算方法:在计算更新页面的PageRank分数时,每个页面都会有其当前的PageRank