免规则采集器列表算法(社交网络数据采集算法的设计(软件工程课程设计报告)课程设计)

优采云发布时间: 2021-10-29 03:06

　　社交网络数据采集算法设计（软件工程课程设计报告）软件工程课程设计社交网络数据采集算法设计组号21组长姓名：盖云东学号：9组员姓名：任志成学生ID：1群员名：马建南学号：4 群员名：陈海涛学号：5 摘要随着互联网的发展，人们进入了一个信息爆炸的时代。社交网络数据信息量大，主观性强。它具有巨大的数据挖掘价值，是互联网大数据的重要组成部分。一些社交平台如***、新浪微博、人人网等，允许用户申请平台数据采集权限，并提供相应API接口采集数据，通过注册社交平台、应用API授权、调用API方法等流程获取社交信息数据。但是社交平台采集的权限申请比较严格，对申请成功后的数据采集也有限制。因此，本文采用网络爬虫的方式，利用社交账号模拟登录社交平台，访问社交平台的网页信息，并在爬虫任务执行后及时返回任务执行结果。与过去信息匮乏相比，现阶段面对海量信息数据，信息的筛选和过滤成为衡量一个系统质量的重要指标。本文使用爬虫和协同过滤算法来采集在线社交数据。关键词：软件工程；社交网络; 爬虫；Collaborative Filtering Algorithm Directory Summary-2-Contents-3-The purpose of Project Research-1-1.1 Project Research Background-1-2 Priority Grabbing Strategies --PageRank -2-2.1 简介PageRank-2-2.2 PageRank流程-2-3 crawlers-4-3.1 crawler介绍-4-3.1.1crawlers介绍-4-3.1.2工作流程-4-3.1.3爬取策略介绍-5-3.2工具介绍-6-3.2. 1Eclipse -7-3.

　　随着社交网络网站的兴起，在线社交网络蓬勃发展，新的互联网热潮再次升温。有分析人士甚至表示，在线社交网络将创造一种新的人际交流模式。互联网的兴起打破了传统的社交方式。简单、快捷、无距离的社交体验推动了社交网络的快速发展。以Facebook、Twitter、微博等为代表的应用吸引了大量活跃的在线用户，以及社交网络信息。呈现爆发式增长。社交网络信息反映了用户的网络行为特征。通过对这些信息的研究，可以实现社会舆论监测、网络营销、股市预测等。社交网络信息的重要价值在于实时性，如何快速、准确、有效地获取目标信息非常重要。但是，社交网络属于DeepWeb的专有网络，信息量大，主题性强。传统搜索引擎无法索引这些 DeepWeb 页面。只有通过网站提供的查询界面或登录网站才能访问其信息。这增加了获取社交网络信息的难度。目前国外对社交网络数据采集模型的研究较少，对社交网络的研究主要集中在社交网络分析领域。国内社交网络平台采集的数据在技术研究上取得了一定的成果。例如，

　　2 优先爬取策略-PageRank2.1 PageRank简介 PageRank，即页面排名，也称页面排名，谷歌左排名或页面排名是谷歌创始人拉里·佩奇和谢尔盖·布林在构建时提出的链接分析算法1997年的早期搜索系统原型，自从谷歌取得空前的商业成功后，该算法也成为其他搜索引擎和学术界关注的计算模型。目前，很多重要的链接分析算法都是从PageRank算法衍生出来的。2.2PageRank过程首先，PageRank的计算充分利用了两个假设：数量假设和质量假设。步骤如下： 1) 初始阶段：网页通过链接关系构建Web图，并且每个页面都设置了相同的 PageRank 值。经过几轮计算，最终会得到每个页面得到的PageRank值。每轮计算，网页当前的PageRank值都会不断更新。2) 一轮更新页面PageRank分数的计算方法：在计算更新页面的PageRank分数时，每个页面都会有其当前的PageRank

0

2021-10-29

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

免规则采集器列表算法(社交网络数据采集算法的设计(软件工程课程设计报告)课程设计)

0 个评论

发起人

AI时代内容工厂

免规则采集器列表算法(社交网络数据采集算法的设计(软件工程课程设计报告)课程设计)

0 个评论

发起人

相关问题