免费网页采集器( 测绘科学,2017,42(generated)数据())
优采云 发布时间: 2021-12-29 15:07免费网页采集器(
测绘科学,2017,42(generated)数据())
点击上方“测绘科学”关注
概括
空间位置信息通常代表设备用户的地理空间活动特征,客观反映人群活动的时空分布。针对现有的微博数据采集方法由于普通用户的访问限制,容易导致采集到的目标数据缺失的问题,本文提出了一种目标区域的空间划分策略。数据采集前对目标区域进行网格化,实现数据同步采集。通过对基于网格单元捕获的位置微博数据进行统计分析,从中提取人群活动信息,结合位置微博数据所在的兴趣点类型,并对位置微博用户的时空分布和活动特征进行统计分析。该方法减少了采集面积,可以实现并行高效的位置微博抓取,并保证采集范围的重叠,最大程度保证采集数据的完整性。
引文格式
雷承成,张安,齐庆文,等。基于网格的位置微博数据捕获与人群信息提取[J]. 测绘科学, 2017, 42 (2):187-191.
文本
近年来,随着社交网络、电子商务和移动互联网的发展,网民数量急剧上升。人们可以随时随地使用社交网络进行交流。大数据的概念逐渐进入人们的视野,互联网产生的大数据成为人们关注的热点。每个人都是传感器,用户生成内容(UGC)数据是互联网大数据之一。这些数据中不乏空间位置信息。基于位置的服务(LBS)已成为互联网发展衍生的热门服务。随着全球移动通信系统(GSM)、全球定位系统、社交网络服务(SNS)、无线宽带热点等技术的进步和广泛应用,*敏*感*词*、高素质个体 时空数据采集正在成为可能。新浪微博作为国内为大众提供娱乐、休闲和生活服务的信息共享和交流平台,以其门槛低、实时性、原创性、互动性、弱关系、强等特点迅速走红国内社交媒体。扩散。以获得优势。新浪微博拥有大量用户,使得微博信息的传播速度越来越快。数据在如此快速的传播中变得越来越多,形成了海量的数据。新浪微博日活跃用户数超过5000万,是一个巨大的数据生成源;相比其他UGC数据,如手机信令、浮动车、微信等,微博数据可以在互联网上免费公开获取。新浪微博拥有大量收录
空间位置信息的位置微博。位置微博包括用户账号、经纬度坐标、微博内容、热点等;此类空间位置信息通常代表使用该设备的人群的地理空间活动特征,能够实时反映用户的位置信息,从而通过用户在空间上的地理位置分布来客观地反映人群活动的时空分布情况。地理位置随时间的变化。经纬度坐标、微博内容、热点等;此类空间位置信息通常代表使用该设备的人群的地理空间活动特征,能够实时反映用户的位置信息,从而通过用户在空间上的地理位置分布来客观地反映人群活动的时空分布情况。地理位置随时间的变化。经纬度坐标、微博内容、热点等;此类空间位置信息通常代表使用该设备的人群的地理空间活动特征,能够实时反映用户的位置信息,从而通过用户在空间上的地理位置分布来客观地反映人群活动的时空分布情况。地理位置随时间的变化。
UGC 数据已被广泛使用。文献[5]提出,城市产生的大数据可以作为任何时间层次的信息来源。大数据的增长将集中在从长期的城市规划战略到如何管理城市和城市功能的短期考虑的转变。文献[6-7]将公交刷卡数据与城市居民出行调查和地块级土地利用图相结合,识别公交卡持卡人的居住、就业和通勤出行,分析城市功能区划分和交通流向。文献[8]提出了一种基于社交网络众包位置签到数据的城市热点检测和商圈挖掘方法。针对大数据量和离散位置签到数据在存储和聚类分析效率方面的问题,它提出了一种基于离散点的方法。栅格化签到数据预处理模型;对未知签到数据进行空间自相关检验,表明其具有显着的空间聚类特征。基于位置签到数据的探索性空间分析热点聚类方法是基于商业因素对选定区域的地理分布进行测算,以获得商业区信息。网格地图原本是一种比较简单的地图类型。它根据平面坐标或地球的经纬度将测绘区域划分为网格,以网格为单位来描述或表达属性分类、统计分类、变化参数和虚拟现实。, 那是,表达二维空间动态时空变化的规律。网格单元经常用于人口统计分析。为了更有效地应对高社会风险,需要准确掌握人口的时空动态分布信息。文献[10]对深圳人口分布的细网格动态特征进行了初步分析。本文通过建立网格单元,抓取新浪的位置微博数据并进行分析,提取用户的地理位置和时间,结合位置微博数据所在的兴趣点查询(POI)类型,对新浪的位置微博数据进行统计分析。差异 基于土地利用类型的微博用户时空分布和活动特征。
微博开放平台(Weibo open platform)是基于微博庞大的用户数量和强大的传播能力,接入第三方合作伙伴服务,为用户提供丰富的应用和综合服务的开放平台。将用户的服务连接到微博平台可以帮助推广产品、增加网站或应用程序流量、扩大新用户并获得收入。新浪微博的API接口可以简洁高效的获取相应的数据。新浪微博API可以根据请求的内容返回特定的可扩展标记语言(XML)或JavaScript对象表示法(JSON)文件。XML 是一种跨平台的强结构可扩展标记语言,JSON 是一种轻量级的数据交换格式。通过 XML 文件,用户可以直观的找到相应的信息,准确的了解信息的内容;但是,微博中的各类用户信息都收录
了用户的一些个性化表达格式,JSON文件相比XML文件更小,更适合作为海量数据的文件传输形式。因此,JSON 返回通常用于捕获位置微博数据。
网络爬虫(又称网络蜘蛛、网络机器人)是按照一定的规则自动抓取万维网上信息的程序或脚本,在互联网领域得到了广泛的应用。搜索引擎利用网络爬虫抓取网页、文档甚至图片、音频、视频等资源,通过相应的索引技术将这些信息组织起来,提供给搜索用户查询。随着互联网的飞速发展,不断优化的网络爬虫技术有效应对各种挑战,为高效搜索用户关注的特定领域和话题提供有力支持。目前,网络数据采集的软件有很多,比如优采云
采集器()。
目前最常用的微博数据抓取方式是将微博API与网络爬虫技术相结合。文献[11]提出基于API的分布式抓取技术可以结合时间触发和内存库技术实现重复控制,避免数据的重复爬取和重复存储,提高效率。文献[12]提出了一种基于随机样本一致性(RANSAC)算法的位置签到数据集地理配准方法,实现了位置签到数据集与现有地理数据库的可靠配准。进行了有效性验证并更新了整个数据库。文献[13]结合新浪微博API和网络爬虫页面分析数据抓取方法,实现了对用户的多线程描述。文献[14]使用统计主题模型和稀疏编码技术提出了一种稀疏生产模型来发现微博流中的地理主题。文献[15]分析了新浪微博产生的海量数据,提出利用Hadoop云计算平台实现微博数据的采集、处理和存储。
本文结合新浪微博API和网页分析,提取位置微博数据;同时,在数据提取过程中,通过对数据区域进行网格化来实现数据采集,提高了采集效率。实验证实,以往的数据预处理和数据采集方法是可行的,操作方便灵活,采集数据的准确性好。此*敏*感*词*微博位置数据的采集,需要人工操作和干预。如果应用于海量微博位置数据的采集,方法有待改进;②虽然位置微博数据量大,但目前微博用户无法代表该地区人口分布的全部特征。如何从有限的样本中推断总体人口分布的时空特征需要进一步研究。
2017(第42卷)第2期
关于“测绘科学”
主管:国家测绘地理信息局
主办:中国测绘科学研究院
网站:
邮件: