解决方案:浩华|君无嘻言—种草高效工具 节省网页数据采集时间

优采云 发布时间: 2022-10-26 06:09

  解决方案:浩华|君无嘻言—种草高效工具 节省网页数据采集时间

  图/文:淄博市规划总监尹龙

  作为房地产行业规划师,我们将大部分时间和精力都花在了操盘手的规划和执行上,经常在Word、Excel和PPT之间来回穿梭。而有时在面对提案和关键节点规划时,我们需要更详细的区域市场数据,而网页上的土地信息是必不可少的部分。如果不做好月度数据积累,或者面对陌生的城市环境,很难在短时间内整理出这些陌生的数据。我一直在纠结要不要给你一个“草”的数据采集工具。第一,我们很少有机会使用这些工具(但紧急使用确实很香);无法回答具体问题。

  不过,在房地产提高“人的效率”的环境下,希望大家多掌握一款软件来使用,提高工作效率,这不是一件坏事。所以,趁着《君无兮言》的机会,为大家“种草”优采云采集器软件。

  1

  明确的工作目标

  采集(汇总)某城市的市场数据,比如我们经常需要的当地“某阶段土地供应及交易数据”,住宅在线签名数据等(值得注意的是,在线每个城市的签名数据网站差别很大,有些网站用软件很难实现采集) 案例如图,如果我们需要2小时排序拿出这个城市的土地供应交易明细,简单的打开每个地块复制粘贴是不现实的,需要数据采集工具来提高效率。

  2

  学习阅读网址

  我们来到了案例城市的土地拍卖页面,这是一个城市级区域土地交易的详细记录。发现在这个网页环境下,点击下一页和任意翻页,网页地址不变,所以我们可以在采集器中输入这个URL来执行所有数据(或部分数据,比如仅作为 采集2021)。但是目前这个界面中的文字并不是我们想要的,我们需要的是里面每个情节的具体细节。但是我们也发现,每一个地块打开后,它的网址都不一样。

  由此,我们可以分析采集工作流程:

  采集市级网页下的文字内容(结果公示地块标题+时间)及各地块地址链接(深度采集)

  复制所有详细包裹的地址链接,启动采集包裹详情,最后导出Excel文件

  3

  具体采集工作操作方法

  首先:从官网下载“优采云采集器”。一个手机账号可以免费做100个采集任务。(足够的)

  

  第二:打开软件后会有2种模式:流程图模式和智能模式。流程图模式是基于人工分工和每一步的操作(操作比较复杂,这里就不具体推荐了),而我们通常使用智能模式,使用这个模式我们来详细说明一下实战案例(单击智能模式启动采集)。

  第三:首先,输入网址有3种方式,手动输入(复制粘贴)不能超过200行;文件导入(使用txt文本文件格式)我们一般采集单个或多个网页一般使用前者,批量生成很多深度链接(地块详情页地址)一般使用后者,而批量生成是指有一定规律性参数变化的网址(如翻页参数的序号变化)。因此,我们先复制粘贴需要采集的城市级交易地块的网站地址,点击立即创建。

  第四:点击后可以看到采集器已经开始自动识别首页和采集(绿色部分)的信息并在下方生成表格预览,字段2(情节标题)也给我们做了对应的深度链接采集(也就是每个剧情的详情页地址采集在这里)

  第五:专注翻页:翻页是指在采集的过程中,程序要自动模拟手动翻页。如果翻页按钮无法识别,我们的后续采集工作将重复进行。在某个页面或之前的某些页面上来回重复 采集 会导致数据结果无限重复。

  首先,我们需要知道为什么会发生这种情况。少数情况下,如果网页按钮(下一页)的XPath无法识别,会出现“自动识别分页失败”;有时即使被识别,10页后的“下一页”也会出现。“页面”位置又变了,也会出现采集进程翻页错误。下图是第11页“下一页”按钮的偏差:

  解决翻页解决方案(如果您使用的网页可以自动识别翻页,请忽略以下):

  [1]点击分页按钮:手动点击分页(下一页)按钮,但如果“下一页”按钮没有放错位置,通常可以工作[2]编辑分页XPath

  由于这里涉及到编程知识,我的地产编辑严重超纲了……还好在编程老师的帮助下,给出了一套案例图。我通过多个网站做了一个正则仿,大家可以试试看一下(至于工作原理,不用研究,看步骤即可):

  [2-1] 回到浏览器网页界面,将鼠标放在“下一页”,右击查看元素,会看到如下图:

  [2-2] 我们只需要复制""双引号内的蓝色部分,然后回到采集软件中的"Edit Paging XPath"输入//*/a[img[@ src="复制"]的蓝色部分] 例如上面的情况,需要输入 //*/a[img[@src="/TPFront/images/page/nextn.gif"]] 以上是翻页失败的处理方法。

  第六:设置采集的范围:如果我们只想采集某个阶段的土地信息,可以点击采集范围进行设置。在弹出的对话框中,单击新建条件,然后单击新建组。

  

  在本例中,“字段 3”是绘图的时间,因此我们将字段 3 中的条件设置为“收录”值。如果出现2020,点击OK(表示采集会在值达到2020时停止任务)。当然,我们可以从 Set start page and end conditions to 采集data for a specific year开始。

  第七:点击开始采集——任务完成后点击导出数据。

  第八:以上,我们已经完成了第一轮采集,目的是获取每个剧情详情页的URL;接下来,我们将Excel中的网站复制到一个新的文本文件(.txt)然后新建一个任务并导入网站文件,点击采集即可(因为详情页不需要转)

  第九:导出Excel结果文件并稍作修改。建议大家下载“方格”办公版Excel插件,免费级别超级好用。

  例如批量删除地块交易时间的“**小时**分钟”只保留年/月/日(批量删除后5个字符);分批提取最大容积率。对于最大容积率,我们可以通过公式计算出规划建筑面积、楼面价格等。

  下图是导出的直接结果:

  下图是修改调整后的效果:

  总结

  以上是与大家分享的房地产数据相关的网页数据爬取。每个城市的土地信息网都有新旧网站。建议你选择老版本的网站土地汇总页面作为目标(比较容易识别);同时,各个城市商品房上线签到的数据页面差异很大,需要看采集器能不能识别。不建议您花太多时间研究爬虫程序,我们只需要使用采集软件来节省数据聚合时间。

  ⋅///⋅

  【过去推荐】

  点击图片查看

  ——

  本文章为浩华专业原创,未经许可严禁转载、盗用或用于商业目的

  正式发布:优采云DedeCMS5.6文章免登陆发布接口

  可以达到和手动发布文章一样的效果,包括是否生成静态、去除外部链接、下载远程图片等功能。

  Dedecms5.6免费登录文章发布界面说明

  一、特点

  1.无需登录,用户可以设置验证密码,防止未经授权的访问。

  2. 多用户随机发布文章。

  3、可以达到和手动发布文章一样的效果,包括是否生成静态、去除外部链接、下载远程图片等功能。

  2.使用教程

  1.文字教程

  1.1。选择与您的网站 对应的接口文件。如果你的网站是gbk代码,请选择jiekou_gbk.php。

  1.2. 打开接口文件,修改认证密码,保存。

  1.3. 修改接口文件名,上传到网站的管理目录。比如默认的dede目录。

  

  1.4. 修改发布模块 Dedecms 5.6 免登录界面 文章Publishing module.cwr ,修改发布文件地址后缀的文件名和发布模块中刷新列表文件的地址后缀到您刚刚修改接口文件名的那个。

  1.5。设置发布配置,采集 并开始发布。

  2.视频教程

  三、注意事项

  1.该接口只适合发布文章到内容模型为普通文章的DEDEcms频道;

  2、本接口基于Dedecms 5.6 GBK版本,适用于dedecms 5.6 GBK/utf-8/BIG5等版本。使用时请选择不同版本的界面。

  3.分页码”

  "

  4.参数说明

  1. 所需参数

  标题标题

  正文内容

  

  typeid 主列ID,必填,后台可以查看ID 网站列管理

  username 用户名,必须使用网站上已有的用户名,默认为随机用户名,用户需要在模块中设置

  pw 验证密码。刷新列表和发帖时使用,模块和界面中的验证密码需要相同。

  2.可选参数

  ishtml=1 是否生成HTML,1为是,0为否;

  remote=1 是否下载远程图片和资源,1为是,0为否

  dellink=0 是否删除非站点链接,1为是,0或空为否;

  短标题 短标题

  描述内容摘要

  color=标题颜色,格式如#FF0000

  flags[]=h 文章 属性,标题

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线