教程分享:优采云采集器采集教程
优采云 发布时间: 2022-10-22 02:26教程分享:优采云采集器采集教程
目的:用于数据分析
使用的工具:优采云采集器(优采云采集器是一款互联网数据采集、处理、分析和挖掘软件。)
2.采集方法步骤说明
第一步:安装优采云采集器(注:需要安装Net4.0框架才能运行)
优采云采集器下载地址:
第 2 步:注册一个帐户
第 3 步:了解基本界面
一个。单击开始 --> 新文件夹(并重命名它以便知道 采集 是什么) --> 新任务
湾。创建新任务后,会弹出设置任务规则框(注意以下几点)
(1)填写你要的内容采集所在的URL。如果有规则,可以通过【向导】添加相关规则,如下: 以简书为例,我想采集我简书中的内容数据进行分析。采集的主要内容在列表页,但是因为短书采用了懒加载的方式,所以无法拾取翻页的内容,所以需要查看源码(这里是童鞋有一定的代码知识可以找到)),然后在源码中找到相关链接,都是正规的,所以可以通过【向导添加】添加相关规则。继续查看下面的第 4 步,了解具体规则。
向导添加界面:
第 4 步:编写 URL 提取规则
对于我在源代码中找到的列表链接,如果你想采集所有的链接,你必须找出所有的翻页。翻页是有规律的,所以我得到以下规则。只是链接中“page=”后面的地址参数改变了,所以我们可以使用【地址参数】来设置参数。然后在【地址参数】中选择数字变化,因为是数字。总共有 14 个,所以有 14 个项目。
设置好地址格式后,我们可以在这个页面上进一步设置我们想要采集的内容。即我们需要传递列表页采集的每个文章的URL,方法如下:
(1)在获取内容URL时,选择获取方式:自动获取地址链接。
(2)使用链接过滤:提取文章链接,文章链接有共性。
填写完这些后,点击【URL 采集Test】,此时可以验证规则是否正确。
验证OK!规则是正确的!伟大的!写好规则后记得保存哦!
第 5 步:编写内容提取规则
采集到达每个文章的URL后,接下来就是采集每个文章的相关信息:标题、URL、阅读数、点赞数!这是我们的最终目标!写好规则后记得保存哦!方法如下图所示:
PS:这也需要一定的html代码知识。
添加规则如下:
(1) 在标签列表中添加标签名称为采集。框右侧有一个“+”,可以添加多个标签。
(2)数据获取方式的选择:从源代码中获取数据,提取方式选择“前后截取”,然后从源代码中提取出我们想要的信息的前后代码。请记住,如果它是唯一的代码,它将避免提取错误。
补充:教你提取前后代码
在网页中,右击查看源代码。找到标题。我们会发现多个重复的标题。但是要选择代码前后唯一的一个,可以通过ctrl+f来验证是否唯一。下面是标题前后的代码,其余元素前后的代码,请大家自行练习。
第六步:设置存储位置
点击内容发布规则->另存为本地文件->启用本地文件保存->保存设置文件格式选择txt(因为我们使用的是免费软件)->设置保存位置
第七步:启动采集,设置存储位置并设置规则,保存退出,回到工具首页,启动采集——>这3个地方一定要勾选,然后右键——点击选择————>开始。见下文:
提交采集后的原创数据:
呈现清洗后的数据及相关数据分析,如下图:
三、个人经验总结
教程:收藏!搜索营销80%的专用名词都在这边了…
⑤锚文本:在关键词下添加超链接。
⑥内部链接:也称为站内链接(A页链接到B页)
3. 常用相关名词
①网站地图:分为静态地图和动态地图。一页收录 网站 的所有页面链接。
②相关域:域收录网站的相关内容。
③网站权重:指第三方网站给出的投票,可在站长工具中查询。
④网站导航:网站顶部菜单。
⑤网站日记:可以记录网站蜘蛛的爬取和用户访问信息记录。
⑥状态码:记录网站运行状态的返回码。(比如502、400、301、204等,对应的返回码可以反映网站操作的对应状态)
⑦Relevance:相关内容,文章或页面。
⑧ 示例文本:重复的文本。(包括纯文本模板文本、链接模板文本和锚文本模板文本,尽量减少网站的示例文本)
⑨ 相似度:会影响整体网站的质量。(原创、伪原创 和直接复制粘贴)
⑩百度收录:被搜索引擎收录并在搜索结果中发布的页面。
⑪Baiduspider:百度爬取页面的程序。(被站长称为百度蜘蛛)
⑫Nofollow 属性:不传递权重。
⑬Robots.txt:搜索引擎协议文件。
⑭ WHOIS查询:域名信息查询。(可使用站长工具查询)
三、统计术语解释
01. 参观人数(UV)
访问量是指一天有多少不同的用户访问您的网站。百度统计完全摒弃了IP指标,启用了访问量,因为IP往往不能反映真实的用户数。尤其是对于一些流量较少的企业网站,IP数量和访问者数量会有一定的差异。
访问者的数量主要是根据cookies来判断的,每台电脑的cookies也不同。在某些情况下,IP 的数量会大于实际访问者的数量。例如,ADSL拨号用户可能在一天的三个不同时间拨号访问网站,那么网站获取的IP数为3,但实际访问者数为只有1.有时访问者的数量大于IP的数量,因为在公司和网吧这样的地方,多个用户经常共享一个IP。比如公司的某位员工看到一条非常优惠的团购信息,然后通过QQ群发给公司的所有同事。假设50人打开团购页面,那么团购网站会得到50个真实用户,但只有一个IP。通过以上两个例子,我们可以了解到,访问者数量比IP数量更能真实、准确地反映用户数量。
02. 访问次数
访问次数是指访问者完全打开网站页面进行访问的次数。如果访问次数明显少于访问者人数,则意味着许多用户关闭了页面而没有完全打开它。如果是这种情况,我们就要仔细检查网站的访问速度,看看是不是网站空间或者网站程序有问题。
如果访问者在 30 分钟内没有打开或刷新页面,或者直接关闭浏览器,下次访问 网站 时,将被记录为新访问。如果网站的用户粘性足够好,同一用户一天登录多次网站,访问量会大于访问量。
03. 浏览量 (PV)
浏览量和访问量齐头并进。用户每次访问网站时打开一个页面,记录为1 PV。同一个页面被多次访问,浏览量也会累积。网站 的浏览量越高,网站 的热度越高,用户喜欢的内容就越多。
对于信息网站来说,PV是一个重要的指标,反映了网站的内容对用户是否足够有吸引力。对于企业网站来说,整个网站页面可能加起来有十几个。岳浩认为,把重点内容展示给目标客户就够了,没必要盲目追求PV。很多电商网站的用户需求也很明确。用户来到网站后,往往只能找到自己需要的产品,所以专注于PV是没有意义的。
04. 新访客人数
新访客是一天内 网站 新访客的数量。由于百度统计开始统计网站,当访问者第一次访问网站时,计为新访问者。新访问者主要根据cookies来判断。
新访问者的数量可以衡量通过网络营销开发新用户的效果。在众多的在线营销方式中,搜索引擎营销往往更容易为企业带来新用户。
05. 新访客比例
新访客率是指一天内新访客与总访客的比率。该指标对不同类型的网站有不同的含义。
对于一些强调用户粘性的web2.0网站,比如论坛和SNS网站,如果新访问者的比例太高,说明老用户很少来,这不是一件好事. 对于主要依靠搜索引擎带来流量的信息网站,新访问者占比反映的是网站编辑能否抓住热点内容做文章,近期的SEO效果是否明显,因为搜索对于热门内容的量非常高,通过SEO,可以提高整个网站文章的展示量。如果信息站点的访问者数量不断增加,新访问者的比例很高,这往往是网站进步的体现。
06.平均访问时间
平均访问持续时间是用户访问 网站 的平均停留时间。平均访问时长等于总访问时长与访问次数之比。访问时长主要是根据访问者浏览不同页面的时间间隔来计算的,因此无法计算最后一页的访问时长。现在非常流行的网络营销单页无法统计这个数据,因为无法计算出单页的间隔时间。温馨提示:本文由Push One成员岳浩原创撰写,主要从事网络营销工作。如果想看更多作者文章,请搜索“月浩”,转载请保留此版权信息。
平均访问时间是衡量网站用户体验的重要指标。如果用户不喜欢网站的内容,可能一眼就关闭页面,平均访问时间很短;在网站逗留了很长时间,平均访问时间很长。对于企业网站,只要将“产品介绍”、“公司案例”、“公司简介”、“*敏*感*词*”等几个重要页面展示给我们的目标用户,目的将达到,所以没有必要追求过高的平均访问时长。
07.平均访问页面数
访问的平均页面数是用户查看到 网站 的平均页面数。平均访问页面数等于浏览量与访问次数的比率。平均访问的页面数很少,这意味着访问者在访问了几个页面后进入您的网站,然后离开。
我们倾向于将平均访问页面数和平均访问时长放在一起来衡量网站的用户体验。如果平均访问页面数少,平均访问时间短,则需要分析以下几个问题:网络营销带来的用户是否准确;网站 的访问速度是多少;用户可以访问 网站 没有找到内容;网站内容是否对用户有吸引力。
08. 跳出率
跳出率是指访问者仅访问一页后来到网站并离开网站的访问者占总访问次数的百分比。跳出率是反映网站流量质量的重要指标。跳出率越低,流量质量越好,用户对网站的内容越感兴趣,网站的营销功能越强。用户更有可能成为 网站 的有效和忠实用户。
对于单页营销网站,跳出率只能是100%,因为用户只有一个页面可以访问,所以单页营销网站不必考虑这个指标。百度搜索推广中的跳出率和平均访问时长可以反映推广关键词的选择是否准确,创意是否优秀,着陆页的设计是否符合用户体验。
09. 转换
当潜在用户在我们的 网站 上执行所需的操作时,称为转换。百度统计可以记录的转化主要是指用户访问特定页面,如电子商务中的成功交易页面网站,企业中的在线咨询或*敏*感*词*页面网站。
我们可以在百度统计后台设置相应的转化页面。用户访问此页面后,将记录为 1 次转化。岳浩认为,转化次数是衡量网络营销效果的重要指标,也是销售型企业最重要的指标网站。就像实体店一样,有多少人来参观不是最重要的,最重要的是看有多少人购买我们的产品。
10. 转化率
转化率是转化次数与访问次数的比率。转化率可以用来衡量网络营销的有效性。如果我们同时在网站 A和B上投放广告,A网站每天可以带来100次用户访问,但是只有1次转化,B网站每天可以带来10次用户访问,但 5 次转化。这说明B网站带来了更高的转化率、更精准的用户、更好的线上营销效果。
不同行业网站,不同类型网站适合的网络营销方式也不一样,应该以转化率为指标,找出网络营销方式的最佳转化效果,从而使在线营销 获得最大的投资回报率。
更多知识干货资讯