完美:爬虫总是断？用这个手残党也能轻松解决网站反爬

优采云发布时间: 2022-11-09 12:37

　　在使用爬虫的过程中，你有遇到过这些情况吗？

　　采集没过多久就没有数据了。

　　采集折腾了半天，终于发现采集的内容与网页内容不一致

　　一开始采集很好，后来采集数据中的一些字段竟然是空的

　　这些情况是由采集的网站的反爬策略引起的。

　　l网站防爬原理

　　网站反爬虫，原理是服务器通过访问者请求中夹带的一些访问者信息来识别访问者并限制访问者。

　　例如，服务器通过请求识别访问者的IP，并限制同一个IP的访问频率，那么当同一个IP的访问频率超过限制时，就会出现访问问题。

　　l 常用网站反爬策略

　　1.只限制用户IP访问频率

　　限制IP访问频率通常表现为：当使用本地IP采集速度高于一定频率时，会出现采集错误、页面重定向等。当访问者IP信息存储在cookie，会增加爬虫的难度。

　　2.限制用户ID访问频率

　　受限用户ID通常显示为：采集一段时间后，停止采集/采集错误，页面无法在浏览器中显示（页面重定向，验证码，错误页面，等情况），清除浏览器浏览历史后，再次打开即可正常显示。

　　这时候可以通过查看页面的cookie来确认服务器是否限制了用户ID。当被访问页面的cookie中有UID或其他ID字符串时，表示服务器识别了用户ID。还有一种情况是对 UID 进行加密，即 cookie 中的加密字符串。

　　3.用户IP访问频率用户ID访问频率双重限制

　　双重限制通常出现如下：采集一段时间后，停止采集/采集错误，页面无法在浏览器中显示（页面重定向、验证码、错误页面等），清除浏览器浏览历史后，再次打开即可正常显示。爬虫设置多路采集采集一段时间后，发现IP被封。也可以通过观察页面cookie中是否同时存在IP和UID/UID加密信息来判断。

　　l 爬虫高能防爬机制

　　ForeSpider数据采集引擎根据几种常见的反爬策略网站开发了相应的解决方案。用户在使用过程中可以针对不同的防爬策略进行相应的设置。

　　1.爬虫访问代理IP

　　在嗅探ForeSpider数据采集系统之前，可以访问第三方动态和静态代理IP，几乎支持全网所有代理IP运营商。访问后可以进行连接测试，设置一个通道采集，模拟多个通道执行采集的过程，设置全局代理IP，进行动态IP锁定，真实模拟IP的过程获取数据。

　　设置介绍：

　　①访问动态和静态代理IP

　　访问第三方代理 IP，包括动态和静态的。

　　②代理IP测试

　　访问第三方代理IP后，可以测试其有效性。

　　③代理IP优化

　　优化无效代理并优化响应慢的代理。

　　④多频道采集

　　多线程采集时，模拟多通道采集的进程。

　　⑤动态IP锁定

　　动态IP在运行时用一组请求锁定获取一条数据，更真实地模拟了IP获取数据的过程。

　　⑥ 全局代理IP设置

　　设置全局代理IP，代理IP可以全局使用。

　　2.模拟用户浏览行为

　　在嗅探ForeSpider数据采集系统之前，可以智能模拟浏览器和用户行为，突破反爬虫限制。用户可以通过浏览器模拟手动采集设置、调整采集速度、设置定时采集策略、代理IP设置等设置，智能模拟用户浏览行为，有效防止网站反爬取，降低识别风险和频率，高效采集网页数据。

　　设置介绍：

　　①智能模拟浏览器和用户行为，突破反爬限制。

　　②自动抓取网页的各种参数和下载过程的各种参数。

　　③支持动态IP代理加速，智能过滤无效IP代理，提高代理的使用效率和采集质量。

　　④ 支持动态调整数据采集策略。多种策略让你的数据无需重新采集，不再担心数据采集丢失，数据采集更智能。

　　⑤自动定时采集

　　⑥ 设置模拟浏览器版本，或自定义。也可以模拟国家的默认语言。

　　3.假网络延迟超时策略

　　在嗅探ForeSpider采集器之前，可以设置网络延迟超时策略，模拟手动加载请求，避免加载时间过长、加载过慢导致数据获取失败，提高数据采集的成功率，高效采集。

　　设置介绍：

　　网络超时包括接收超时、发送超时和重试次数。下图显示接收超时小于60秒，发送超时小于8秒。它可以一直加载。如果失败，可以重试5次。当采集有网络错误提示时，可以设置接收超时时间更长。

　　适用场景：

　　适用于data采集由于网络不稳定、访问目标网站服务器不稳定等原因导致发送请求超时且接收请求时间较长的情况。设置较高的超时限制和重试次数可以避免采集失败并提高采集效率。

　　4.识别防爬自动预警

　　ForeSpider爬虫软件自带反爬警告功能。在爬取采集的过程中，如果遇到网络异常、网站反爬等，可以做出相应的反应，如：暂停采集、休眠等反应，以及及时预警提醒，缩短错误发现周期，防止恶意拦截。有效避免采集数据不完整、采集无用数据、采集空数据因网站反爬，避免重复采集。可大幅提升数据无人化运维水平，减少网络带宽和代理IP的浪费，及时监控反爬虫引起的网络异常。

　　设置介绍：

　　告警设置：运行时网络异常导致请求失败时，系统会自动告警。网络异常次数、防爬识别次数、告警操作、告警提醒方式可重新设置。

　　①网络异常

　　可以设置网络异常持续多少次，然后提醒。

　　②防爬识别

　　可以设置怀疑被反转的次数，然后给出预警提醒。

　　③ 预警操作

　　设置发生警报时软件将执行的操作。

　　A. 无：软件仍照常运行。

　　B.暂停：软件暂停，等待处理。

　　C. 自动休眠：保留。

　　D. 自动更换代理：保留。

　　④ 预警提醒

　　A.不提醒：不提醒。

　　B. 图标闪烁：软件任务栏图标闪烁。

　　C、弹窗等待：软件弹出弹窗等待人工处理。

　　5. 伪造cookie来迷惑服务器

　　ForeSpider数据爬取软件可以采集要求网站cookies的数据，自动生成cookies，或者手动添加cookies获取数据。

　　概念介绍：

　　Cookie：Cookie是指存储在用户本地终端上的一些网站数据，用于识别用户身份和进行会话跟踪。它是1993年3月由Lou Monterey发明的，各种基于Internet的服务系统应运而生。Cookie 是 Web 服务器存储在用户浏览器上的一个小文本文件。它可以收录有关用户的信息，是用户获取、交流和传递信息的主要场所之一。

　　设置介绍：

　　cookie设置：采集当需要cookie的网站数据时，软件可以自动生成网站需要的cookie，然后就可以获取页面的数据了。

　　嗯，看到这里，大家都跃跃欲试，赶紧行动吧。如果在操作过程中遇到问题，可以随时联系前台嗅探技术老师进行咨询。

　　l 前嗅觉介绍

　　千秀大数据，国内领先的研发大数据专家，多年致力于大数据技术的研发，自主研发了一整套数据采集，分析、处理、管理、应用和营销。大数据产品。千秀致力于打造国内首个深度大数据平台！

　　技巧:6大步骤：快速学会如何进行数据埋点

　　编者介绍：在产品运营过程中，数据分析尤为重要。有效的数据分析可以帮助优化产品设计，促进产品运营，帮助提升用户体验和产品后续迭代升级。合理的数据嵌入可以帮助跟踪用户状况和采集数据反馈信息。在这篇文章文章中，作者介绍了快速学习数据埋点的方法，一起来看看吧。

　　对于产品经理、运营和数据分析师来说，数据的重要性非同寻常，它直接影响到最终的决策。一个好的数据源是数据分析的基础。数据分析的第一步就是做好数据的埋点，这也是最重要的环节之一。

　　原文近5000字，和大家聊聊如何快速学会埋点操作。欢迎查漏补缺。本文目录如下：

　　什么是埋点；埋点的作用；埋点法（3种）；埋点步（6大步）。1. 什么是葬礼

　　所谓“埋点”是data采集领域的一个术语，指的是对特定用户行为或事件进行捕捉、处理和发送的相关技术及其实现过程。在这个过程中，采集所需的信息以跟踪用户使用情况，最后将数据分析为后续迭代产品或操作的数据支持。

　　嵌入也是快速、高效、丰富数据应用的用户行为过程和结果记录。数据埋藏是一种常用的data采集方法。埋点是数据的来源。采集的数据可以分析网站/APP的使用情况、用户行为习惯等，是构建用户画像、用户行为路径等数据产品的基础。

　　比如订单周转率：我们进入商品详情页面进行操作，同时按要求执行数据采集并上报，告诉服务器我们是主动还是被动地做了什么？然后进入订单结算页面，进行其他操作，等等。

　　最后后台可以统计各种点击事件和预设事件，根据获取到的数据还原各种用户行为，最后将这些数据可视化进行深入分析。

　　二、埋点的作用

　　提升渠道转化：通过跟踪用户的操作路径，找到用户流失的节点，比如支付转化率。通过下图中的漏斗分析，可以分析出用户在哪个环节流失最多，找到问题并进行优化。

　　图 1：支付率漏斗分析

　　精准客户运营：根据一定需求对用户进行标签或分组，实现精准营销、智能推荐（千人千面——等）。例如，根据（电商）用户的浏览行为、采集行为、加购行为、购买行为，可用Group根据产品的维度，向不同的用户群体推荐不同价格的产品。完善客户画像：基本属性（性别、年龄、地区等）、行为属性；数据分析：埋点作为原材料放入数据仓库。提供渠道转换、个性化推荐等；改进产品：通过用户行为分析产品是否存在问题，

　　嵌入方式分为：代码埋、视觉埋、不埋（全埋）。

　　1.代码埋没

　　它的技术原理也很简单。APP或网站加载时，初始化第三方服务商数据分析SDK，当有事件发生时，调用SDK中对应的数据发送接口发送数据。目前国内主要的第三方数据分析服务商有百度统计、友盟、TalkingData、神策。

　　优势：

　　灵活性强，用户可以轻松自定义属性和事件，并将各种需要的数据传输到服务器。

　　缺点：

　　人工成本高，每个埋点都需要技术人员手动添加；更新成本高，每次更新埋点方案时可能需要改代码。2. 可视化埋点

　　也称为框架嵌入，采用可视化交互方式，业务人员可以直接在页面上简单的圈选和选择，跟踪用户行为（定义事件），节省开发时间。不过埋点的可视化还是需要先配置相关事件，再配置采集。

　　优势：

　　视觉嵌入解决了代码嵌入人工成本高、更新成本高的问题；只需在开始时访问页面上的SDK代码，业务人员只需按照规则进行操作即可进行后续嵌入。无需再次开发访问权限。

　　缺点：

　　视觉嵌入无法自定义获取数据，覆盖功能有限。目前，并非所有的控制操作都可以通过该方案进行定制；报告行为信息很容易受到限制。

　　图2：诸葛IO可视化埋点的一些操作

　　3. 不埋葬

　　无埋点是指开发者集成采集 SDK 后，SDK 会直接捕获和监控应用中的所有用户行为，并全部上报，无需开发者额外添加代码。

　　也就是说，当用户显示界面元素时，通过控件绑定触发事件。当事件触发时，系统会有相应的接口供开发者处理这些行为。

　　用户通过管理后台的圈选功能选择自己关注的用户行为，并给出事件名称。之后可以结合时间属性、用户属性、事件进行分析，所以没有埋点也不是真的需要埋。

　　优势：

　　由于采集充满了数据，在产品迭代过程中无需关注埋点逻辑，不会出现泄漏或错误埋点；降低运营和产品的试错成本，试错的可能性高，能带来更多启发性的信息；无需埋点，方便快捷。

　　缺点：

　　缺点与可视化埋点相同。没有解决数据采集的个性化、定制化问题，数据采集缺乏灵活性；无埋点采集全数据，增加了数据传输和服务器的压力；无法采集自定义属性、事件。

　　图3：无埋点GrowingIO操作

　　四、掩埋步骤

　　那么，埋藏过程是怎样的呢？一般可分为以下六个步骤：确定目标/指标、数据采集规划、嵌入采集数据、数据评估与数据分析、确定优化方案、如何评估效果解决方案。

　　1. 确定目标/指标

　　为什么要有埋点指标，因为产品需要量化，量化后才能知道产品做的好不好。因此，在实际设计埋点之前，必须考虑如何分析这些埋点。只有确定了分析思路，才能知道需要哪些埋点。

　　比如我们发现应用的日活跃度很高，但最终的支付却很少。那么我们的目标是提高支付转化率，了解为什么用户没有有效支付，哪些环节让用户犹豫。

　　我们来看看常见的指标：

　　PV（page view）：页面浏览量，用户每次访问该页面，记录计数；UV(unique visitor)：唯一访客，访问你网站的电脑客户端是访客，00:00-24:00，同一个客户端只计算一次；转化率：仅在一个统计周期内完成的转化行为数占总数的比例；活跃度：主要衡量产品的粘性、用户的稳定性和核心用户的规模，观察产品在线的周期性变化，比如日活跃度和月度活跃度；留存率：在统计周期（周/月）中，日活跃用户数是平均第 N 天仍启动应用的用户数的比例。其中，N通常取2、3、7、14、30，分别对应次日留存率、三天留存率、周留存率、半月留存率、月留存率。2.数据采集规划

　　只有对产品的结构和逻辑有足够的了解，才能知道需要关注哪些数据和指标，以及如何通过监控这些指标来达到最终目的。因此，此时我们需要对产品功能进行抽象、逻辑化和结构化。，拆分为特定的逻辑级别。

　　例如图1：支付率漏斗分析的目标，我们需要拆解用户从进入App页面到完成支付的每一步数据，以及每次输入的数据。例如：进入商品详情页面（PV/UV）→点击购买（次数）→提交订单（次数）→付款操作（结果退货）等步骤。

　　在这个环节，我们可能要输出一个埋点文件，就是埋点需求分析结果的实施方案。不同的平台、不同的渠道、不同的业务需求，产生不同的埋点文档结构和埋点解决方案。

　　1）公共财产

　　如果某个事件的属性会出现在所有事件中，则可以将该属性设置为事件公共属性。设置公有属性后，之后触发的所有事件都会自动添加设置的公有属性。

　　2) 预设事件/预设属性

　　预设事件是指平台已经定义好的事件。后端嵌入时，属性不能自动采集预设，需要手动传输（其他平台可能有不同定义）。

　　图 4：预设事件

　　图 5：预设属性

　　3) 自定义事件

　　产品经理和技术人员就相关规则达成一致，比如事件命名规则、变量命名规则等，然后就可以开始定制自己想要的事件了。自定义事件主要由事件名称、参数和参数值组成。

　　列出一个“取消订单”埋点自定义事件：从文档中可以看出cancelOrder是取消订单的事件名称，并且在触发cancelOrder时间后，order_id（订单ID）和order_amount（订单金额）等参数) 可以传入。

　　3. 隐藏采集数据

　　如果我们使用代码埋点，那么我们需要将4.2埋点文件整理好，交给技术人员，让他们通过代码的方式进行埋点。

　　这里需要注意的是，手动嵌入过程中存在较大的数据风险：

　　埋点名称不规范、不统一，一些参数的定义也比较随意，容易造成后续埋点名称冗余、混乱，不利于后续统一管理；过程中很多环节都是口头沟通，产品验收相对比较繁琐，而且某个版本漏点或埋错点的风险大大增加，给及时提供数据带来很大隐患。

　　如果是可视埋点或无埋点，则用户通过管理后台按规则操作，基本不需要技术人员操作。

　　埋点操作完成后，要观察埋点采集的数据：每个事件的数据是否正常上传？采集数据是否在正常范围内（太大或太小）？

　　4. 数据评估与数据分析

　　经过一段时间的数据采集，就形成了对应的数据样本。需要注意的是时间太短，或者少数用户的数据没有意义。

　　想一想，采集到的数据质量如何，应该如何分析数据？数据分析的方法还有很多，这里就不重点介绍了。接下来，我们将列出一些常用的分析方法。

　　1）对比分析

　　它通常用于比较迭代前后的数据。

　　2) 分布分析

　　通常用于分析特定行为在某个维度上的分布情况，可以显示用户对产品的依赖程度，分析不同地区、不同时间段客户购买不同类型产品的数量和频率.

　　比如电商APP的下单行为，24小时下单的分布情况，分析一天中哪个时间点是下单高峰期。

　　3) 漏斗分析

　　反映用户行为状态和用户从起点到终点各个阶段的转化率的一个重要分析模型，比如上文提到的电商下单流程的转化率。

　　4）用户路径分析

　　用户在APP中的访问行为路径或网站。为了衡量网站优化或营销推广的效果，了解用户行为偏好，往往需要分析访问路径的转化数据。

　　以电商为例，买家从登录网站/APP到支付成功（真正的购买）需要浏览首页、搜索商品、加入购物车、提交订单、支付订单用户的过程是一个纠结的过程）。迭代过程）。

　　5) 留存分析

　　用于分析用户参与度/活动的分析模型，以检查执行初始行为的用户中有多少会跟进。这是衡量产品对用户价值的重要方式。常用指标包括次日留存、7天留存、15天留存和30天留存。

　　以上是一些常见的分析思路，其他还有很多：点击分析、用户群分析、属性分析、行为事件分析等，有兴趣的同学可以自行学习。

　　5.确定优化方案

　　产品经理的工作是发现问题，然后解决它们。

　　用数据分析定位问题，找出影响上述量化指标的产品问题在哪里？

　　比如：什么情况下订单确认到付款的转化率这么低？可能是用户无法在订单确认页面查看商品详情，为了返回上一页而放弃支付。也可能是用户想修改产品的数量或规格，但是确认订单页面无法修改，所以放弃支付。当然，也可能是提交支付按钮有bug或者误解。

　　最后，一旦发现问题，就要对症下药，制定解决方案。

　　6. 如何评价解决方案的有效性？

　　当优化计划启动时，我们的工作并不意味着它就结束了。重点是观察相应的指标有没有提升或降低，与优化前的版本相比是否有提升。很多时候，往往不可能一步到位解决问题。需要迭代优化，通过数据跟踪不断修改设计策略，以达到我们最终的设计目标。

　　大数据时代的到来，对产品经理提出了更加严格的数据分析要求。懂数据分析的产品经理，可以用数据驱动产品设计优化，提升客户体验，实现更多价值。

　　作者

0

2022-11-09

文章定时自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

完美:爬虫总是断？用这个手残党也能轻松解决网站反爬

0 个评论

发起人

AI时代内容工厂

完美:爬虫总是断？用这个手残党也能轻松解决网站反爬

0 个评论

发起人

相关问题