抓取网页数据违法吗(“爬虫”是怎么抢张便宜机票的？(图))

优采云发布时间: 2021-09-21 14:02

　　不到两个月，2018年春节即将到来

　　在北京工作的小王告诉《科技日报》，由于他的家乡在云南，春节的门票太贵，他选择花两天两夜的时间去“k6”返程，进行长途旅行

　　然而，就在小王准备买便宜票的时候，他在网上看到了这样一个消息：航空公司发行的低价机票中，80%以上被票务公司的“爬虫”抢走，普通用户很少能买到

　　小王很傻。“爬行动物”到底是什么？它是怎么抢票的？难道没有办法治理吗

　　抓取收录超链接信息的网页

　　爬虫技术是实现网络信息的关键技术之一采集.一般来说，“爬虫”是一种用于批量和自动化“采集网站数据”的程序，几乎不需要人工干预，“北京工业大学网络科学与技术研究所副教授闫怀志说。他告诉《科技日报》

　　阎怀志介绍，“爬虫”又称网页“蜘蛛”和网络机器人，是一种根据一定规则自动抓取网页信息的程序或脚本，通常驻留在服务器上。网页不仅收录供用户阅读的文本、图片等信息，还收录一些超链接信息。网络“爬虫”借助这些超链接信息不断地抓取网络上的其他网页

　　“这类信息采集过程非常像一个在互联网上漫游的爬虫或蜘蛛，因此网络‘爬虫’或网页‘蜘蛛’被命名。”阎怀志说，“爬虫”最早应用于搜索引擎领域，如谷歌、百度、搜狗等搜索引擎工具。他们每天需要在互联网上捕获数百亿个网页，需要借助巨大的“爬虫”集群来实现搜索功能

　　目前，“爬虫”已经广泛应用于电子商务、互联网金融等诸多领域。例如，“爬虫”可以在航空公司的官方网站上获取机票价格。“爬虫”在发现低价或紧俏的客票后，可以利用虚假客源的真实身份信息进行抢先预订。此外，许多互联网浏览器都推出了自己的机票抓取插件，以推广机票预订成功率高的浏览器

　　根据爬行任务和目标的不同，网络“爬行器”大致可分为批量型、增量型和垂直型。批量“爬虫”的捕获范围和目标比较明确，可以是设置的网页数量，也可以是设置的时间消耗。增量“爬虫”主要用于不断抓取更新的网页，以适应网页的不断变化。垂直“爬虫”主要用于特定主题内容或行业特定网页

　　“爬虫”是怎么弄到票的

　　此前，携程的“反爬虫”专家在技术分享中透露，某个网站页面每分钟的浏览量为1.2只有500个真正的用户，“爬虫”流量的比例是95.8%

　　采访中，不少业内人士还表示，即使在“爬虫”活动淡季，虚假流量也占网站总预订流量的50%，峰值超过90%

　　那么，“爬行动物”是如何实现抢票的呢？对此，严怀志解释说，主要原因是机票代理公司利用“爬虫”技术不断捕捉航空公司机票销售官网的网站信息。如果发现航空公司已经发行低价机票，“爬虫”会立即使用虚假的客源身份进行批量预订而不是实际付款，从而达到抢占低价机票客源的目的。因为“爬虫”的效率远远高于正常的手动操作，所以通过正常操作几乎不可能抓到车票

　　然后，机票代理商将通过自己的销售渠道（包括公司网站、在线旅行社、客户电话订购等）找到真正的客源，在航空公司允许的账户期限内退订之前以虚假客源身份预订的低价机票，然后利用真实身份信息进行订购，最终实现低价机票的涨价转售

　　如果在航空公司规定的会计期间内未找到真实客源，票务代理将在订单到期前添加虚假身份订单，并继续“占用”低价机票，以此类推，直到找到并出售真实客源

　　“上述操作流程构成了一个完整的门票销售链。在这个过程中，航空公司的票务系统允许在会计期间内重复预订和退款，这有助于票务代理使用“爬虫”抓取机票并提高价格以获取利润。这种抢票方式被称为技术上的“黄牛党”。”阎怀志强调

　　的确，一些业内人士表示，这些“爬虫”流量在没有任何消耗的情况下消耗了大量的机器资源，这是每个公司最痛恨的。但是，由于担心误伤真实用户，各公司的“反爬虫”策略非常谨慎

　　“爬行动物”可以通过某种手段加以预防和控制

　　任何事物都有两面性，“爬虫”技术也不例外

　　阎怀志认为，“爬虫”不仅可以为正常批量数据采集提供有效的技术手段，还可以被恶意利用以获取不当利益，如果“爬虫”技术使用不当，将带来一定的危害

　　首先，威胁数据安全。机票网站数据被恶意爬网，可能被机票代理恶意使用，并且存在被同行获取的风险

　　其次，它会导致系统性能下降，影响用户体验“将导致航空票务网站服务器的资源负载增加和性能下降，网站响应速度较慢甚至无法提供服务，这将对用户的搜索和交易体验产生负面影响。然而，由于巨大的灰色利益空间和“反爬虫”技术在反“爬虫”斗争中的有限作用，这种明显不公平的“作弊”方式已成为扰乱票务市场秩序的技术“顽疾”

　　“从技术角度来看，拦截‘爬虫’可以通过网站流量统计系统和服务器访问日志分析系统。”阎怀志说，通过流量统计和日志分析，如果发现单次IP访问、单次会话访问和用户代理信息超过设定的正常频率阈值，将判断访问是由恶意“爬虫程序”引起的，并且“爬虫程序”将被删除。您的IP被列入黑名单以拒绝后续访问

　　然后设置各种访问验证链接。例如，如果存在可疑的IP访问，请返回验证页面，并要求访问者通过填写验证代码并选择验证图片或字符进行验证。如果是恶意“爬虫”，显然很难完成上述验证操作，那么可以阻止“爬虫”的访问，防止其恶意抓取信息

　　互联网空间不能有“灰色区域”

　　目前，以云计算和大数据为代表的新一代信息技术正处于快速发展阶段

　　严怀志说：“如果上述新技术被非法或不当应用，将造成严重危害。互联网空间安全需要建立健全完善的保护体系，绝不能‘裸奔’。”

　　2017年6月1日，中国《网络安全法》正式实施，明确了网络安全各方的权利和责任。这是中国网络空间治理和法制建设从量变到质变的重要里程碑。作为*敏*感*词*治理互联网、化解网络风险的法律工具，该法已成为中国互联网在法治轨道上健康运行的重要保障

　　但是，目前对高科技“黄牛”的倒票行为没有明确规定，使得恶意抓取信息和不当牟利行为处于法律法规监管的“灰色地带”

　　阎怀志介绍，国际上专门为“爬虫”应用制定了机器人协议（即爬虫协议、网络机器人协议等）。该协议的全称为“网络爬虫排除标准”网站它可以告诉“爬虫”哪些页面和信息可以爬网，哪些页面和信息不能爬网。作为网站与“爬虫”的沟通方式，该协议用于规范“爬虫”行为和限制不正当竞争

　　作为国际互联网界通行的道德规范，该协议的原则是“爬虫”和搜索技术应服务于人类，尊重信息提供者的意愿并保护其隐私网站有义务保护其用户的个人信息和隐私。这规定了爬虫程序和被爬虫程序的权利和义务

　　一位不愿透露姓名的法律专家也表示，“反爬虫”不仅要依靠技术防范和行业自律，还要通过改善管理、法律法规，特别是法律手段来限制这种行为，以显示惩罚和威慑的力量。航空公司

0

2021-09-21

抓取网页数据违法吗

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据违法吗(“爬虫”是怎么抢张便宜机票的？(图))

0 个评论

发起人