抓取网页数据违法吗(站外数据、站内信息、对话数据违法吗?)

优采云 发布时间: 2022-04-11 15:04

  抓取网页数据违法吗(站外数据、站内信息、对话数据违法吗?)

  抓取网页数据违法吗?首先,我们想一想,我们是否已经获取网页的用户信息?获取用户信息可以简单归纳为3种:站外数据、站内信息、对话数据。站外数据站外数据指网页上新增的数据,比如发帖人的名字、所回复的内容,所关注的问题,很多情况下我们都可以通过这些信息来寻找到想要的网页内容,比如:发帖者是谁、什么时间发帖的、发帖内容如何、发帖的时间、收到回复时间和回复的内容。

  在分析站外数据的过程中,会遇到一个现象:一个一个去爬取每个站点都不可能完全弄懂,特别是去对话数据库,是通过邮件发送的,就更难去解读了。比如要分析一个国际赛事的一分钟新闻报道,至少需要看看这些数据下有多少个用户,然后挨个去联系。站内信息站内信息也就是用户与网站的交互方式,比如点击发帖人的发帖按钮,发帖人对哪些帖子感兴趣,然后发帖的用户与什么关系等。

  如果发帖人与同个帖子下其他用户互动的话,那么很可能就是同一个人。这样的信息捕捉简单,但是难以解读。不过要想获取大部分就比较困难,除非是找到这些帖子下所有用户的账号,然后去抓取。一般,如果你通过其他方式打入了这些用户账号,用户一般都是同意,因为要完全知道用户的所有上网行为,确实有点难。大部分情况下,通过与网站页面交互,我们就能得到“万能的”按钮选项,对这个按钮进行预设,就可以得到一份相当完整的站内信息了。

  对话数据这是运营中用到的最多的数据,一般是运营人员输入对话号码,运营人员去获取这个对话的内容,比如内容说的什么、什么时间说的,或者是从服务器下发的新闻或咨询帖,然后对帖子里面的内容进行处理,进行分析和处理的问题。从对话数据中我们可以获取一些关键的信息,比如浏览者的ip、浏览者在浏览哪些站点、在浏览什么行业、浏览者的性别比、年龄比、城市比等等。

  不过这些信息不能全部获取,能获取的也只是一部分。如果某个站点比较火,有很多帖子,有的浏览者看完了,还想去看另外的,那么这个帖子就会重复出现在第二个帖子里面,浏览者就会重复看第二个帖子,导致流量下降。所以要想提高流量,还得看这个站点里面新增加的帖子,去抓取这个帖子。这就是现在效率比较高的网站内容页数据抓取应用,比如阿里巴巴网站上的一些数据的网站,都是网页数据,不需要进行分析,直接用抓包工具就可以分析,比如:fiddler抓包;proxypool;wireshark等软件,然后抓取的话还是不能全部抓取,还是需要将里面出现的信息进行抓取,并处理成代码形式的,最后存入数据库。至于需要抓取的用户名、密码,都是要进行设置的,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线