自动采集文章文章(自动采集文章文章作者名:如何分析谁回答的问题)
优采云 发布时间: 2022-02-01 23:01自动采集文章文章(自动采集文章文章作者名:如何分析谁回答的问题)
自动采集文章文章作者名,标题,封面图,话题,相关话题,然后再进行采集。“文章都采集后采集提取网页地址,接着采集我们相关的qq群”这样做是非常不好的,因为直接采集网页需要获取原网页的链接,你肯定不希望获取到这个网页原网页的所有信息,这样我们就不能分析谁回答的问题,以及提出这个问题的动机。举个例子,我把qq群的名字采集了出来,然后呢?搜索一个qq群,我不清楚这个人回答了什么,通过去重采集把他答案摘取出来?这样多么困难啊。
如果采集出来,很有可能采集回答的是直接用户名而不是qq群。这就得不偿失了。网站还好,你也是看到就点进去了。一切都得搞定才好。另外一个问题就是,你会发现采集到的网页(截图),鼠标放过去就会显示抓取回答的网页,你稍微缩小窗口都能看到。这会让你看到,虽然回答的人挺多,但是最近一段时间回答过这个话题的人并不多。
可能最近比较火,相关话题的用户比较多。而且你还会发现,你点进去没有什么特别的有价值的回答。比如说我点进去,发现有一个qq号称知乎回答的很多的用户。但是为什么他最近没有回答,而且他的人气也很低呢?我们之前在采集页面的时候,可以调用了我们自己的qq号码,实际上呢,有些用户并不存在呢。实际上是qq刚刚升级了,不是很方便采集。
实际上qq早已经没有人用了,我也接触到一些有一定知名度的qq,都转战到微信和其他平台上面了。大家有兴趣可以把qq下来,qq同时允许我们获取百度,微信和百度的数据。实际上,这里就涉及到真假账号识别。这个很难,现在各家互联网公司都很看重用户隐私。这就必须得考验用户自身的判断能力了。网站还好,就是采集网页本身了。
实际上文章采集也一样。我们采集的基本都是文章中心,或者大标题部分的内容。我们在采集中肯定也会产生一些重复性的账号。对于很多目的可能就是截取文章的一个文章话题。至于我们自己创建的话题或者其他。也会出现重复性的帐号,因为你是专业创建话题的。只能依靠一些技术手段去避免。qq空间,主要以关注人动态来识别重复性的账号,或者以时间来鉴别这个用户是否曾经创建过一个话题。
微信号,以朋友圈里的评论来辨别,还有一个需要注意的是朋友圈内有些人的评论评论信息为空,则不能进行重复性的采集。手机号,基本也采集不到,除非你的号特别有权限。因为它是私人用户,手机被盗了直接会报警。我们经常使用以前某人的手机号,一旦我们后面需要找他要账号时,发现号上面有未注册过的手机号,就会很烦。有时这个人的手机号忘记了,但是他的微信密码没。