意外:如何从新闻中识别骗子们的小套路

优采云 发布时间: 2022-10-08 10:23

  意外:如何从新闻中识别骗子们的小套路

  *原创作者:来自西角的MR,本文属于FreeBuf原创打赏计划,未经允许禁止转载

  电信诈骗猖獗,已成为国家重点打击对象,但亲友被骗的悲剧依然屡屡发生。笔者认为,或许我们可以从新闻中提取电信诈骗的特征信息,提醒家里的长辈和亲人,做好防范。

  笔者以某新闻网站为平台,对电信诈骗相关新闻进行提取分析,试图从获取的信息中分析诈骗者的小“套路”。(PS:我一次写了文章,希望能给大家提供一个从新闻中构建模型的思路,如有不足请指正。)

  1. 开始 采集

  当然,你需要一个爬虫来获取信息。这是我使用的库:

  笔者先浏览了一个大的网站,在搜索栏搜索了电信诈骗的新闻报道,但是在翻页的过程中,它的url好像没有变化,firefox也没有看到。发布并获取。

  但是看了他页码的链接,还是有点小激动,因为它的url收录totalPage=63&pageNum=2这两个内容,所以自己写url。

  Beautifulsoup 是一个强大的库,这里我从属性 a 获取源代码中的链接。至于request库,笔者发现使用urlopen打开网站的源码和requests+header的内容不同,requests返回的网站源码比较完整。

  接下来的方法和上面的方法类似,然后采集每个网站中的所有链接,写成一个列表,然后我们就来分析我们需要的网站url的特点,使用正则表达式获取链接,粘贴以下代码:

  得到链接后,我们就可以浏览新闻了,我们也应该得到新闻的信息。

  

  新闻有成千上万种,有图片的,没有图片的,有视频的,没有视频的。文中有图片链接,段落属性很多。不管它是什么,抓住它。

  观察网站后,作者将其分为四类,有的是夹在两张图片之间的文字,有的是纯文本等。根据这些内容,作者用Beautifulsoup把所有的内容都爬下来了(Beautifulsoup真厉害,逼了一波安利),爬出来的文字当然看不懂,还好我们只需要中文内容和数字。

  然后是正则表达式,因为是gbk编码,所以pattern=[0-9\x80-\xff]+,如果是utf-8,就是pattern=[0-9\u4e00-\u9fa5]+,粘贴下面的代码:(PS:大家在使用的时候一定要注意编码类型,这个很烦。)

  由于一些需要,我还得到了文本的标题、作者、哈希等。可以根据自己的需要爬取对应的内容。

  2.下去执行关键词提取

  为什么 python 是这么好的脚本语言?由于集成了很多库,这里给大家安利jieba的中文分词词库,点击阅读原文获取它的地址。

  pip install jieba pip install jieba. analyze 这里小作者使用了 jieba.analysis.extract_tags(a,topK=10) 函数,a是文本内容的str变量,topK 10个高频词全部放入关键字列表,贴上源码:

  更不用说python好用了

  3. 关键词 处理

  我们得到了每个文章的top10的关键词,作者目前正在阅读《python自然语言处理》这本书。

  

  此处解释了文本功能。小作者想看看,真实的造假情况和真实的情况总会有出入。比如某些词的出现频率和位置会与普通文本不同,所以小作者尝试去处理关键词出现的频率。

  我们之前得到的关键字是一个收录很多重复词的列表,所以我们需要先将列表转换为设置格式

  例如:

  <p>keyword1 = set(keyword)

  result = {}

  for key in keyword1:

  count = keyword.count(key)

  result[key] = count</p>

  如果您使用的是python2.7,您可以

  从集合导入计数器,然后:

  小作者只写到这里。也可以根据需要从文本中获取关键词的位置、类型、逻辑关系,构建欺诈类文本特征库。当然,这也是关于 More to come 的全部内容。

  小作者也在朝着这个方向努力。希望小作者能给大家提供一个处理电信诈骗*敏*感*词*的方法,可以和大家交流学习。(PS:一定要注意编码!!!)

  最后发布我自己的结果:

  年未完,小作者也在这里祝大家新年快乐,多看Freebuf,增长见识。

  *原创作者:来自西角的MR,本文属于FreeBuf原创打赏计划,未经允许禁止转载

  事实:夫唯SEO:如何分析竞争对手网站和做好自己网站的SEO(2)

  对于SEOer来说,分析竞争对手的网站是我们必须做的,而且必须做好的事情。但是很多SEOer只知道观察,却不知道如何分析竞争对手的网站。观察 网站 很容易,但分析起来却很困难。上一篇文章教你如何分析对手网站,而这篇文章在这里教大家如何做自己的网站SEO。

  第 1 部分 文章:如何分析竞争对手网站 并做自己的 网站 SEO (1)

  如何做自己的网站 SEO

  现场优化

  

  要想做好自己的网站 SEO,首先要做好站内优化。站内优化是最基本的SEO。现场优化让网站有一个持续稳定的排名。

  站内优化的主要任务是利用网站站内结构的优化,大大提高自己网站的相关性,然后通过少量相关链接打败竞争对手。

  什么是现场结构相关性优化?

  很多SEOer只认为站外的链接需要相关性,却忽略了一点:网站的结构也需要优化相关性。

  

  网站结构的相关性优化就是把相关的关键词放在一起,形成一个闭环,这样当搜索引擎看到你的分类时,都是这个分类的内容,而不是跳转到其他内容去,这个将有助于增强搜索引擎对您词义的印象。

  只要你的分类中的文章只介绍一个信息词或者写在一个分类周围,搜索引擎就会给你贴上一个清晰的分类标签。当用户搜索相关内容时,搜索引擎会从索引库开始推荐你的网站。

  总之,网站信息表达越清晰,排名越容易提升。

  搜索引擎的任务是让用户找到他们想要的和好的信息。只要您提供的信息对用户有用并且用户喜欢您的信息,那么您的内容就被认为是成功的。如果你的网站内容没有达到很好的水平,用户不喜欢,跳出率高,那么你的网站权重和pr值就不会增加。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线