网页新闻抓取( 今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻)
优采云 发布时间: 2022-03-29 08:09网页新闻抓取(
今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻)
今日头条等信息聚合平台基于数据挖掘技术对新闻进行筛选和推荐:“为用户推荐有价值的、个性化的信息,提供连接人和信息的新服务。是中国发展最快的移动互联网领域之一。”自2012年3月成立以来,今日头条累计活跃用户3.1亿,日活跃用户超过3000万。
本文试图从技术层面分析今日头条的传播机制和相关原理。
网络爬虫:抓取新闻的基本技术
今日头条是典型的数据新闻平台。除合作媒体外,其新闻来源很大一部分来自搜索引擎的网络爬虫。
什么是网络爬虫?
STEP 1:从互联网的各个角落采集信息;
STEP 2:总结其中的新闻信息;
STEP 3:基于机器学习对聚合信息进行分类整理,划分每个时刻的热点新闻。
作为数据新闻平台,今日头条与一般数据新闻的不同之处在于,它提供了一个展示聚合信息的媒体平台,而不是单一的信息。
网络爬虫如何工作?
网络爬虫的工作机制依赖于互联网上的超链接网络。
Internet 上的大多数网页都有超链接。这些超链接将各种网页链接在一起,形成一个巨大的网络,即超链接网络。爬虫作为一种网络程序,从一些网页开始,保存网页的内容,在网页中搜索超链接,然后访问这些超链接,并重复上述过程。这个过程可以继续。如图所示:
如何计算“今日头条”:“网络爬虫+相似度矩阵”的技术操作流程
STEP 1:爬虫从*敏*感*词*节点 0 开始爬取网页内容,
STEP 2:爬取时发现两个超链接,爬取一级节点,
STEP 3:从一级节点发现二级节点,继续这个过程。
在这个过程中有两种策略:
1、只有当一个关卡的所有页面都用完后,才会爬到下一个关卡。这种策略被称为“广度优先”;
2、发现超链接后,立即开始爬取页面,并继续深入挖掘,这个过程称为“深度优先”。
附加说明:
上图是一个树状网络。真正的网络不是那么简单。它充满了“循环”,即新发现的网页中的超链接指向已被爬取的旧节点。这时候就需要识别那些已经成功爬取的页面了。
吃个栗子——
以今日头条为例,说明网络爬虫在新闻抓取中的工作流程:
STEP 1:工作人员首先要在后台设置一个新闻来源词典,如“网易新闻”、“新浪新闻”、“凤凰新闻”、“浙江新闻”等,
第 2 步:通过这些字典,网络爬虫将锁定到这些 网站 超链接并从中抓取新闻。
附加说明:
如果新闻是在与这些新闻平台相关的博客内容中,而不是新闻平台本身的新闻,网络爬虫将无法捕捉到它。
聚合媒体的概念并不是那么简单。除了聚合来自不同媒体的内容外,聚合媒体更重要的特点是对不同的信息进行分类和排序,得到一个信息聚合接口(聚合器)。各种排行榜。这种排名在传播机制上满足了网络科学中的“优先链接机制”,即用户的注意力更倾向于排名靠前的信息。这个过程可以在经典的传播科学中找到:“乐队浮动效应”。这一发现起源于美国的选举过程。候选人会站在乐队花车上获得选票,支持者会站在他的车里。研究发现,人们倾向于登上载满人的花车,
推荐系统:个性化新闻的技术逻辑
个性化推荐在今日头条中发挥着重要作用。
今日头条的用户登录非常人性化。作为后起之秀,今日头条战略性地允许用户使用微博、QQ等社交账号登录。这个过程实际上使今日头条能够挖掘个人社交网络上的基本信息。因此,可以方便地获取用户的个性化信息,例如用户的兴趣和用户属性。越用越了解用户,从而做出精准的阅读内容推荐。
个性化推荐的基础是构建推荐系统
推荐系统广泛用于用户没有明确需求的场景。在算法方面,推荐系统可以分为:
社交推荐(如咨询朋友);
基于内容的过滤(例如,根据用户看过的电影推荐其他类似的电影);
基于协同过滤的推荐(协同过滤,比如查看排行榜,或者找到兴趣相似的用户,看看他们最近看过什么电影)。
因此,可以用来构建推荐系统的信息也分为三类:好友、历史兴趣、注册信息。
推荐系统是一种自动化工具,可以将用户与项目相关联。除了这些信息之外,还可以在推荐系统的构建中加入时间、位置等信息。现在,推荐系统已经广泛应用于新闻推荐、书籍推荐、音乐推荐、电影推荐、好友推荐等领域。作为人工智能的一种形式,它极大地方便了人们的生活和交流。
推荐系统算法的基础是构造相似度矩阵
这个相似度矩阵可以是物体之间的相似度,比如书籍之间的相似度,音乐之间的相似度。以下是基于项目的协同过滤 (ItemCF) 的示例。基于项目的协同过滤算法可以利用用户的历史行为,从而使推荐结果具有高度可解释性。例如,可以向喜欢阅读足球新闻的用户推荐其他类似新闻。基于item的协同过滤算法主要分为两个步骤:
第 1 步:计算项目之间的相似度。
STEP 2:根据用户的历史行为生成用户推荐列表。
假设有四个用户:
用户1在今日头条的浏览记录为[a,b,d],
用户2的浏览记录为[b, c],
用户 3 的浏览记录为 [c, d],
用户4的浏览记录为[b,c,d];
这四个人的浏览行为可以表示为以下四个项目矩阵:
添加单个用户的项目矩阵可以聚合成所有的新闻矩阵 M,其中 M[i][j] 表示新闻 i 和新闻 j 被多人同时阅读的次数。如下:
矩阵逻辑
如果两个新闻故事被多个人同时观看,则可以说它们更相似。
对上述矩阵进行归一化可以对矩阵进行操作,计算新闻之间的相似度,例如相关相似度或余弦相似度。
基于item之间的相似度,如果一个新用户进入系统,他阅读了新闻c,ItemCF算法可以快速将相似度最高的新闻(b和d)赋予新闻c,并推荐给这个新用户。
在推荐过程中,推荐系统可以根据用户的行为不断优化相似度矩阵,使推荐越来越准确。
或者,如果用户可以手动标记每个新闻项目的兴趣(喜欢或不喜欢),则可以使推荐更加准确。
本质上,以上两个数字是热点新闻和个人定制新闻的基本原理。它分两步完成:
STEP 1:首先找出新闻之间的热点和相似之处
STEP 2:向用户推送相似度高的热点新闻。
吃个栗子——
假设抗战胜利70周年,有4个人同时浏览今日头条,
A是一位女性读者。她点开了秋季糖水怎么做、育儿要注意的五件事、阅兵、新武器等新闻。
B 是一名中年上班族。他点击阅兵式和中国最新武器目录等新闻。
C是老人,点击了医疗保健、阅兵、新武器等新闻。
D是刚毕业的男大学生。他点开了英雄联盟攻略、好莱坞旅游攻略、阅兵、新武器等新闻。
热点和相似度的生成过程:
STEP 1:这四个人同时点击阅兵和新武器,系统算法会通过点击和停留时间计算出阅兵和新武器是当天的热点。
STEP 2:游行和新武器被多人同时点击,这意味着它们有相似之处。
STEP 3:当新用户点击新闻时,今日头条会以最快的速度分析其点击的内容,并在已签出的热点新闻中找到其感兴趣的相关内容,并引导其阅读热点新闻。
这一系列的行为都是由计算机自动完成的。
机制缺陷
上面的例子说明了定制新闻是基于泛热点新闻的。这就带来了一个问题,即当关注的新闻不是热点时,系统将无法获取相关的热点,而将其纳入新闻中。寻找其他信息再次匹配,使匹配的新闻在现有信息的基础上最大程度匹配用户的兴趣,但可能不会推送当天最热的新闻。实现这种长尾理论所设想的定制的关键是新闻的细分。只有将不同的主题细分为各*敏*感*词*主题,再细分从属内容,才能实现真正的个性化定制。做到这一点,其实已经脱离了机械,而是在于人们对事物本质的认知和把握。正如法国社会学家福柯在《知识考古学》中所指出的,分类是一物与另一物的根本区别。分类归根结底是人类主观能动性的体现;系统中积累的用户行为越多,分类越准确,自动化的个性化定制就越贴近用户需求。
聚合媒体:国际新闻的趋势
聚合媒体在国外的应用也非常广泛。聚合媒体数据新闻平台的信息展示可以是传统搜索引擎的平面展示,也可以是视觉展示。后者如日本的新闻地图网站()。日本新闻地图项目基于谷歌新闻。它使用不同的颜色来区分新闻类别,例如红色代表“世界”,*敏*感*词*代表“国家”。用户可以通过检查页面底部的类别栏进行过滤。您可以在页面顶部按国家和地区进行过滤。网站后台算法根据相关新闻信息的数量、重要性和点击量,自动调整每条新闻所占区域的大小。
一个非常有趣的联合新闻网站 是 GDELT。GDELT 项目(The GDELT Project,)监控全球 100 多种语言的实时广播、印刷和在线新闻,识别世界各地的人、地点、组织、卷、主题、来源、情绪和时间消息。基于此,GDELT 推出了全球新闻情绪地图,每小时更新一次。绿色代表快乐,*敏*感*词*代表悲伤。数据密度反映了新闻的规模,如下图所示:
另一个很好的例子是社交新闻网站,主要在Digg、Reddit等。这种类型的网站允许用户注册、互相关注、提交新闻、评价新闻。其中,得分高的新闻将进入热门新闻页面。在这个过程中,每个用户都充当着新闻把关人的角色,这种信息把关方式称为群组把关。
但是群看门的意义主要是把新闻推送到热门新闻的网页上,也就是向大众推送。这个阶段之后,大众信息的传播更像是传统媒体的新闻传播方式。其实这种基于用户过滤的新闻聚合很常见,比如新浪微博上的“热点话题”、推特上的“潮流话题”等等。根据笔者在Digg上的新闻传播分析,这种新闻聚合对信息传播的影响更大。对于那些广为传播的Digg新闻,Digg用户70%以上的信息接触是通过热门新闻看到的。
主流新闻视图和人工智能
从媒体把关到人群把关是一个进步,但从人群把关到计算机或算法把关存在隐患。
以前由编辑承担的内容选择工作现在由计算机处理。其信息把关机制发生了根本性变化。在这个过程中,传统的新闻生产逻辑受到的影响最大。传统的新闻观重视公共利益,报道具有长期影响的事件并提供见解。将这项工作交给机器和算法将带来前所未有的挑战:
首先,算法根据用户表现出的“兴趣”对信息进行分类推荐,往往容易在短期内向用户推荐一些用户喜欢的低质量信息。
其次,不断接触低质量信息会降低个人的新闻素养。过分依赖机器帮我们查资料,容易导致视野越来越局限,不再关注社会的整体利益,容易走向犬儒主义。
第三,主流的新闻运作方式保证了新闻从业者在面对政治、军事和社会力量时的独立和冷静。推荐算法从信息和用户出发,对国家和社会整体关注不够。这种新闻推送机制的偏见很容易带来批评。
未来,新闻业将走向人机融合时代
从未来新闻的角度思考新闻产业的转型,让我们意识到回归新闻本质的重要性。
未来的新闻业不仅提供有限的案例采访,而是系统地获取、积累和分析数据,挖掘隐藏的信息。在注意力经济时代,媒体有责任为用户提供这样的专业信息和专业评论。迅速崛起的数据新闻正朝着这个方向发展,但现阶段更注重视觉表达。聚合媒体自动过滤信息,反映未来新闻的特点。基于个性化推荐,聚合媒体进一步将人工智能的新闻整合功能带入我们的生活,提供了很多便利。然而,不应忽视的是过度依赖机器和算法所固有的危险:
新闻业的未来正在走向人机融合的时代。