今日头条文章采集软件( 一下当前今日头条的数据(据内部与公开数据综合) )

优采云 发布时间: 2022-03-18 23:09

  今日头条文章采集软件(

一下当前今日头条的数据(据内部与公开数据综合)

)

  

  今日头条成立于2012年3月,到现在才4年。从十几名工程师到研发,到几百人,再到200多人。产品线从内涵笑话,到今日头条、今日特辑、今日电影等产品线。

  一、产品背景

  今日头条是为用户提供个性化信息的客户端。先给大家分享一下今日头条目前的数据(基于内部和公开数据):

  1、文章捕获和分析

  我们每天产生约10,000条原创新闻,包括重大新闻网站和地方台,以及一些小说、博客等文章。对于工程师来说,写一个 Crawler 并不难。

  接下来,今日头条会人工审核过滤敏感的文章。此外,今日头条今日头条号还有大量原创文章加入内容选择队列。

  接下来,我们将对文章进行文本分析,如分类、标注、主题提取、按文章或新闻的区域、流行度、权重计算。

  2、用户建模

  用户开始使用今日头条后,会对用户的行为日志进行实时分析。使用的工具如下:

  我们挖掘用户的兴趣,学习用户的一举一动。主要使用:

  与大多数模式一样,生成的用户模型数据存储在 MySQL/MongoDB(独立读写)和 Memcache/Redis 中。

  随着用户数量的不断扩大,用户模型处理的机器集群数量也越来越多。在 2015 年之前,大约是 7,000 台。其中,用户推荐模型包括以下几个维度:

  在这一点上,需要每时每刻提出建议。

  3、新用户的“冷启动”

  今日头条会被用户的手机、操作系统、版本等“识别”出来。另外,比如用户通过新浪微博等社交账号登录,今日头条会对用户进行初步的“画像”。用户在好友、粉丝、微博内容、转发、评论等维度。

  

  互联网行业常见的俚语你知道多少?

  分析用户的主要参数如下:

  除了手机硬件,今日头条还分析了用户安装的应用。比如机型和APP结合分析,用小米,用三星,用苹果,除了用户的浏览器书签外,都不一样。今日头条会实时捕捉用户在APP频道上的动作。此外,还包括用户订阅的频道,如电影、笑话、产品等。

  4、推荐系统

  推荐系统,也称为推荐引擎。它是今日头条技术架构的核心部分。有两种类型的自动推荐和*敏*感*词*推荐系统:

  1) 自动推荐系统

  这时候就需要一个高效大并发的推送系统,亿万用户都要接收。

  2)*敏*感*词*推荐系统

  今日头条的渠道在技术方面是划分的,包括分类渠道、兴趣标签渠道、关键词渠道、文本分析等,这些都划分为相对独立的开发团队。目前已有300多个分类器,新的用户模型还在不断增加中。原创用户模型不需要撤消并且仍然可以运行。

  今日头条号上线前,内容主要是抢其他平台的文章,然后去重,一年几百万,不算太大。主要是用户动作日志采集、兴趣采集、用户模型采集。

  资讯类APP的技术指标,比如屏幕滑动、用户是否读完一篇文章、停留时间等等,都需要我们特别关注。

  

  5、数据存储

  今日头条使用MySQL或者Mongo持久化存储+Memched(Redis),分成很多库(一个大内存库),也尝试使用SSD产品。

  今日头条的图片存储直接放在数据库中,文件采用分布式存储,读取时使用CDN。

  

  我想换工作涨工资,我想进大厂。我该如何准备面试?

  6、消息推送

  消息推送,为用户:及时获取信息。对于运营来说,它可以提高用户的活跃度。比如今天今日头条推送后,DAU可以提升20%左右。如果没有推送,将影响 DAU 约 10%(2015 年数据)。

  推送后需要关注的ROI:点击率、点击量。能够监控应用程序卸载和推送禁用的数量。

  今日头条推送的主要内容包括突发热点信息、有人评论回复、异地好友注册加入等。

  在今日头条,推送也是个性化的:

  例如:

  据市消息:辽宁朝阳一则新闻事件,发给朝阳当地用户。

  按兴趣:比如京东收购一号店,发给对互联网感兴趣的用户。

  推送平台的工具和选择需要满足以下条件:

  因此,推送后端应该提供日报、完整的数据后端,以及对A/B Test方案的支持。

  部分推送系统使用自己的IDC,占用大量带宽,占用大量带宽。您可以使用像阿里云这样的服务,可以有效节省成本。

  二、今日头条系统架构

  

  

  

  三、今日头条微服务架构

  今日头条拆分子系统,将大应用拆分成小应用,抽象出通用层用于代码复用。

  

  系统的分层是典型的。重点是基础设施,我们希望通过基础设施来完善快速迭代、容灾等一系列工作,也希望各个业务团队能够更快地进行业务迭代和架构调整。

  四、今日头条虚拟化PaaS平台规划

  它通过三层实现,通过PaaS平台统一管理。提供通用的SaaS服务和通用的App执行引擎。底层是 IaaS 层。

  IaaS 管理所有机器并集成公共云。今日头条的一些热点事件将在全国范围内推广和推送。网络带宽比较高。我们使用公共云来抽象出需要哪种类型的计算资源。基础设施结合了服务的思想,比如日志、监控等功能。企业可以在不关注细节的情况下享受基础设施提供的能力。

  五、总结

  今天头条的重要部分是:

  数据生成和 采集

  数据传输。Kafka 充当连接在线和离线系统的消息总线。

  数据存储。数据仓库,ETL(提取转换负载)

  数据计算。如何高效地查询数据仓库中的数据表至关重要,因为这直接关系到数据分析的效率。常见的查询引擎可以分为三种模式,Batch、MPP、Cube。今日头条适用于所有三种模式。

  【精选】分享在大厂遇到的面试题,惊呆了!

  2021-11-23

  

  分享最近在百度和米哈游的围棋工作面试

  2021-11-17

  

  后端架构师的成长路径

  2021-11-08

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线