今日头条文章采集软件( 一下当前今日头条的数据(据内部与公开数据综合))
优采云 发布时间: 2022-03-18 05:19今日头条文章采集软件(
一下当前今日头条的数据(据内部与公开数据综合))
今日头条成立于2012年3月,到现在才4年。从十几名工程师到研发,到几百人,再到200多人。产品线从内涵笑话,到今日头条、今日特辑、今日电影等产品线。
一、产品背景 今日头条是为用户提供个性化信息的客户端。与大家分享今日头条的当前数据(基于内部和公开数据):1、文章捕捉并分析我们每日的原创新闻约10,000条,包括重大新闻网站@ > 和地方电台,还有一些小说、博客等文章。对于工程师来说,写一个 Crawler 并不难。接下来,今日头条会人工审核过滤敏感的文章。此外,今日头条今日头条号还有大量原创文章加入内容选择队列。接下来,我们将对文章进行文本分析,如分类、标注、主题提取、按文章或新闻的区域、流行度、权重计算。2、 用户建模 当用户开始使用今日头条时,对用户操作的日志进行实时分析。使用的工具如下:我们挖掘用户的兴趣,学习用户的一举一动。主要使用:
与大多数模式一样,生成的用户模型数据存储在 MySQL/MongoDB(独立读写)和 Memcache/Redis 中。随着用户数量的不断扩大,用户模型处理的机器集群数量也越来越多。在 2015 年之前,大约是 7,000 台。其中,用户推荐模型包括以下几个维度:
在这一点上,需要每时每刻提出建议。3、新用户的“冷启动”今日头条会被用户的手机、操作系统、版本等“识别”。另外,比如用户通过社交账号登录,比如新浪微博、今日头条将从好友、粉丝、微博内容、转发、评论等维度对用户进行初步的“画像”。分析用户的主要参数如下: 除了手机硬件,今日头条还分析了用户安装的应用。比如机型和APP结合分析,用小米,用三星,用苹果,除了用户的浏览器书签外,都不一样。今日头条会实时捕捉用户在APP频道上的动作。此外,还包括用户订阅的频道,如电影、笑话、产品等。 4、推荐系统推荐系统,也称为推荐引擎。它是今日头条技术架构的核心部分。自动推荐系统和*敏*感*词*推荐系统有两种:1)自动推荐系统需要一个高效大并发的推送系统,需要上亿用户接收。2)*敏*感*词*推荐系统今日头条的频道在技术上分为类别频道、兴趣标签频道、关键词频道、文本分析等,这些都分成了相对独立的开发团队。目前已有300多个分类器,新的用户模型还在不断增加中。原创用户模型不需要撤消并且仍然可以运行。今日头条号上线之前,内容主要是抢其他平台的文章,然后去重,一年几百万,不算太大。主要是用户动作日志采集、兴趣采集、用户模型采集。资讯类APP的技术指标,比如屏幕滑动、用户是否读完一篇文章、停留时间等,都需要我们特别关注。
5、数据存储今日头条使用MySQL或者Mongo持久化存储+Memched(Redis),分成很多库(一个大内存库),也尝试使用SSD产品。今日头条的图片存储直接放在数据库中,文件采用分布式存储,读取时使用CDN。6、消息推送
消息推送,为用户:及时获取信息。对于运营来说,它可以提高用户的活跃度。比如今天今日头条推送后,DAU可以提升20%左右。如果没有推送,将影响 DAU 约 10%(2015 年数据)。推送后需要关注的ROI:点击率、点击量。能够监控应用程序卸载和推送禁用的数量。今日头条推送的主要内容包括突发热点信息、有人评论回复、异地好友注册加入等。在今日头条,推送也是个性化的:例如:按城市:辽宁朝阳的一则新闻事件,发送给朝阳本地用户。根据兴趣:比如京东收购一号店,发给对互联网感兴趣的用户。推送平台的工具和选型需要满足以下标准: 因此,推送后端应提供日报,完整的数据后端,并支持A/B Test解决方案。部分推送系统使用自己的IDC,占用大量带宽,占用大量带宽。您可以使用像阿里云这样的服务,可以有效节省成本。
二、今日头条系统架构
三、今日头条微服务架构今日头条通过拆分子系统,将大应用拆分成小应用,抽象出通用层以供代码复用。
系统的分层是典型的。重点是基础设施,我们希望通过基础设施来完善快速迭代、容灾等一系列工作,也希望各个业务团队能够更快地进行业务迭代和架构调整。四、今日头条的虚拟化PaaS平台规划通过三层实现,通过PaaS平台统一管理。提供通用的SaaS服务和通用的App执行引擎。底层是 IaaS 层。IaaS 管理所有机器并集成公共云。今日头条的一些热点事件将在全国范围内推广和推送。网络带宽比较高。我们使用公共云来抽象出需要哪种类型的计算资源。基础设施结合服务的理念,如日志记录、监控等功能。企业可以在不关注细节的情况下享受基础设施提供的能力。五、总结今天今日头条的重要部分是:数据生成和采集数据传输。Kafka 充当连接在线和离线系统的消息总线。数据存储。数据仓库、ETL(提取、转换和加载)数据计算。如何高效地查询数据仓库中的数据表是很关键的,因为这直接关系到数据分析的效率。常见的查询引擎可以分为三种模式,Batch、MPP、Cube。今日头条适用于所有三种模式。总结今天今日头条的重要部分是:数据生成和采集数据传输。Kafka 充当连接在线和离线系统的消息总线。数据存储。数据仓库、ETL(提取、转换和加载)数据计算。如何高效地查询数据仓库中的数据表是很关键的,因为这直接关系到数据分析的效率。常见的查询引擎可以分为三种模式,Batch、MPP、Cube。今日头条适用于所有三种模式。总结今天今日头条的重要部分是:数据生成和采集数据传输。Kafka 充当连接在线和离线系统的消息总线。数据存储。数据仓库、ETL(提取、转换和加载)数据计算。如何高效地查询数据仓库中的数据表是很关键的,因为这直接关系到数据分析的效率。常见的查询引擎可以分为三种模式,Batch、MPP、Cube。今日头条适用于所有三种模式。因为这直接关系到数据分析的效率。常见的查询引擎可以分为三种模式,Batch、MPP、Cube。今日头条适用于所有三种模式。因为这直接关系到数据分析的效率。常见的查询引擎可以分为三种模式,Batch、MPP、Cube。今日头条适用于所有三种模式。