今日头条文章采集软件(一下当前今日头条的数据(据内部与公开数据综合))
优采云 发布时间: 2021-12-13 09:21今日头条文章采集软件(一下当前今日头条的数据(据内部与公开数据综合))
点击上方“杰哥的IT之旅”,
设置为“顶级或星级”,干货将尽快送达。
Cocoa|开发者前线
今日头条成立于2012年3月,至今仅8年。从十几名工程师开始研发,到数百人,再到200多人。产品线从宜兰段子到今日头条、今日特卖、今日电影等产品线。一、产品背景 今天的今日头条,就是为用户提供个性化的信息客户端。给大家分享今日头条的数据(根据内部和公开数据结合):1、文章 抓取分析我们每天生产的原创新闻约10000条,包括重大新闻网站和地方站,还有一些小说、博客等文章。对于工程师来说,编写一个 Crawler 并不难。接下来,今日头条会人工审核过滤敏感的文章。此外,今天的今日头条今日头条账号目前有很多原创文章加入了内容选择队列。接下来,我们将对文章进行文本分析,例如分类、标注、主题提取,以及基于文章或新闻位置、流行度、权重等的计算。2、用户建模时用户开始使用今日头条,实时分析用户操作日志。使用的工具如下: 我们挖掘用户的兴趣,学习用户的每一个动作。主要用途:用户建模 当用户开始使用今日头条时,会实时分析用户操作日志。使用的工具如下: 我们挖掘用户的兴趣,学习用户的每一个动作。主要用途:用户建模 当用户开始使用今日头条时,会实时分析用户操作日志。使用的工具如下: 我们挖掘用户的兴趣,学习用户的每一个动作。主要用途:
生成的用户模型数据和大多数架构一样,存储在MySQL/MongoDB(读写分离)和Memcache/Redis中。随着用户数量的不断扩大,用户模型处理的机器集群数量也越来越多。2015年之前会在7000左右。 其中,用户推荐模型包括以下几个维度:
此时,您需要始终提出建议。3、 新用户的“冷启动”。今天的今日头条,将通过用户的手机、操作系统、版本来“识别”。此外,例如当用户通过新浪微博等社交账号登录时,今日头条会在好友、粉丝、微博内容、转发、评论等维度对用户进行初步的“画像”。分析用户的主要参数如下: 除了手机硬件,今日头条还会分析用户安装的应用。比如机型和APP结合分析,使用小米、三星、苹果不同,也有用户浏览器书签。今日头条会实时捕捉用户在APP频道的动作。它还包括用户订阅的频道,例如电影、笑话和商品。4、推荐系统 推荐系统,又称推荐引擎。它是今日头条技术架构的核心部分。自动推荐和*敏*感*词*推荐系统有两种:1)自动推荐系统
这时候就需要一个高效率、大并发的推送系统,上亿用户会收到。2) *敏*感*词*推荐系统头条频道,在技术方面分为分类频道、兴趣标签频道、关键词频道、文字分析等,分为相对独立的开发团队。已经有 300 多个分类器,并且仍在添加新的用户模型。原来的用户模型不需要取消,仍然可以使用。今日头条账号上线前,内容主要是抓取其他平台的文章,然后去重。一年几百万,不算大。主要是用户行为日志采集、兴趣采集、用户模型采集。
5、数据存储今日头条使用MySQL或者Mongo持久化存储+Memched(Redis),分成很多库(一个大内存库),尝试使用SSD产品。今天的今日头条的图片直接存入数据库,文件分布式存储,读取时使用CDN。6、 新闻推送消息推送,为用户:及时获取信息。对于运营,它可以提高用户活跃度。比如,今日头条推送后,今日头条的DAU可以提升20%左右。如果不推送,会影响 DAU 约 10%(2015 年数据)。推送后要注意的ROI:点击率、点击量。能够监控应用程序卸载和推送禁用的数量。今日头条推送的主要内容包括突发热点信息、评论和回复,和网站外的朋友注册加入。在今日头条,推送也是个性化的:例如:根据城市:发生在辽宁朝阳的某新闻事件,发送给朝阳当地用户。根据兴趣:比如京东收购了1号店,发给对互联网感兴趣的用户。推送平台的工具和选择需要满足以下标准: 因此,推送后端应提供每日报告、完整的数据后端和 A/B 测试程序支持。部分推送系统使用自己的IDC,发送量特别大,消耗的带宽也比较多。您可以使用类似阿里云的服务,可以有效节约成本。辽宁,则是发送给朝阳当地用户。根据兴趣:比如京东收购了1号店,发给对互联网感兴趣的用户。推送平台的工具和选择需要满足以下标准: 因此,推送后端应提供每日报告、完整的数据后端和 A/B 测试程序支持。部分推送系统使用自己的IDC,发送量特别大,消耗的带宽也比较多。您可以使用类似阿里云的服务,可以有效节约成本。辽宁,则是发送给朝阳当地用户。根据兴趣:比如京东收购了1号店,发给对互联网感兴趣的用户。推送平台的工具和选择需要满足以下标准: 因此,推送后端应提供每日报告、完整的数据后端和 A/B 测试程序支持。部分推送系统使用自己的IDC,发送量特别大,消耗的带宽也比较多。您可以使用类似阿里云的服务,可以有效节约成本。完整的数据后端和 A/B 测试程序支持。部分推送系统使用自己的IDC,发送量特别大,消耗的带宽也比较多。您可以使用类似阿里云的服务,可以有效节约成本。完整的数据后端和 A/B 测试程序支持。部分推送系统使用自己的IDC,发送量特别大,消耗的带宽也比较多。您可以使用类似阿里云的服务,可以有效节约成本。
二、今日头条系统架构
三、标题微服务架构
今天的今日头条将子系统拆分,将大应用拆解成小应用,抽象出通用层进行代码复用。
系统的分层是典型的。重点是基础设施。我希望通过基础设施来提高快速迭代、容灾等一系列任务。我希望每个业务团队都能更快地进行业务迭代和结构调整。
四、今日头条的虚拟化PaaS平台方案,是通过三层实现,通过PaaS平台统一管理。提供通用的SaaS服务,同时提供通用的App执行引擎。底层是IaaS层。IaaS 管理所有机器并集成公共云。今日头条有一些热点事件会在全国推广,网络带宽比较高。借助公有云,需要什么样的计算资源,我们就会统一抽象。基础设施结合面向服务的思维,如日志、监控等功能,业务可以享受基础设施提供的能力,而无需关注细节。
五、 总结今日头条的重要部分是:数据生成和采集数据传输。Kafka做一个消息总线来连接线上和线下系统。数据存储。数据仓库,ETL(提取、转换和加载)数据计算。如何高效查询数据仓库中的数据表至关重要,因为这将直接影响数据分析的效率。常见的查询引擎可以分为Batch、MPP、Cube三种模式。今日头条在这三种模式中都有应用。本公众号所有博文已整理成目录,请在公众号后台回复“m”获取!
推荐阅读:
1、
2、
3、
4、
5、
6、
7、
关注微信公众号『
杰哥的IT之旅』,后台回复“
1024”查看更多内容,回复“
微信”添加我微信。
好文和朋友一起看~
本文分享自微信公众号-Jake_Internet(Jake_Internet)。