你能猜出赢家吗Ubuntu Vs Pop!_OS

发布时间：2021-02-07 14:13:06 所属栏目：外闻来源：互联网

导读：实时数仓的难度在于：它处于比较新的领域，并且各个公司各个业务差距比较大，怎么能设计出方便，好用，符合看点业务场景的实时数仓是有难度的。先看一下实时数仓做了什么，实时数仓对外就是几个消息队列，不同的消息队列里面存放的就是不同聚合粒度的实时数

实时数仓的难度在于：它处于比较新的领域，并且各个公司各个业务差距比较大，怎么能设计出方便，好用，符合看点业务场景的实时数仓是有难度的。

先看一下实时数仓做了什么，实时数仓对外就是几个消息队列，不同的消息队列里面存放的就是不同聚合粒度的实时数据，包括内容ID、用户ID、C侧行为数据、B侧内容维度数据和用户画像数据等。

我们是怎么搭建实时数仓的，就是上面介绍的实时计算引擎的输出，放到消息队列中保存，可以提供给下游多用户复用。

我们可以看下，在我们建设实时数据仓库前后，开发一个实时应用的区别。没有数仓的时候，我们需要消费千万级/s的原始队列，进行复杂的数据清洗，然后再进行用户画像关联、内容维度关联，才能拿到符合要求格式的实时数据，开发和扩展的成本都会比较高，如果想开发一个新的应用，又要走一遍这个流程。有了数仓之后，如果想开发内容ID粒度的实时应用，就直接申请TPS万级/s的DWS层的消息队列。开发成本变低很多，资源消耗小很多，可扩展性也强很多。

看个实际例子，开发我们系统的实时数据大屏，原本需要进行如上所有操作，才能拿到数据。现在只需要消费DWS层消息队列，写一条Flink SQL即可，仅消耗2个cpu核心，1G内存。

可以看到，以50个消费者为例，建立实时数仓前后，下游开发一个实时应用，可以减少98%的资源消耗。包括计算资源，存储资源，人力成本和开发人员学习接入成本等等。并且消费者越多，节省越多。就拿Redis存储这一部分来说，一个月就能省下上百万人民币。

八、实时存储

实时维表关联这一块难度在于。百万级/s的实时数据流，如果直接去关联HBase，1分钟的数据，关联完HBase耗时是小时级的，会导致数据延迟严重。

我们提出了几个解决方案：

第一个是，在Flink实时计算环节，先按照1分钟进行了窗口聚合，将窗口内多行行为数据转一行多列的数据格式，经过这一步操作，原本小时级的关联耗时下降到了十几分钟，但是还是不够的。

第二个是，在访问HBase内容之前设置一层Redis缓存，因为1000条数据访问HBase是秒级的，而访问Redis是毫秒级的，访问Redis的速度基本是访问HBase的1000倍。为了防止过期的数据浪费缓存，缓存过期时间设置成24小时，同时通过监听写HBase Proxy来保证缓存的一致性。这样将访问时间从十几分钟变成了秒级。

第三个是，上报过程中会上报不少非常规内容ID，这些内容ID在内容HBase中是不存储的，会造成缓存穿透的问题。所以在实时计算的时候，我们直接过滤掉这些内容ID，防止缓存穿透，又减少一些时间。

第四个是，因为设置了定时缓存，会引入一个缓存雪崩的问题。为了防止雪崩，我们在实时计算中，进行了削峰填谷的操作，错开设置缓存的时间。

可以看到，优化前后，数据量从百亿级减少到了十亿级，耗时从小时级减少到了数十秒，减少99%。

2、下游提供服务

对于当代大学生来说，网贷极大的满足了他们短期的消费欲望，但如果偿还不上巨额贷款，将面临网贷平台暴力催收，这种后果是无法想象的。所以“网贷套路深，选择需谨慎”。

网贷平台暴力催收无疑给我们敲响了一记警钟，网络逐渐融入到我们的生活，成为了我们生活中密不可分的一部分，越是这样我们越要注重网络安全的保护。

在国家的倡导下，网络安全逐渐被大众所熟知，各大高校也相继推出网络空间安全专业，为净化网络贡献出一份力量。

网络空间安全作为很具潜力的专业，有着不可替代的竞争优势，不仅能够掌握各项安全技术，还能提高个人技能。如今正值网络安全人才短缺，选择该行业，只要有过硬的技术，必然获得高薪高福利。

随着互联网的日益发展，只有不断增强网络安全意识，才能更好的识别和抵制不良网贷，避免网贷平台非法催债。

（编辑：鹤壁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!