你能猜出赢家吗Ubuntu Vs Pop!_OS
实时数仓的难度在于:它处于比较新的领域,并且各个公司各个业务差距比较大,怎么能设计出方便,好用,符合看点业务场景的实时数仓是有难度的。 先看一下实时数仓做了什么,实时数仓对外就是几个消息队列,不同的消息队列里面存放的就是不同聚合粒度的实时数据,包括内容ID、用户ID、C侧行为数据、B侧内容维度数据和用户画像数据等。 我们是怎么搭建实时数仓的,就是上面介绍的实时计算引擎的输出,放到消息队列中保存,可以提供给下游多用户复用。 我们可以看下,在我们建设实时数据仓库前后,开发一个实时应用的区别。没有数仓的时候,我们需要消费千万级/s的原始队列,进行复杂的数据清洗,然后再进行用户画像关联、内容维度关联,才能拿到符合要求格式的实时数据,开发和扩展的成本都会比较高,如果想开发一个新的应用,又要走一遍这个流程。有了数仓之后,如果想开发内容ID粒度的实时应用,就直接申请TPS万级/s的DWS层的消息队列。开发成本变低很多,资源消耗小很多,可扩展性也强很多。 看个实际例子,开发我们系统的实时数据大屏,原本需要进行如上所有操作,才能拿到数据。现在只需要消费DWS层消息队列,写一条Flink SQL即可,仅消耗2个cpu核心,1G内存。 可以看到,以50个消费者为例,建立实时数仓前后,下游开发一个实时应用,可以减少98%的资源消耗。包括计算资源,存储资源,人力成本和开发人员学习接入成本等等。并且消费者越多,节省越多。就拿Redis存储这一部分来说,一个月就能省下上百万人民币。
八、实时存储 实时维表关联这一块难度在于。百万级/s的实时数据流,如果直接去关联HBase,1分钟的数据,关联完HBase耗时是小时级的,会导致数据延迟严重。 我们提出了几个解决方案: 第一个是,在Flink实时计算环节,先按照1分钟进行了窗口聚合,将窗口内多行行为数据转一行多列的数据格式,经过这一步操作,原本小时级的关联耗时下降到了十几分钟,但是还是不够的。 第二个是,在访问HBase内容之前设置一层Redis缓存,因为1000条数据访问HBase是秒级的,而访问Redis是毫秒级的,访问Redis的速度基本是访问HBase的1000倍。为了防止过期的数据浪费缓存,缓存过期时间设置成24小时,同时通过监听写HBase Proxy来保证缓存的一致性。这样将访问时间从十几分钟变成了秒级。 第三个是,上报过程中会上报不少非常规内容ID,这些内容ID在内容HBase中是不存储的,会造成缓存穿透的问题。所以在实时计算的时候,我们直接过滤掉这些内容ID,防止缓存穿透,又减少一些时间。 第四个是,因为设置了定时缓存,会引入一个缓存雪崩的问题。为了防止雪崩,我们在实时计算中,进行了削峰填谷的操作,错开设置缓存的时间。 可以看到,优化前后,数据量从百亿级减少到了十亿级,耗时从小时级减少到了数十秒,减少99%。
2、下游提供服务 对于当代大学生来说,网贷极大的满足了他们短期的消费欲望,但如果偿还不上巨额贷款,将面临网贷平台暴力催收,这种后果是无法想象的。所以“网贷套路深,选择需谨慎”。 网贷平台暴力催收无疑给我们敲响了一记警钟,网络逐渐融入到我们的生活,成为了我们生活中密不可分的一部分,越是这样我们越要注重网络安全的保护。 在国家的倡导下,网络安全逐渐被大众所熟知,各大高校也相继推出网络空间安全专业,为净化网络贡献出一份力量。 网络空间安全作为很具潜力的专业,有着不可替代的竞争优势,不仅能够掌握各项安全技术,还能提高个人技能。如今正值网络安全人才短缺,选择该行业,只要有过硬的技术,必然获得高薪高福利。
随着互联网的日益发展,只有不断增强网络安全意识,才能更好的识别和抵制不良网贷,避免网贷平台非法催债。 (编辑:鹤壁站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |