十余年来,企业架构经过了数次迭代和变迁,ITPUB是这一切的重要见证者,同样陪伴了无数架构师的成长。10月17日,第十届中国系统架构师大会以“十年架构,成长之路”为主题,云集了国内CTO、研发总监、高级系统架构师、开发工程师和IT经理等技术人群,与会规模超千人。本届大会特设四大主线,其中,主线二为基于大数据平台的应用实践,数位技术专家倾囊相授,SACC十年磨砺,涅槃起航!
美团点评高级技术专家曾林西:美团点评Spark的演进与实践
Spark作为美团点评主流的离线大数据计算引擎,在数仓生产、查询分析、机器学习等领域都有重度使用。曾林西介绍了Spark在美团点评的演进过程以及主要应用场景和现状;对于Spark任务管理、交互式开发、问题诊断等需求的平台化架构选型和建设思路;基于Spark做数仓生产计算引擎以及Spark on GPU集群实现批量深度学习预测等实践过程遇到的功能性、稳定性、性能问题对引擎内核进行改造的经验等内容。
从正常运行到成熟应用场景的落地,美团点评的Spark演进之路可以概括为能用、好用、用好三个阶段。整个演进过程围绕解决平台和接口定义,定位分布式执行计算失败原因,落地数据仓库生产Spark等问题逐一展开,最终提升了整个Spark引擎的鲁棒性。
小米数据流平台负责人夏军:小米数据流服务:大数据集成架构演化之路
对大多数企业而言,让数据去到该去的地方并发挥最大的价值一直是技术人员穷尽探索的难题。小米有众多智能终端和设备,数据规模非常大,对于数据采集和大数据集成提出了非常高的要求。其内部大数据系统众多,如何高效集成Kafka、OLAP等多个系统?如何保证数据低延迟传输?如何实时发现并警报数据流异常?如何量化数据流整体链路情况等问题同样是小米技术团队亟待解决的难题。
基于上述问题,小米的数据流平台共分为三部分:Talos为中间层,小米自研的消息队列,主要扮演数据中转站的角色,类似于开源组件Kafka;下层为Source或Sink的扩展,目标是连接大数据应用场景下的不同平台;上层依赖底层的数据收集进行监控、分析等工作。整套系统主要应用于小米的埋点数据收集、实时日志分析、泛OLAP场景以及流式计算等场景。
eBay资深主任工程师郭跃鹏:Apache Griffin - 分布式系统的数据质量方案
在大数据、云计算、流式计算为基础的分布式环境下,数据本身的质量问题越发重要。Apache Griffin项目是eBay发起并贡献给Apache社区的数据质量方案。它试图提供一套可扩展,可伸缩的框架来解决数据质量的几个典型问题:如数据的精确性问题、一致性问题、合法性问题、时效性问题、唯一性问题以及完整性问题。面临streaming和batch的企业数据环境,Apache Griffin如何通过提供一整套的流程来定义,测量并汇报数据质量,以试图解决数据质量问题?
在数据服务领域从业多年,郭跃鹏发现不少企业内部跨多个系统和团队没有统一的数据质量视图,没有共享平台来管理数据质量,也没有近乎实时的系统健康状况报告,Apache Griffin的初级需求便诞生了。除了解决上述问题,Apache Griffin也支持Streaming,基于Spark2.2.0版本并有新的DSL。之后,该团队将继续优化该项目,新增更多连接器并实现基于拓扑的数据质量监控(项目开源地址:https://github.com/apache/incubator-griffin)。
百度技术经理张建伟:百度云Spark优化及大规模应用
从2003年至今,百度云经历了从分布式搜索系统到如今的可视化分析挖掘、可视化报表大屏和安全计算。在这个过程中,Spark证明了其大数据计算核心引擎的地位,百度云内部也在进行全面的Spark化,并本着“开源开放”的原则将研究改进成果积极与社区分享。
目前,百度云内部Spark集群规模在15000台左右,团队进行了运行时优化、独立Shuffle以及纯流式等改进。在性能优化方面,百度云与Intel联合开源了OAP项目,其性能提升了大概5倍;插件式易部署;类似传统数据库的索引和cache,易于使用。AE(Adaptive Execution)方案主要针对运行时优化,解决Reduce数量设置等问题。流式shuffle的加入减少了旧 shuffle map merge、reduce pull 时间消耗等问题。如果感兴趣,大部分技术成果都可以通过开源社区查询实践。
在本届SACC大会的主线二《大数据平台架构实践》上半场,我们了解了不同企业在数据分析、资源调度和集群配置等方面的实践优化。“十年磨一剑,砺得梅花香”,第十届中国系统架构师大会准备了三天传统技术大会演讲,两天深度主题培训
关键词: 互联网