您的位置:主页 > 互联网新闻 >
互联网新闻

[TOP100summit]同一阶段的六位技术专家:如何有效避免数据平台建设中的“坑”?

2018-12-03

原标题:[TOP100summit]同一阶段的六位技术专家:如何有效避免数据平台建设中的“坑”?

[IT168评论]在数据时代,许多公司学会使用数据驱动的决策。但是,在实践方面,许多公司都难以实现:如何从海量数据中选择最有价值的业务增长部分?如何清理和分析数据以推动决策?如何防止海量数据降低整体计算性能?也许您可以在第7届TOP100全球软件案例研究峰会(TOP100summit)中找到答案。

杨波:Spark系统在Uber的架构设计及大规模实践

近年来,Spark频繁出现在各大企业的大数据架构图中,甚至还带有很多关键业务数据。优步是一家数据驱动的决策公司。杨波全面介绍了Spark的内部架构设计和Uber数据平台的大规模实践,Apache Spark的使用,应用挑战和改进。

优步高级工程师杨波

优步一直希望为用户提供高度可靠的运输体验,通过挖掘用户数据和研究使用习惯来不断调整平台功能。在数据驱动的背后,Spark扮演着非常重要的角色,这是Uber的数据处理工具之一。杨波表示,当数据量非常大时,Spark是最简单的开源工具。与其他产品相比,实现相同功能所需的代码量更少,编程接口和语言更丰富。

Uber使用Marmary将数据从Kafka传输到Hadoop平台,这是一个基于Hadoop的通用数据提取和分散框架。当数据进入Hadoop时,Uber有三个主要的数据查询工具:Hive(在Spark上),Presto和Spark。杨波建议数据平台可以建立在开源组件之上。目前,优步的批处理工作基于Spark。优步还对Spark的问题做了一些改进,并向开源社区反馈了一些问题。

吴疆:企业数字化转型案例:Liberty Mutual数字化转型之路

根据调查,70%的国内企业正处于数字化转型的关键时期,许多传统企业仍然没有很好的计划迈出数字化转型的第一步。 Liberty Mutual数字转换的这种情况绝对值得一看。

Pivotal高级产品经理吴江

在数字化转型的时代,新技术正逐渐颠覆传统产业。为了扭转这一趋势,传统企业必须了解数字化转型的特点,以快速适应快速变化的市场,如快速发布应用,移动优先,云原生和大数据驱动。 Liberty Mutual是职业健康与安全服务研究领域的全球领导者,也是一家非常典型的传统公司。

Liberty Mutual选择与Pivotal合作,从技术选择和开发过程等多个方面进行数字化转型,从低应用频率的摩托车保险在线销售开始,有效运营,实现高于行业平均水平。在利率之后,Liberty Mutual选择与Pivotal完全合作,开放云本地实践,持续交付和Hackathon。项目开始两年后,Liberty Mutual在公共云上的应用从5%增加到60%; 50%的申请每天发布; 75%的IT员工编写代码;通过自动重复性手动工作节省了1亿美元的成本,这也反映了Pivotal应用程序迁移等开源工具的巨大价值。

吕海:Apache Beam: 领英流式计算平台的最新实践

在LinkedIn中,Apache Samza被部署并用作公司的流计算引擎。 Samza是由LinkedIn开发和开源的大数据流计算系统。目前,Samza在大数据量表的背景下进行了大量有针对性的优化,但其前端API尚未完成,因此LinkedIn决定引入Beam并在Samza上运行它。

领导实时流计算基础架构团队技术领导者陆海

Apache Beam是一种用于数据处理的编程模型。目前,Beam IO支持Avro,Kafka,HDFS,HBase和JDBC,并且将支持HDFS(Python),Kafka(Python)等。陆海介绍了如何划分数据窗口,数据事件时间和Samza的主要应用场景。在未来,LinkedIn将继续优化和推广使用Samza,继续集成Samza Table API并集成离线计算和流媒体计算,在流媒体计算部分使用Samza,Spark离线计算,并使用Beam统一API。

姚依非:The Evolution Path of Spark/Hadoop on the Cloud

近年来,用户和服务生成的数据量呈指数级增长,这意味着需要在云中处理的数据量也将增加,这将给云分析系统带来巨大压力。 Yao Yifei介绍了Google如何在云平台中集成Hadoop和Spark等开源数据处理框架,如何最好地将服务组件和框架集成到云生态系统中,以及Google为这些框架和组件提供的最佳性能改进。

谷歌高级软件工程师姚一飞

姚一飞表示,Google Dataproc是一种快速,易用,低成本,全面管理的服务。传统的Hadoop和Spark集群在成本和管理方面存在问题。 Google Dataproc将帮助企业管理群集,例如Hadoop和Spark。等等。;无论节点数量多少,您都可以快速部署集群并在几秒钟内付款;您可以随时添加和减去工人;您可以与其他工具或包集成。

通过在Google Cloud上成功集成Hadoop/Spark集群,Google使许多大客户能够成功地将其数据处理管道和工作负载迁移到云端。与其他云产品相比,改进的性能和紧密集成使Google在性能和用户体验方面优于其他解决方案。高可用性和存储连接器通过自动缩放提高性能和可靠性;可测量的工具和简单的ML集成通过可调整大小的集群提供更好的用户体验,这是Google的易用性和高性能的结合成功实践。

王哲涵:京东大数据平台进化之路

如今,大数据技术日趋成熟,Hadoop不再高端,它正在提供计算和存储服务,就像数据库一样的基础设施软件设施。京东大数据平台从零开始,从数量到质量,从最小的创新到创新,经历了五年的实践。集群的规模已从数百个扩展到数万个。

京东离线平台研发团队负责人王哲涵

随着技术的不断发展和发展,京东大数据平台不断面临集群规模增长带来的风险和挑战。其大数据平台可根据规模分为四个演进阶段。在这个过程中,JD逐渐解决了集中式和多集群;打破了规模增长和性能退化的魔力;确保SLA任务的稳定完成;确保物质资源发挥200%;减少了一些从节点故障对集群的影响。确保群集每天上线并保证故障隔离;技术问题,如机房内的多主机和多主动架构设计。

王哲涵认为,稳定性,绩效和规模是京东大数据的三个关键问题。在稳定性方面,JD解决了数据热点,硬件故障,基础设施故障和异常任务等常见问题。在性能方面,JD已经完成了多区域智能调度,存储和计算分离以及跨机房灾难恢复 - 多实时架构。等待。在未来,JD将继续推动计算,调度和存储的独立演进,并减少层之间的耦合;在各级独立服务的基础上,建立统一的“大脑”指挥协调系统,发挥“1 + 1=10”效应;消除“客户端”模式,增加“服务层”和“资源池”的概念,建立统一的API服务列表,并将用户与集群资源完全分离。

张小龙:北京银行金融级NewSQL数据库探索与实践

由于互联金融对传统企业的影响,系统性能只能通过替代硬件进行升级。传统的“巨头”逐渐老化,北京银行已经开始了数据库转型的过程。考虑到高性能,灵活扩展和自支撑的需求,OLTP场景数据库已成为北京银行系统建设的首选。考虑到银行的技术和业务特点,并参考互联网的成功经验,充分验证了该线路的使用效果,最后,北京银行决定采用NewSQL分布式数据库。

北京银行核心系统架构设计张小龙

通过多维评估系统改造技术架构,逐步实现可扩展性和高可用性目标,摆脱技术限制,打破传统数据库更新升级的局面,改变传统数据库构建完善的声音,实现无意识的平滑升级。未来,北京银行将继续寻求独立,可控的能力,积极创新模式和管理,不断学习,碰撞和整合互联网思维和技术,最终形成具有北京银行特色的创新动力。

上一篇:AR适用于工业领域的不同场景
下一篇:没有了

[TOP100summit]同一阶段的六位技术专家:如何有效避免数据平台建设中的“坑”? 相关的内容: