腾讯001大数据能力输出之路
来源网络整理
前言
腾讯分布式数据仓库(Tencent distributed Data Warehouse,简称TDW)是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,并在开源软件的基础上做了大量的定制和优化,历经4年多的研发和运营。目前,TDW已经开源。
目前,TDW是腾讯内部规模最大的分布式系统,集中了腾讯内部各个产品的数据,为腾讯的各个产品提供海量数据存储和分析工作rt服务,包括数据挖掘、产品报表、经营分析等服务。
历时四年多的研发和运营,TDW依次经历了数据仓库功能完善、易用性建设、高可用和稳定性加强,性能和成本优化,安全建设等阶段。目前,TDW平台已经成熟,进入稳定运营阶段,机器总量达到8,000台以上,最大集群超过5,600个节点,覆盖腾讯90%以上的业务产品;TDW集成开发环境在腾讯内的总用户数约1500人,活跃用户数达到700以上,每日运行的分析SQL数达到100,000以上,每日SQL翻译成MR job数达到1000,000以上 。可以说,TDW是名副其实的“海量”系统。
近日,在2016中国大数据技术大会“大数据云服务论坛”上,
腾讯云数智大数据平台研发负责人陈鹏分享了《腾讯大数据能力输出之路》的主题演讲。
他首先介绍了数智方略产品的特点,包括
- 高度集成化,接入、存储、离线/实时计算、机器学习、可视化展现服务;
- 提供可拖拽式的支持分钟级调度的任务调度系统;
- 提供高性能多维分析引擎;
- 提供全局设备、组件、任务纬度的运维系统。
对于DockerOnGaia解决什么问题,他表示主要有
- 资源共享、
- 异构环境共存、
- 动态扩缩容、
- 容灾容错、
- 自动化运维、
- 灰度运营。
最后他详细介绍Gaia的
- Scalable Fair Scheduler、
- 服务注册与发现、
- 资源控制接口、EMC、
- 网络带宽管控、
- 网络入带宽、Disk IO、CPU管控、
- 容器中资源显示
等特性。
概览
基础平台
任务调度云化
本文来源CSDN-BDTC 2016,版权著作权属原创者所有,数据观分享此文并非商业用途。
编辑:Fynlch(王培),数据观微信公众号(ID:cbdioreview),
欲了解更多大数据行业相关资讯,
可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。