腾讯-DC数据接入平台
角色
负责人,负责系统设计、开发与维护
背景
实时数据采集,离线文件数据采集nrt,db业务配置数据采集
打通接口创建,配置下发,db建表,字段修改,日志流水查询整个流程
构建一站式数据接入管理平台
开发工具
- 架构MVC
- 后台开发语言php5,brophp,phpmailer,python,shell
- 前端开发语言html5,css3,js,jquery
- js组件jquery-ui,laydate,mmgrid,pagination,select2-3.5.1
- 数据存储mysql5
- 配置缓存memcache
- 负责均衡nginx + keepalived + vip
功能模块
- 上报接口管理
- 字段维度配置管理
- 日志流水查询
- 个人查询条件管理
- 权限管理
- api管理
- 测试环境上报
- Agent包下载
- Agent通道检查
- Tcpdump包分析
- L5配置转发管理
- 采集通道配置管理(新增,预览,灰度,下发)
- 采样率管理
- 帮助中心
系统架构
DC接入配置管理系统架构图
模块列表
- memcache负责配置缓存,session缓存
- dcManager提供配置下发更新查询管理服务
- tdwServer模块:python开发,负责创建tdw表,增改字段,查询字段信息
- LhotseServer模块:负责创建表入库相关的任务(推送任务,文件到达任务,入库任务等)
- logQueryServer模块:负责提供实时流水查询服务和离线流水查询服务
DC采集系统整体架构图
模块列表
- dcWebServer模块:负责接口管理,配置管理与下发,流水查询,表管理,任务创建等
- dcManagerServer模块:负责配置、路由、心跳、状态的管理
- dcAgentServer模块:负责数据采集,接收,发送,容灾处理,数据发送到dcProxyServer
- dcProxyServer模块:负责网络数据接收、解析、合成、落地、发送到
- dcLogProxyServer模块:负责文件接收、推送到hdfs集群
- L5负载均衡模块:负责机器路由管理
- hdfs存储模块:负责文件的存储
- tdwLoad模块:负责文件入库,创建内表或外表,形成可访问的hive表
流水查询架构图
使用情况
接入SNG中QQ,空间,会员,开平,音乐,视频,应用宝,广点通绝大部分业务
2500多个接口,包含dc实时接口,nrt文件上报接口,ads上报接口,db配置数据
采集峰值1万亿/秒
系统截图