亿级数据自助应用,京东物流基于Doris实现高性能秒级分析
一、业务场景介绍
首先和大家分享下京东物流业务的需求和亿级数据自助应用的背景。介绍京东物流经营数据发展路线,底层数据的演进思路,业务对于数据诉求迭代。
1. 业务需要什么
京东物流除了包括快递服务的仓、运、配三个环节外,它的一体化供应链物流服务,则更多是基于对商品销售和供应链的理解,合理规划仓网,分布库存,提前将用户需要的货物储存到其在全国范围数百个不同等级的仓库中。当用户下单后,商品将直接从最近的仓库送达站点,开始配送。用户下单后,快递公司会通过干线网络,将货物运输至对应的区域,再分发至配送站点进行配送。这些服务以一体化解决方案的形式提供予客户,满足客户的各种需求,业务极其复杂。
对于我们数据侧的建设工作者来说,会遇到各种各样的现实问题:
早:海量数据的多维查询已经成为常态,高时效保障是业务的最新追求,甚至要求实时;散:数据存储在不同的业务系统,各个系统没有标准的数据规范, 数据重复建设;重:日报、周报、半月报、月报等工作效率低,部分重复工作多,数据统计费时费力;慢:全国区域、战区以及各产品群数据场景多样,无法快速响应数据变化;缺:缺少统一的数据资产管理,运营人员无法方便、快捷地进行统一的数据分析;难:领导获取数据难, 营销投入产出比衡量难,数据驱动业务难,数据价值挖掘难。
2. 当前需要什么
1) 生产系统
是指在正常情况下支持单位日常业务运作的信息系统。它包括生产数据、生产数据处理系统和生产网络。
2) 数据仓库
是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
3) 数据集市
是基于京东数据仓库和大数据平台构建的面向各BG/BU的数据环境,为各BG/BU提供数据应用服务,包含CFO、CMO、COO、MOBILE等数据集市。
4) 应用系统
是指可以发挥数据价值去辅助用户更优地做决策(甚至行动)的一种产品形式。
3. 数据团队怎么做:业财数据体系建设
每个公司的业务数据和财务数据是天然割裂的状态。举例来说,一家全国规模的连锁店,每个店的店员的薪资和日程运营的费用(如水电费)怎么来反映到每一单上面去,如何把业务数据和财务数据打通,这有点像银行的分润,把业务数据规范到每一个环节对应的每个功能点上去,即成本因素和收支因素的影响点,再把数据再给分担上去。这也就是基础模型搭建的一个过程,最终会支撑到上游资金分析体系的客户的分析和成本支持。
标准化后的管理侧数据口径、颗粒度及维度将全面满足企业对精细化、实时化业财分析的要求,为业务财务出具专业的分析与报告提供数据支撑。同时,可复用的、具备公共能力的标准数据将支持企业在价值链条上建立多维分析架构,利用多层次、可交叉的分析直接加强企业对业务信息的钻取能力,推动业务洞察和管理智能化。
二、面临的困境
数据可视化、灵活分析迫在眉睫,权限管理,数据安全需要保障。
1. 数据可视化建设
在数据导出控制方面:
存在的隐患:
数据导出至本地电脑,并做分析;数据导出后,无法做跟踪控制。导出次数达3000次/周。
解决方案:
长远解决方案:用户需求反哺,沉淀方法论,线下分析报表化,支持自助探索。短期解决方案:导出时,弹窗提醒法律风险;导出形成账单,并每月发送给区总了解。
在数据权限控制方面:
存在的隐患:
分析权限:因历史积累,访问大数据开发分析平台的权限不匹配当前安全要求。例如,有些业务分析师可以访问库内全量表,未区分区域;指标权限:指标的访问权限控制散落在各系统管理,无法做到统一控制,容易混乱和遗漏。
解决方案:
分析权限:梳理BDP访问权限,按照业务特性缩小访问范围,并制定岗位权限白皮书;指标权限:指标出口由统一数据API进行控制,指标查看权限设置由指标收口人在资产管理平台统一设置。
2. 工具论证
与业务用户代表组成调研小组,对后续工具选型进行调研:
内部工具调研,京东动力目前处于快速迭代阶段,调研现阶段支持功能,定制化开发的相应速度;外部工具调研,从成本,市场成熟度,产品易用性,扩展性,性能等多维度交叉比对市场主流BI工具的优缺点;
内外部工具对比,业务方、产品经理以及研发三方组成专家评分组,对内外部工具进行评分;
工具对比结论,最终确定BI工具实施方案。
3. 目标现状分析
目前京东物流数据探索领域分析工具的目标以及当前目标现状的分析,包括:
现状情况:
京东动力作为分析工具动力从商城数据中台引入
突出问题:
性能慢:分钟级,高峰期出不来上卷、下钻等功能缺失体验不友好,拖拽繁琐
临时方案:
提数,本地分析隐患:数据导出后无法跟踪
长期方案:
引入更适合的工具调研:动力的计划,Tableau、永洪BI等
分析工具目标:
提供便捷自助服务:一站式分析平台,集数据准备、报告制作、数据分析为一体,业务人员也能轻松、快速地制作并分析数据报告,带来业务驱动的数据分析工作模式。多维度下钻和上卷。内嵌丰富组件,上线周期短,组件丰富,可以对所有数据源进行合并、搜索、交互和分析。移动跨屏,无缝支持PC、iPhone、iPad和Android,并在这些终端设备上保持一致、易用的用户体验。高性能,秒级计算,利用列存储和内存计算,实现千万级数据分析的秒级响应;提升性能,支撑更多的分析维度和更大的数据范围。
当前问题详解:
自主分析不便捷,加工链条过长,需要前端,UI,产品以及UI多方配合,资源协调困难,沟通成本较高;定制化研发投入多,定制化开发,不同维度的分析需要开发不同的汇总以及前段展示界面,底表模型变更影响范围广;图表组件不丰富,对于每种新的应用场景均需要不同的额开发集成,各功能模块之前需要联调测试,开发周期长,暂不支持移动端;无法跨屏展示