大数据网管运营数据存储模式研究

作者：吉林移动通信有限责任公司网络管理中心金浩责任编辑：吕萌 2020.07.14 08:26 来源：通信世界全媒体

通信世界网消息（CWW）随着近两年通信流量业务开展得如火如荼，更多的用户上网行为的数据分析需求猛增，而处理这类数据需要大量的写入处理，而且字段不固定，传统的关系型数据库已无法满足需求，急需多节点的分布式大数据集群来解决数据处理及存储问题。

本研究构建了一套大数据采集、存储体系，将系统分为采集层、ODS、DW、DM等四层，分别完成海量数据的采集、汇总、处理、生成价值数据过程中的不同环节。其中，采集层负责原始数据的采集，ODS层负责统一不同系统间的业务内容，对部分海量数据的非结构化数据进行转换。DW层是以空间换时间的一层，要形成大量的基础Cube，基础常用业务粒度的数据。实现统一的KPI过程，是ODS层指标转换的基础。DM层主要是面向业务的组合，面向分析的Cube变换，面向挖掘的数据变换。

数据分类存储

在数据存储过程中，按照数据价值和生命周期管理原则（热数据对存储性能要求高，随着数据生命周期的变化，数据价值降低，逐渐向一般性能存储迁移，其中数据价值的参考项包括时效性、访问频率、价值密度、业务意义等），可以将不同数据分类存储，制定不同的存储方式及存储周期。

对于采集层的原始数据，将采集层的数据加载到基础数据缓存，为数据整合提供缓存，其中大数据1~3天，传统数据7天。对于ODS层数据，通过内存库关联与整合，ETL为ODM提供完整、准确的数据。该层存储周期：大数据3个月，传统数据1年。对于DW层数据，通过基于数据模型的并行计算域数据库计算，提供多用途的轻度汇总，该层数据类型主要为按维度、事实组织的数据，存储周期为3年。

数据处理及存储过程采用了分布式架构，其中有两项关键技术—HDFS和MapReduce，应用这两项技术能给系统带来如下技术优势。

Hadoop分布式文件系统适合运行在通用硬件(x86服务器)上的分布式文件系统，HDFS对外开放文件命名空间并允许用户数据以文件形式存储；MapReduce能自动将一个作业（Job）待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务（Task），并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点（Map节点或Reduce节点），同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。

具体应用案例

通过该系统的推进落地，吉林省完成了省内大数据处理平台—数据共享平台的建设，该系统日均处理数据超过10T左右，并为吉林省内多个上层应用提供了数据支撑，比如互联网端到端系统能以四大类关键业务（网页浏览类、视频类、即时通信类、应用下载类）进行端到端质量分析，通过五元五阶分析定位方法，能够定位质差业务SP、质差小区、质差核心网网元、质差终端等，并找出业务问题原因；CSFB业务质量分析系统能实现全流程质量概况分析、全流程质差网元问题定位分析；客户满意度画像从覆盖质量、网络感知等网络指标判断用户满意度，做到在被投诉之前发现问题。

这些应用在吉林省内日常的网络问题分析、优化，业务预测、发展支撑等方面发挥着有力的数据支撑作用。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动