通信世界网消息(CWW)当前,数据作为一种资源越来越被人们所重视,数据的价值也逐渐在企业数字化转型的过程中得以体现。对于企业来说,信息和数据流就是企业的血液流,而如何更好地使用数据,发挥数据的更大价值是企业数字化转型成功与否的关键。
企业为了在市场中获得优势,越来越需要从不断增长的数据量中进行分析从而获得更深入的内容,为了应对海量数据的管理和数据有效分析使用的问题,越来越多的企业选择了数据湖方案。
“数据湖”不是真的湖,而是由多源渠道、复杂格式的海量数据汇集而成数据湖,其定位和价值不只是容器那么简单。“数据湖”已经成为企业数字资产的操作系统,也正在驱动应用场景创新。研究机构MarketsandMarkets最新发布的研究报告显示,2019年全球数据湖市场规模为79亿美元,到2024年,该市场将突破200亿美元,增长至201亿美元,预测期内(2019—2024年)的复合年增长率为20.6%。
在数据湖的成长史中,亚马逊扮演着重要的角色。自2006年AWS发布Amazon S3以来,AWS的云上数据湖就已经埋下了伏笔。经过近十年的酝酿,AWS逐渐将Amazon S3发展成云上数据湖的核心,并围绕Amazon S3陆续开发出一系列数据湖相关服务,构建了一套完整的AWS 数据湖生态体系。
云中的数据湖VS传统数据仓库
“数据湖”的概念由来已久,最早可追溯到2011年。很多时候,数据湖被认为是数据仓库的升级版,实际上数据湖与数据仓库代表着企业想达成的不同目标。数据湖与数据仓库也有明显的区别。
AWS首席云计算企业战略顾问张侠表示,在数据湖概念出现之前,传统分析方法多沿袭“数据库→数据仓库→BI”的路径,大量资源投入其中,建设周期长且容易形成数据孤岛。随着数据来源、现代应用、用户的多元化,传统数据库/数据仓库为核心的分析方法不能应对数据的指数级增长,无法有效支持各种数据类型和分析需求。
“过去,数据像一条小河,我们知道小河大概有多少水,于是设计河道、闸门来处理使用数据。但是在互联网时代,数据呈爆炸增长,数据像洪水猛兽般涌出来,而且很难掌握数据的性质,要想规则整理存储数据于数据仓库里,需要花很多时间。在这样的背景下,我们找到一大片湿地、洼地,把所有数据就像湖水一样先蓄在这里,再用工具来分析管理。”张侠用小河与湿地、湖泊来讲述传统数据与数据湖之间的差异。从本质上说,数据湖与数据仓库在本质上有三大区别。
第一,数据湖能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。数据仓库只能处理结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。
第二,数据湖拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。数据仓库处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。
第三,数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。
张侠表示,数据湖有两个很重要的特点,一个是高可用、高持久、海量的数据存储。一个是同时满足安全、合规、可以审计等要求。数据湖不仅能解决传统数据仓库面临的难题,也能兼容传统的数据仓库的数据分析方法,还能与机器学习结合,做更多预测性的分析。
总的来说,数据湖可以覆盖原来的一些数据库和数据仓库时代的要求,但是这不意味着数据仓库会被替代。企业可以根据自身需求和能力,同时打造数据仓库和数据湖,以满足不同业务需求。
两大重磅产品发布,AWS的云上数据湖方案
当前,云中的数据湖正在成为许多组织的主流策略,在数据处理和可用性方面,为决策者提供了更大的灵活性。数据湖的数据分析完整流程有收集,存储,分析,应用四个大的阶段,这四个阶段也是数据湖建设的必要路径。AWS数据湖除了提供主要的四个阶段功能服务外,还为用户提供了一系列的管理工具, 以松耦合的方式与 S3 作为核心存储的数据湖紧密集成,提供企业级整体方案。
随着时间的演变, Amazon S3 已经作为 AWS 数据湖方案的存储核心服务。在计算与存储分离理念的基础上,AWS 的其它服务都采用了松耦合的设计与 S3 在数据湖场景进行了紧密集成与创新,这也包括数据湖构建必不可少的计算集群。
有了数据湖,企业还需要各种各样的工具来对“湖”中不同类型、不同需求的数据进行抓取、调用,来快速实现数据的分析和挖掘,释放数据价值。AWS数据分析组件涵盖数据移动、数据存储、数据湖、分析和机器学习五大维度,基于AWS的整个大数据分析全景图中,绝大多数服务目前都已在中国落地。
2020年3月24日,AWS宣布上线的两项服务:AWS Glue和Amazon Athena,这两项服务都是基于无服务器架构的托管服务,用户不需要关心后台的计算和存储资源,只要通过访问接口进行操作即可。这意味着AWS的数据湖的工具链进一步完善,让AWS的数据湖解决方案大拼图越渐丰满。
Amazon Athena是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon Simple Storage Service (Amazon S3) 中的数据。由于Athena是一种无服务器服务,因此客户不需要管理基础设施,而且只为他们运行的查询付费。Athena可以自动扩展,并行执行查询,所以即便是大型数据集和复杂的查询,也能很快获得查询结果。此外 Athena 还可以对接 QuickSight 完成多种类型的数据可视化任务。
AWS全球副总裁及大中华区执行董事张文翊表示,“现在,我们很高兴由西云数据运营的AWS中国(宁夏)区域推出Amazon Athena,以响应AWS中国客户的需求。Amazon Athena完全不需要管理基础设施,任何能够编写SQL查询的人都能以高性价比的方式快速分析他们在Amazon S3中的数据。”
AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。使用AWS Glue,在几分钟之内便可以准备好数据用于分析。由于AWS Glue是无服务器服务,客户在执行ETL任务时,只需要为他们所消耗的计算资源付费。
“AWS可扩展、可靠的云存储,加上我们广泛的分析服务,使客户比以往任何时候都更容易收集、存储、分析和共享数据,”张文翊表示,“随着AWS Glue在由西云数据运营的AWS中国(宁夏)区域正式上线,中国区域的客户可以轻松地从任意多的数据源传输和处理数据,整合数据到数据湖,并且可以选用多种AWS分析服务,迅速开始分析所有数据。”
至此,AWS 形成了一套比较成熟完整的数据湖技术体系。
数据湖已成熟,AWS助力企业挖掘数据价值
“在四年前,数据湖已经进入第二发展阶段。从两三年前开始,AWS的数据湖解决方案就基本上成熟了,主要的元素都到位了,也有一些很成功的案例。”张侠表示,数据湖在中国处于比较早期的发展阶段,这个时机非常重要,“下一代互联网、电商、5G、边缘计算等这些东西都上来以后,与之相对应,我们更要走数据湖实现数据存储、数据分析的道路。所以,利用这个时机把数据湖的知识、AWS的解决方案介绍给客户和行业人士,让他们能从中受益,是我们喜闻乐见的。”
正如张侠所说,当前已经有大量的企业和机构都已经开始采用AWS的数据湖和数据分析云服务,例如,娱乐业的福克斯电影公司、金融领域还有著名的基金管理公司Vanguard、证券交易所NASDAQ,互联网及电商方面除了Amazon还有全球民宿短租公寓预定平台Airbnb……
其中,Club Factory是一家中国的跨境电商平台,它的业务需要做个性化推荐、内部运营分析以及供应商管理等场景,每天要处理15亿条行为日志,支撑180个活跃数据分析调度,每天需要把4000多个业务数据同步到AWS的数据仓库Redshift。AWS的数据湖满足了其业务增长需求,同时成本也有优化,Club Factory还特别提到了Glue自动化ETL操作带来的便利性。
从全球和中国范围内我们都看到了很多用户使用AWS的企业为自己的创新和发展洞察先机起到了很好的作用。未来,AWS希望更多中国区域的大数据开发者,企业大数据技术决策者能够了解AWS 数据湖的整体解决方案,以及AWS所倡导的数据湖理念,从而帮助企业更好地利用数据价值进行创新。