在亚马逊、阿里云、字节跳动等互联网巨头扎堆在大数据领域布局“湖仓一体”解决方案之时,《》记者注意到,8月11日,网易旗下网易数帆也宣布联合华泰证券推出企业级流式湖仓服务Arctic开源。
“湖仓一体”技术为何被各大互联网企业、大数据公司竞相看中?它能解决哪些痛点?背后反映了怎样的技术趋势?
(资料图)
流批割裂,金融行业数智中台建设面临挑战
目前,企业对数据库技术的需求不再局限于结构化的OLTP数据交易,而是需要进一步扩展到对多样化数据进行实时处理的场景。传统的数据湖在事务一致性及实时处理方面有所欠缺,而数据仓库也无法应对高并发、多数据类型的处理。
“湖仓一体”,被业内认为是新一代数据管理架构。赛迪顾问7月15日发布的《湖仓一体技术研究报告》显示,湖仓一体是一种新型的开放式架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。湖仓一体可在数据入湖后原地进行数据处理与分析,能有效避免数据冗余及流动导致的算力、网络及成本开销,可以作为超大型ODS存储贴源数据,实现全量数据的实时处理。
以金融证券行业为例,近年来,券商在加大自研技术投入,不过,“流批割裂”成为部分券商数智中台建设的挑战之一。“‘实时’是数智中台的核心诉求,流批割裂则是落地的一大挑战。”华泰证券大数据流计算技术专家陈丰通过腾讯会议介绍,实时湖仓在华泰证券日内数据离线加工、实时关联大量历史数据、金融数据频繁修正、统一埋点加工链路等方面具有极大的价值。
然而,当前数仓建设面临流批链路分开建设、纯实时业务逻辑复杂、数据存储不统一、数据更新复杂以及演进难等五大问题。
网易数帆大数据产品线总经理余利华也通过腾讯会议表示,金融企业希望融合实时数据湖与数据仓库,打造实时数据中台支撑其数字化业务创新,这本质上正是湖仓一体的思路。然而,余利华也认识到,目前的主流数据湖技术等只解决了更新、大表访问性能、流式消费等问题,仍然遗留小文件导致性能损耗、兼容性和流失更新等性能和易用性相关问题,而开源社区尚未出现对应的解决方案。
使数据中台体系无缝扩展到实时场景
在接受《》记者采访时,余利华表示,亚马逊、阿里云等云厂商推出的“湖仓一体”技术,更多是面向最终用户的云服务。而湖仓一体Arctic,其实不是云服务,而是独立的开源软件。理论上来讲,开源软件是可以被集成到各家客户自己的平台里,甚至包括云厂商,网易数帆的目的是帮大家更快地去落地湖仓一体。
余利华表示,秉承开放式架构原则,Arctic立足开源数据湖,不绑定计算引擎,注重与传统数仓Hive的兼容,能做到100%兼容Iceberg/Hive的表格式和语法。这是继SQL统一入口之后,网易数帆大数据体系再次在存储层面实现统一,这使得数据中台体系可以无缝扩展到实时场景,金融数据价值的发挥将不再被孤岛所困扰。
“我们也看到客户有量化交易的需求,有风控方面的需求,这些对实时性的要求特别高。”对于网易数帆在金融大数据方面的发展布局,余利华表示,对数帆来说,金融行业是一个重点行业,目标是希望能成为金融行业领先的大数据技术软件的提供商。
网易数帆的关注点则在于大数据的基础软件。“客户会自己负责他的大数据业务,那么我们主要是在基础软件这方面为客户赋能。为此,首先我们一直在做信创和安全方面的工作,因为金融特别注重安全;第二个是要去建设面向金融行业的数据研发产品,也就是DataOps的产品。”余利华说。