12、数据湖之Iceberg flink配置和使用实战-51CTO学堂

{{ interaction.likeNum == 0 ? (pageType === 'video' ? '抢首赞' : '点赞') : formatNumber(interaction.likeNum) }} {{ interaction.collectionNum == 0 ? '收藏' : formatNumber(interaction.collectionNum) }} {{ interaction.discussNum == 0 ? (pageType === 'video' ? '抢沙发' : '讨论') : formatNumber(interaction.discussNum) }}

提问 {{ interaction.noteNum > 0 ? interaction.noteNum + '篇笔记' : '记笔记' }} 离线观看

下载学堂APP

缓存视频离线看

报告问题离线观看

下载学堂APP

缓存视频离线看

课程介绍

讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}

适合人群

适合有大数据基础的学员

你将会学到

本课程基于将基于flink+Iceberg 实现一个可落地的企业级实时数据湖系统.。

课程简介

随着互联网的发展，数据的不断膨胀，从刚开始的关系型数据库到非关系型数据库，再到大数据技术，技术的不断演进最终是随着数据膨胀而不断改变，最初的数据仓库能解决我们的问题，但是随着时代发展，传统的数仓结构比如hive 有诸多的限制，比如更新和删除支持的不好，查询性能低下，这个和hive本身的架构和定位是有关系的，发展到如今企业庞大的数据已经不满足于传统的数据仓库技术，希望有更强大的技术来支撑数据的存储，包括结构化，非结构化的数据等，希望能够积累企业数据，从中挖掘出更大价值，基于这个背景，数据湖的技术应运而生。

Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）。表格式（Table Format）可以理解为元数据以及数据文件的一种组织方式，处于计算框架（Flink，Spark...）之下，数据文件之上。他的性能之高完全符合企业的数据存储和挖掘需求。

Iceberg是为大表而建的，Iceberg用于生产中，其中单表数据量可包含10pb左右数据，甚至可以在没有分布式SQL引擎的情况下读取这些巨量数据。

（1）查询计划非常迅速，不需要分布式SQL引擎来读取数据

（2）高级过滤：可以使用分区和列来过滤查询这些数据

（3）可适用于任何云存储

（4）表的任何操作都是原子性的，用户不会看到部分或未提交的内容。

（5）使用多个并发器进行写入，并使用乐观锁重试的机制来解决兼容性问题

本课程基于将基于flink+Iceberg 实现一个可落地的企业级实时数据湖系统，该系统以以热门的互联网电商业务场景为案例讲解，实战驱动知识的学习，让大家在实践中理解和掌握数据湖技术，未来数据湖的需求也会不断加大，希望同学们抓住这个机遇。本课程会结合建模理论进行讲解，建模理论是思想指导，可以应用于任何的行业，掌握了对自己的思维和未来的就业会很有帮助，课程中会带大家实战建模。同时时下很火的flnk cdc的技术也会运用上，很多企业都再使用这个技术和切换到这个技术，可想而知它是很优秀的一个技术，该技术往后使用市场需求也是很大的。