12、数据湖之Iceberg flink配置和使用实战
随着互联网的发展,数据的不断膨胀,从刚开始的关系型数据库到非关系型数据库,再到大数据技术,技术的不断演进最终是随着数据膨胀而不断改变,最初的数据仓库能解决我们的问题,但是随着时代发展,传统的数仓结构比如hive 有诸多的限制,比如更新和删除支持的不好,查询性能低下,这个和hive本身的架构和定位是有关系的,发展到如今企业庞大的数据已经不满足于传统的数据仓库技术,希望有更强大的技术来支撑数据的存储,包括结构化,非结构化的数据等,希望能够积累企业数据,从中挖掘出更大价值,基于这个背景,数据湖的技术应运而生。
Iceberg是一个面向海量数据分析场景的开放表格式(Table Format)。表格式(Table Format)可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark...)之下,数据文件之上。他的性能之高完全符合企业的数据存储和挖掘需求。
Iceberg是为大表而建的,Iceberg用于生产中,其中单表数据量可包含10pb左右数据,甚至可以在没有分布式SQL引擎的情况下读取这些巨量数据。
(1)查询计划非常迅速,不需要分布式SQL引擎来读取数据
(2)高级过滤:可以使用分区和列来过滤查询这些数据
(3)可适用于任何云存储
(4)表的任何操作都是原子性的,用户不会看到部分或未提交的内容。
(5)使用多个并发器进行写入,并使用乐观锁重试的机制来解决兼容性问题
本课程基于将基于flink+Iceberg 实现一个可落地的企业级实时数据湖系统,该系统以以热门的互联网电商业务场景为案例讲解,实战驱动知识的学习,让大家在实践中理解和掌握数据湖技术,未来数据湖的需求也会不断加大,希望同学们抓住这个机遇。本课程会结合建模理论进行讲解,建模理论是思想指导,可以应用于任何的行业,掌握了对自己的思维和未来的就业会很有帮助,课程中会带大家实战建模。同时时下很火的flnk cdc的技术也会运用上,很多企业都再使用这个技术和切换到这个技术,可想而知它是很优秀的一个技术,该技术往后使用市场需求也是很大的。
课程中包含了几大主题分析,所有数据都是实时分析和存储,具体为:
工具域(优惠卷领取趋势,优惠卷下单趋势) 、互动域(好评趋势,品类收藏趋势)、 交易域(广告成交趋势 ,订单支付趋势,地区成交趋势)、 流量域(品牌流量趋势,终端流量趋势) 、用户域(终端登录趋势,品牌注册趋势) 、明细查询,针对每个趋势分析,我们可以实时查询具体明细详情,功能还是很强大的。
该项目能承载海量数据的实时分析,数据分析涵盖全端(PC、移动、小程序)应用。同学们可以根据自己的公司、个人或者学校的需求自行在课程项目进行扩展和完善,完全可以是个成功的商业项目。
本课程包含的技术:
开发工具为:IDEA、WebStorm
Flink
Flink CDC
Iceberg
ClickHouse
Spring boot
Spring cloud
Spark
Vue.js、Nodejs Highcharts
Hadoop
Hbase
Kafka
HDFS、MapReduce
Spark、Zookeeper
Binlog、MySQL
Linux Shell编程
课程亮点:
1.与企业接轨、真实工业界产品
2.流行技术数据湖Iceberg
3.ClickHouse高性能列式存储数据库
4.大数据热门技术Flink
5.Flink cdc全增量一体化数据同步技术
6.集成指标明细查询
7.主流微服务后端系统
8.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS
9.集成SpringCloud实现统一整合方案
10.互联网大数据企业热门技术栈
11.建模理论支撑
12.支持海量数据的实时分析
13.支持全端实时数据分析
14.全程代码实操,提供全部代码和资料
15.提供答疑和提供企业技术方案咨询
公开笔记对他人可见,有机会被管理员评为“优质笔记”
{{ noteEditor.content.length }}/2000
讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。
课程大纲