停服通知:2017年5月29日22点至2017年5月30日10点停服升级,停服期间给学员造成不便敬请谅解,了解详情>> x

大数据时代,悄然改变着我们的生活

我们的行为每时每刻都在产生着数据,而这些数据改变着我们的生活

  • Google

    Google

    利用人们的搜索记录挖掘数据二次利用价值比如预测某地流感爆发的趋势;

  • Amazon

    Amazon

    利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐;

  • Farecast

    Farecast

    利用过去十年所有的航线机票价格打折数据来预测用户购买机票的时机是否合适;

  • 身体健康

    身体健康

    医疗机构将实时的监测我们的身体状况定制我们私人的健康方案

  • 学习培训

    学习培训

    教育机构针对我们的兴趣及工作方向定制我们私人的学习方案

  • 交通出行

    交通出行

    运输企业针对我们的出行路线及方式定制我们私人的出行方案

大数据工程师的简易解释

大数据工程师是在Linux系统下搭建Hadoop生态系统(cloudera是最大的输出者类似于Linux的红帽),把用户的交易或行为信息通过HDFS(分布式文件系统)等存储用户数据文件,然后通过Hbase(类似于NoSQL)等存储数据,再通过Mapreduce(并行计算框架)等计算数据,然后通过hiv或pig(数据分析平台)等分析数据,最后按照用户需要重现出数据的工程师。

点击了解大数据详情>>

大数据工程师培训的误区

冗长的java课程

大数据Hadoop生态系统的组建大部分是java编写,但95%的企业是直接使用不会修改组建,所以培训课程包含冗长的java是不科学的。

点击了解Java误区>>

繁琐的Linux课程

大数据Hadoop生态系统是在Linux系统上搭建的,但只需要掌握基础的Linux基础搭建即可,未来云主机的普及Linux环境都无需搭建,所以培训课程包含繁琐的Linux是不科学的。

点击了解Linux误区>>

浅显的web课程

web开发html及javascript,只是在大数据可视化阶段才会用到,并不是大数据课程的核心内容,所以培新课程包含浅显的web开发是不科学的。

点击了解web误区>>

51CTO学院大数据工程师国际标准课程

0151CTO学院出品

中国最大的IT技能学习平台

在线学习的IT学员超过300万

点击查看详情>>

今晚有课

已有16838名学员体验并好评

留下您的信息即可申请免费试听

我要试听

02恩墨学院研发

cloudera中国唯一培训指定单位

cloudera是hadoop最大的输出者

点击查看详情>>

我们为你提供最权威的课程体系

大数据时代,为我们开发课程提供了支撑

  • 1

    大数据平台的基础软件平台:Linux、关系数据库、Mysql

    大数据平台的基础软件平台:Linux、关系数据库、Mysql

    学习安排:2周 41课时 2次作业

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:Linux操作系统基础;关系型数据库理论与MySQL数据库。

    大数据应用离不开基础软件的支撑,且大部分大数据组件部署在Linux操作系统上的用户空间,也有很多组件也借鉴了Linux操作系统的一些设计精髓,所以Linux既是大数据的强力支撑,也是很多性能问题的始作俑者。本部分通过对Linux操作系统、Java虚拟机原理的剖析,展示大数据赖以生存的基础环境。

  • 5

    复杂需求有编程应对:Python、Spark、RDD、DataFrame和Dataset、Hadoop其它组件

    复杂需求有编程应对:Python、Spark、RDD、DataFrame和Dataset、Hadoop其它组件

    学习安排:3周 57课时 2次作业

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:Python;Spark基础;Spark编程及性能优化;Spark2.0新特性:RDD;DataFrame和 Dataset;Hadoop其它组件

    SQL语句属于声明式编程语言,这种Relational方式擅长处理结构化数据。大数据的数据来源种类繁多,数据类型多种多样,SQL并不能处理所有问题。所以需要用procedural方式,即编程方式处理复杂多变的数据类型和应用。本章介绍MapReduce、Spark编程模型,着重讲述利用Python在Spark平台做数据转换和分析。

  • 2

    Hadoop的核心组件:HDFS、MapReduce、Hadoop集群

    Hadoop的核心组件:HDFS、MapReduce、Hadoop集群

    学习安排:2周 42课时 2次作业1次阶段考核

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:HDFS;MapReduce;Hadoop集群规划与搭建;Hadoop集群的高级配置

    Hadoop起源于Google的三篇论文,Google Bigtable被用Java语言开源实现变成了今天的HBase,Doug

    Cuting现任Cloudera首席架构师开源实现了Google filesystem和MapReduce,变成了今天Hadoop核心组件中的HDFS和MapReduce。然后由这三个核心组件逐渐衍生出了大数据的生态系统。本模块通过学习 HDFS,YARN(MapReduce)Spark等核心组件,了解Hadoop的基本运行框架。

  • 6

    大数据平台的提速:索引技术、流式计算

    大数据平台的提速:索引技术、流式计算

    学习安排:2周 32课时 2次作业1次阶段考核

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:大数据平台的索引技术;流式计算

    以上模块学习完毕之后,对于大数据平台的大部分问题,我们都会有思路去解决了。系统稳定运行之后,就要考虑运行的好不好,快不快。本模块针对HDFS数据、HBase数据、实时抓取数据加索引,以及 Spark Streaming流式处理技术做重点介绍,为大数据处理提速。

  • 9

    大数据平台的安全:Hadoop集群的安全机制

    学习安排:1周 5课时 1次练习

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:Hadoop 集群的安全机制

    课程内容:R语言背景知识;R语言基础;用R语言做数据分析

    大数据时代需要数据开放,同时又需要保障敏感数据的安全。企业如何保障数据中心的安全性成为即将面临的重大课题,本章通过介绍安全理论,学习大数据平台下静态数据和动态数据的数据宝库策略和实现。涉及组件 Apache Sentry,Kerberos以及常用加密算法。

  • 3

    原始数据的查询与分析:Hive、Impala、Pig

    原始数据的查询与分析:Hive、Impala、Pig

    学习安排:2周 36课时 2次作业

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:Hadoop集群数据查询与分析:Hive、Impala、Pig

    传统数据仓库在面对更大规模数据时显得力不从心,在寄希望于大数据平台时,MapReduce编程门槛让很多数据分析师望而却步,加上多年DB+应用模式培养的强大的SQL生态圈,催生了大数据平台上一些数据仓库应用。本模块通过学习Hive、Impala等大数据SQL分析组件,让用户将隐匿在泥沙之下的数据价值挖掘出来。

  • 7

    大数据的皇冠数据科学:数据科学与数学基础、机器学习、Spark MLlib

    大数据的皇冠数据科学:数据科学与数学基础、机器学习、Spark MLlib

    学习安排:3周 34课时 2次作业1次阶段考核

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:数据科学概述与数学基础;机器学习的理论基础、Spark MLlib

    事物的原理和规律隐藏在纷繁杂乱的数据中,如何从数据中将他们挖掘出来服务生产生活,大数据的核心价值体现在此。

    本模块我们一起学习数据科学的数学基础、机器学习的算法。因为Spark正在取代MapReduce成为大数据平台数据处理的全新引擎,它也使得在大数据环境下高效的运用数据科学成为可能,所以我们着重介绍基于Spark的机器学习的实现, 把握大数据的发展趋势,步入数据科学的殿堂。

  • 10

    统计利器R语言:R语言基础及用R语言做数据分析

    学习安排:1周 11课时 1次练习

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:R语言背景知识;R语言基础;用R语言做数据分析

    R语言具有丰富的统计方法,大多数人使用R语言是因为其具有强大的统计功能,R语言内部包含了许多经典统计技术的环境。本届通过对R语言基础知识的学习,了解R数据分析的通用流程。同时学习R语言在Spark计算框架的基本使用方法,为实现更强大的数据分析打基础。

  • 4

    增删改查样样精通:NoSQL 数据库之 HBase

    增删改查样样精通:NoSQL 数据库之 HBase

    学习安排:2周 37课时 2次作业1次阶段考核

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:分布式数据库的理论基础;HBase基础;HBase体系结构和读写流程;HBase优化和管理

    在上个模块中,OLAP类型的需求得到了很好的解决方案,即针对数据查询分析的应用。但是这些组件对于数据的随机删改并不擅长。针对此种OLTP类型应用,大数据生态系统中有另外一类组件处理这样的问题,那就是NoSQL家族。这部分将介绍NoSQL的数据模型和分类,着重讲述最具代表的HBase。

  • 8

    行业案例及项目精讲:Cloudera案例、Hadoop电商公司& Airbnb&百度搜索

    行业案例及项目精讲:Cloudera案例、Hadoop电商公司& Airbnb&百度搜索

    学习安排:2周 20课时 2次作业1次阶段考核

    学习形式:录播视频+在线作业考核+助教一对一辅导答疑

    课程内容:Cloudera提供的客户案例分享(金融、医疗、电商、制造业);项目精讲

    项目1:Hadoop 电商公司精准营销案例

    项目2:Airbnb 民宿服务型互联网应用Spark流式计算案例

    项目3:百度大规模多媒体数据Spark处理平台

我们为你提供最权威的项目实战

大数据时代,为我们开发项目提供了支撑

民宿网站的流式计算应用

Spark 组件的Streaming是一个接近实时的流计算框架。 它允许工程师和数据科学家轻松利用SparkStreaming和SQL来获得实时数据洞察能力并构建实时反馈循环。在其上构建了多个关键任务应用程序。在这次项目中,我们将首先概述SparkStream,然后讨论几个生产用例,例如数据仓库的实时摄取管道,以及计算在线数据产品的派生数据。我们将讨论 Stream如何集成到我们的大数据生态系统,如Kafka,HBase和Hive,并分享一系列的经验教训。其中包括扩展多个Streaming作业,同时使用单个Kafka集群,管理流式作业的生命周期和检查点, 以及将 HBase 用作状态存储的最佳实践。

申请免费试听>>

Hadoop电商精准营销

公司传统业务在MySQL平台,为客户提供360的画像,公司决定利用非结构化数据:网站后天日志分析用户操作行为,为精准营销准备数据。本项目通过传统业务迁移、关联非结构化数据与结构化数据、优化集群到如何利用 Spark 实现精准营销 算法及可视化,为大家总结大数据全知识体系的内容。

申请免费试听>>

互联网搜索公司( 百度)的多媒体流式处理框架

随着移动时代的到来,来自智能手机用户的大量多媒体文件在网上发布。我们现在迫切需要一个高效的分布式平台来处理和分析这些多媒体数据。然而,现有方法通常遭受与遗留多媒体理解实现的兼容性问题;由于多媒体数据的大文件大小导致的存储器管理问题;和有限平台数据格式支持。通过基于二进制数据管道的执行,提出了基于流的实现,以及灵活的I / O类型以支持各种应用场景。在本项目中我们

将演示如何在公司的图像货币化产品中使用这个框架,以加快我们的模型训练流 程,并提高我们的CTR预测。

申请免费试听>>

我们为你提供最权威的名师授课

大数据时代,为我们选择老师提供了支撑

孟硕 51CTO学院高级讲师 Cloudera原厂ACTP授权认证讲师,恩墨学院大数据培训产品总监。前甲骨文Oracle BigData咨询顾问。在Oracle任职期间,接触大量一线大数据应用案例,并结合十余年的丰富操作系统、数据库以及大数据的经验,从原理层展示大数据的运用之妙,绝对让学员收获于课程之外。加入Oracle之前,曾任职于中科红旗操作系统服务器组,负责安全,虚拟化产品自动化QE。 点击咨询老师

侯圣文(secooler) 51CTO学院高级讲师 北京大学理学硕士,金牌培训专家,BDA大数据联盟创始人,OCM联盟创始人,ACCUG创始人,Oracle ACE 总监、ACOUG核心专家、DATAGURU专家,Blogger。曾任职于海关总署数据中心,负责运维国家级海量数据库。为多家大中型企业提供过Oracle、MySQL、Hadoop大数据及云计算相关课程培训,经验丰富,讲课富有激情和感染力,善于理论联系实践,擅长以通俗易懂、诙谐幽默的语言讲解枯燥深奥的技术理论。 点击咨询老师

我们为你提供最高效的助学服务

大数据时代,为我们升级服务提供了支撑

01随到随学

学员报名之后立马就可以开始学习,无需再等人数够了再开班

每个学员都可以根据自己的时间安排制定自己的学习计划,不会再因为时间不统一落下课

点击了解详情>>

024对1辅导

授课老师、助教老师、班主任、就业指导老师4对1的服务模式,学员可以时时在线与授课老师和助教老师1对1沟通问题

班主任会通过学习平台可视化数据督促学员学习保证新学员不调队,就业指导老师会在就业前对学员进行1对1就业指导保证学员进名企拿高薪

点击了解详情>>

03闯关式学习

我们的大数据课程有十大模块,就是十关,学员需要完成每一关的作业测试及与助教的视频考核,合格之后才能进去到下一个阶段的学习

保证学员是真正学会了,弥补了学员无法参加面授,没人监督而无法保证自制力和持久力,通过作业测试视频考核也可以检验学员的学习效果,让学员知道自己的学习的程度和效果

点击了解详情>>

我们为你提供最专业的职场规划

大数据时代,为我们就业指导提供了支撑

大数据运维管理方向

大数据运维工程师

薪资:15K-20K

技能:1、掌握基本的Linux命令,会配置基础服务;

2、搭建Hadoop集群,日常管理、监控和维护;

大数据高级运维工程师

薪资:18K-25K

技能:1、掌握Shell、Python等开发语言,具备运行脚本语言自动化集群部署、管理和监控能力;

2、高效的维护企业数据中心,根据资源有效分隔来自不同数据部门的需求;

3、掌握Hadoop常用组件的安装、优化;

大数据架构师

薪资:20K-30K

技能:1、具备良好的Hadoop生态系统的技术基础,熟悉业务和数据,根据不同业务特性设计架构,对整个公司的数据中心架构进行审视和优化改善;

2、熟悉数据中心安全策略;

大数据应用开发方向

大数据开发工程师

薪资: 20K-30K

技能:1、掌握Python、Java、Scala等开发语言,能够按照需求开发大数据平台组件应用

大数据高级开发工程师

薪资:25K-45K

技能:1、精通设计算法,能够按照业务需求处理复杂应用,并能对开源组件的不足提交修改代码;

大数据组件代码提交者

薪资:45K+

技能:1、成为Hadoop生态系统组件代码提交者(Commitor),对组件的发展方向具有影响;

大数据数据分析方向

大数据清洗师

薪资:15K-20K

技能:1、掌握大数据平台中常用数据采集、抽取、整理方法;

2、数据Python、Scala、SQL等语言,能够对数据按照需求进行转换;

大数据分析师

薪资:25K-45K

技能:1、掌握大数据平台数据分析方法,掌握Python、Scala、SQL等语言

2、熟悉常用的机器学习算法,处理各种类型复杂数据,能从数据中提取有价值信息;

大数据科学家

薪资:50K+

技能:1、掌握统计、概率、线性代数等数学理论;

2、掌握机器学习算法,熟悉业务和数据,针对数据建立模型;

3、掌握Scala、Python等开发语言,熟悉在大数据平台实现数据挖掘;

4、掌握大数据生态系统架构,熟悉数据的ETL过程,熟悉业务数据;

大数据工程师就业合作企业

点击查看更多就业企业>>

还有三大行业认可度最高的认证证书

51CTO学院大数据课程你收获的不只是知识

  • 51CTO学院微职位培训证书

  • Cloudera大数据国际认证证书

  • Cloudera大数据培训结业证书

微信之父张小龙推荐

人民日报IT学习榜首

点击了解更多51CTO资讯>>

51CTO学院大数据平台已覆盖超过1800万IT用户

我们的最终期望是:

最成功的学习推荐应该只有一个课程,就是学员要买的下一课程

这一次你离大数据工程师只有一步之遥......

点击咨询报名学习

提交成功!

确定

提交失败!

请输入完整信息~

确定