CLOUDERA DATA ENGINEERING DENG-254: CDP DATA ENGINEER

Volver

CLOUDERA DATA ENGINEERING DENG-254: CDP DATA ENGINEER

Datos del curso 26/0999.047

Familia: INFORMÁTICA Y COMUNICACIONES

Certificado profesional: NO

Modalidad

Presencial

Horas

48

Fecha

08/06/2026

Tipo de formación

General

Horario

Virtual en horario obligatorio de 16:30-20:30 horas.

Fecha fin

25/06/2026

Alumnos

16

Fin inscripción

24/05/2026

Datos del centro

Localidad:

ZARAGOZA

Teléfono:

976715153

Responsable:

Jesús Enrique Duce Gonzaga

Dirección:

Avda. Sáinz de Varanda, 15

Requisitos para realizar el curso

Requisitos

Requisitos especificos

Trabajadores ocupados o desempleados en la Comunidad Autónoma de Aragón, especialmente desarrolladores e ingenieros de datos. Proporciona conceptos clave y el conocimiento necesario para utilizar Apache Spark para desarrollar aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP).
Los ejercicios prácticos permiten la creación de aplicaciones Spark que se integran con los componentes principales de CDP. Se aprenderá a usar Spark SQL para consultar datos estructurados, a usar las funciones de Hive para ingerir y desnormalizar datos, y a trabajar con big data almacenado en un sistema de archivos distribuido.
Requisitos:
Experiencia básica en Linux y competencias básicas en los lenguajes de programación Python o Scala. Es recomendable disponer de conocimientos básicos de SQL.
No se requieren conocimientos previos de Spark y Hadoop.

Finalidad y Programa del curso

Finalidad

Formar de manera adecuada a profesionales del sector (tic o audiovisual) para su inmediata adecuación laboral.

Programa

Introducción a HDFS
Visión general de HDFS.
Componentes e interacciones de HDFS.
Interacciones adicionales de HDFS.
Visión general de Ozone.
Ejercicio: Trabajar con HDFS.
Introducción a YARN
Visión general de YARN.
Componentes e interacción de YARN.
Trabajar con YARN.
Ejercicio: Trabajar con YARN.
Trabajar con RDDs
Conjuntos de datos distribuidos resilientes (RDDs).
Ejercicio: Trabajar con RDDs.
Trabajar con marcos de datos (DataFrames)
Introducción a los DataFrames.
Ejercicio: Introducción a los DataFrames.
Ejercicio: Lectura y escritura de DataFrames.
Ejercicio: Trabajar con columnas.
Ejercicio: Trabajar con tipos complejos.
Ejercicio: Combinar y dividir DataFrames.
Ejercicio: Resumir y agrupar DataFrames.
Ejercicio: Trabajar con UDFs.
Ejercicio: Trabajar con ventanas.
Introducción a Apache Hive
Acerca de Hive.
Transformación de datos con Hive QL.
Trabajar con Apache Hive
Ejercicio: Trabajar con particiones.
Ejercicio: Trabajar con buckets.
Ejercicio: Trabajar con datos sesgados (Skew).
Ejercicio: Usar Serdes para digerir datos de texto.
Ejercicio: Usar tipos complejos para desnormalizar datos.
Integración de Hive y Spark
Integración de Hive y Spark.
Ejercicio: Integración de Spark con Hive.
Desafíos del procesamiento distribuido
Shuffle.
Skew.
Order.
Procesamiento distribuido de Spark
Procesamiento distribuido de Spark.
Ejercicio: Explorar el orden de ejecución de consultas.
Persistencia distribuida de Spark
Persistencia de DataFrames y Datasets.
Niveles de almacenamiento de persistencia.
Visualización de RDDs persistentes.
Ejercicio: Persistir DataFrames.
Servicio de Ingeniería de Datos
Crear y activar trabajos ad hoc de Spark.
Orquestar un conjunto de trabajos usando Airflow.
Lineaje de datos usando Atlas.
Escalado automático en el Servicio de Ingeniería de Datos.
Workload XM
Optimizar trabajos, rendimiento, capacidad.
Identificar trabajos de Spark no óptimos.
Apéndice: Trabajar con conjuntos de datos en Scala
Trabajar con Datasets en Scala.
Ejercicio: Usar Datasets en Scala.

Profesorado

PROFESORADO ESPECIALIZADO

Equipamiento

EQUIPAMIENTO PLATAFORMA CTA

Fecha y hora previstas de la seleccion

Fecha Selección 27/05/2026

Hora Selección 17:00