Cursos de formación
CLOUDERA DATA ENGINEERING DENG-254: CDP DATA ENGINEER
CLOUDERA DATA ENGINEERING DENG-254: CDP DATA ENGINEER
Datos del curso 26/0999.047
Familia: INFORMÁTICA Y COMUNICACIONES
Certificado profesional: NO
Modalidad
Presencial
Horas
48
Fecha
08/06/2026
Tipo de formación
General
Horario
Virtual en horario obligatorio de 16:30-20:30 horas.
Fecha fin
25/06/2026
Alumnos
16
Fin inscripción
24/05/2026
Datos del centro
Localidad:
ZARAGOZA
Teléfono:
976715153
Responsable:
Jesús Enrique Duce Gonzaga
Dirección:
Avda. Sáinz de Varanda, 15
Requisitos para realizar el curso
Requisitos
Requisitos especificos
Trabajadores ocupados o desempleados en la Comunidad Autónoma de Aragón, especialmente desarrolladores e ingenieros de datos. Proporciona conceptos clave y el conocimiento necesario para utilizar Apache Spark para desarrollar aplicaciones paralelas de alto rendimiento en Cloudera Data Platform (CDP). Los ejercicios prácticos permiten la creación de aplicaciones Spark que se integran con los componentes principales de CDP. Se aprenderá a usar Spark SQL para consultar datos estructurados, a usar las funciones de Hive para ingerir y desnormalizar datos, y a trabajar con big data almacenado en un sistema de archivos distribuido.Requisitos:Experiencia básica en Linux y competencias básicas en los lenguajes de programación Python o Scala. Es recomendable disponer de conocimientos básicos de SQL.No se requieren conocimientos previos de Spark y Hadoop.
Finalidad y Programa del curso
Finalidad
Formar de manera adecuada a profesionales del sector (tic o audiovisual) para su inmediata adecuación laboral.
Programa
Introducción a HDFS Visión general de HDFS. Componentes e interacciones de HDFS. Interacciones adicionales de HDFS. Visión general de Ozone. Ejercicio: Trabajar con HDFS.Introducción a YARN Visión general de YARN. Componentes e interacción de YARN. Trabajar con YARN. Ejercicio: Trabajar con YARN.Trabajar con RDDs Conjuntos de datos distribuidos resilientes (RDDs). Ejercicio: Trabajar con RDDs.Trabajar con marcos de datos (DataFrames) Introducción a los DataFrames. Ejercicio: Introducción a los DataFrames. Ejercicio: Lectura y escritura de DataFrames. Ejercicio: Trabajar con columnas. Ejercicio: Trabajar con tipos complejos. Ejercicio: Combinar y dividir DataFrames. Ejercicio: Resumir y agrupar DataFrames. Ejercicio: Trabajar con UDFs. Ejercicio: Trabajar con ventanas.Introducción a Apache Hive Acerca de Hive. Transformación de datos con Hive QL.Trabajar con Apache Hive Ejercicio: Trabajar con particiones. Ejercicio: Trabajar con buckets. Ejercicio: Trabajar con datos sesgados (Skew). Ejercicio: Usar Serdes para digerir datos de texto. Ejercicio: Usar tipos complejos para desnormalizar datos.Integración de Hive y Spark Integración de Hive y Spark. Ejercicio: Integración de Spark con Hive.Desafíos del procesamiento distribuido Shuffle. Skew. Order.Procesamiento distribuido de Spark Procesamiento distribuido de Spark. Ejercicio: Explorar el orden de ejecución de consultas.Persistencia distribuida de Spark Persistencia de DataFrames y Datasets. Niveles de almacenamiento de persistencia. Visualización de RDDs persistentes. Ejercicio: Persistir DataFrames.Servicio de Ingeniería de Datos Crear y activar trabajos ad hoc de Spark. Orquestar un conjunto de trabajos usando Airflow. Lineaje de datos usando Atlas. Escalado automático en el Servicio de Ingeniería de Datos.Workload XM Optimizar trabajos, rendimiento, capacidad. Identificar trabajos de Spark no óptimos.Apéndice: Trabajar con conjuntos de datos en Scala Trabajar con Datasets en Scala. Ejercicio: Usar Datasets en Scala.
Profesorado
PROFESORADO ESPECIALIZADO
Equipamiento
EQUIPAMIENTO PLATAFORMA CTA
Fecha y hora previstas de la seleccion
Fecha Selección 27/05/2026
Hora Selección 17:00