ANALYZING WITH CLOUDERA DATA WAREHOUSE -CERTIF: CDP DATA ANALYST

Volver

ANALYZING WITH CLOUDERA DATA WAREHOUSE -CERTIF: CDP DATA ANALYST

Datos del curso 25/0999.055

Familia: INFORMÁTICA Y COMUNICACIONES

Certificado profesional: NO

Modalidad

Presencial

Horas

48

Fecha

17/03/2025

Tipo de formación

General

Horario

Virtual horario obligatorio de 17:00-21:00 horas.

Fecha fin

03/04/2025

Alumnos

16

Fin inscripción

03/03/2025

Datos del centro

Localidad:

ZARAGOZA

Teléfono:

976715153

Responsable:

Jesús Enrique Duce Gonzaga

Dirección:

Avda. Sainz de Varanda, 15

Requisitos para realizar el curso

Requisitos

Requisitos especificos

Trabajadores ocupados o desempleados en la Comunidad Autónoma de Aragón, de manera específica destinado a analistas de datos, especialistas en inteligencia empresarial, desarrolladores, arquitectos de sistemas y administradores de bases de datos.
Requisitos previos:
Se requieren conocimientos previos de SQL, así como estar familiarizado con la línea de comandos de Linux.

Finalidad y Programa del curso

Finalidad

Formar de manera actualizada a profesionales del sector para su inmediata adecuación laboral

Programa

Fundamentos para el Análisis de Big Data
Visión General del Análisis de Big Data
Almacenamiento de Datos: HDFS
Procesamiento Distribuido de Datos: YARN,
MapReduce y Spark
Procesamiento y Análisis de Datos: Hive e Impala
Integración de Bases de Datos: Sqoop
Otras Herramientas de Datos
Explicación del Escenario del Ejercicio
Introducción a Hive e Impala
¿Qué es Hive?
¿Qué es Impala?
¿Por qué utilizar Hive e Impala?
Schema y almacenamiento de datos
Comparación entre Hive y bases de datos tradicionales
Casos de uso
Consultas con Hive e Impala
Tablas y bases de datos
Sintaxis básica en consultas Hive e Impala
Tipos de datos
Empleo de Hue para ejecutar consultas
Empleo de Beeline (la Shell de Hive)
Empleo de la Shell de Impala
Operadores comunes y funciones integradas
Operadores
Funciones escalares
Funciones de agregado
Administración de datos
Almacenamiento de datos
Creación de bases de datos y tablas
Carga de datos
Modificación de bases de datos y tablas
Simplificación de consultas con vistas
Almacenamiento de resultados de consultas
Almacenamiento de datos y rendimiento
Particionamiento de tablas
Carga de datos en tablas particionadas
Cuándo utilizar particionamiento
Selección del formato de archivo
Uso de los formatos de archivo Avro y Parquet
Trabajando con múltiples Datasets
UNION y Joins
Manejo de valores NULL en Joins
Joins avanzados
Funciones analíticas y Windowing
Utilización de funciones analíticas comunes
Otras funciones analíticas
Ventanas deslizantes
Datos complejos
Datos complejos con Hive
Datos complejos con Impala
Análisis de texto
Empleo de expresiones regulares con Hive e Impala
Procesamiento de texto con SerDes en Hive
Análisis de Sentimiento y n-grams en Hive
Optimización de Apache Hive
Comprendiendo cómo se ejecutan las consultas
Optimización basada en Costes y Estadísticas
Bucketing
Optimizaciones de ficheros ORC
Indexación de datos
Hive en Spark
Optimización de Apache Impala
Cómo Impala ejecuta las consultas
Mejorar el rendimiento de Impala
Extendiendo Hive e Impala
Customizar SerDes y formatos de archivo en Hive
Transformación de datos con Scripts personalizados en Hive
Funciones definidas por el usuario
Consultas parametrizadas
Selección de la Mejor Herramienta para cada Tarea
Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
¿Cuál elegir?
CDP Public Cloud Data Warehouse
Visión General del Data Warehouse en la Nube Pública
Autoescalado
Gestión de Data Warehouse
Consulta de Datos mediante CLI e Integración con Terceros
Appendix: Apache Kudu
¿Qué es Kudu?
Tablas Kudu
Uso de Impala con Kudu

Profesorado

PROFESOR ESPECIALIZADO

Equipamiento

EQUIPAMIENTO PLATAFORMA CTA

Fecha y hora previstas de la seleccion

Fecha Selección 06/03/2025

Hora Selección 19:00