ANALISTA DE DATOS CLOUDERA

Volver

ANALISTA DE DATOS CLOUDERA

Datos del curso 23/0999.037

Familia: INFORMÁTICA Y COMUNICACIONES

Certificado profesional: NO

Modalidad

Presencial

Horas

48

Fecha

18/09/2023

Tipo de formación

General

Horario

Tardes de lunes a jueves

Fecha fin

05/10/2023

Alumnos

16

Fin inscripción

08/09/2023

Datos del centro

Localidad:

ZARAGOZA

Teléfono:

976715153

Responsable:

Carlos Pedro Martí

Dirección:

Avda. Sainz de Varanda, 15

Requisitos para realizar el curso

Requisitos

Requisitos especificos

Para un máximo aprovechamiento del curso, Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. No son necesarios conocimientos de Hadoop.

Finalidad y Programa del curso

Finalidad

Formar de manera actualizada a profesionales para su inmediata adecuación laboral.

Programa

Examen de certificación incluido: CDP Certified Data Analyst
Módulo 1: Introducción
Modulo 2: Fundamentos Hadoop
· ¿Por qué Hadoop?
· Aspectos generales de Hadoop
· Almacenamiento de datos: HDFS
· Procesamiento de datos distribuidos: YARN, MapReduce, y Spark
· Procesamiento y análisis de datos: Hive, e Impala
· Integración de datos: Sqoop
· Otras herramientas de datos de Hadoop
· Explicación del escenario con ejercicios
Módulo 3: Introducción a Hive e Impala
· ¿Qué es Hive?
· ¿Qué es Impala?
· ¿Por qué utilizar Hive e Impala?
· Schema y almacenamiento de datos
· Comparación entre Hive y bases de datos tradicionales
· Casos de uso
Módulo 4: Consultas con Hive e Impala
· Tablas y bases de datos
· Sintaxis básica en consultas Hive e Impala
· Tipos de datos
· Empleo de Hue para ejecutar consultas
· Empleo de Beeline (la Shell de Hive)
· Empleo de la Shell de Impala
Módulo 5 Operadores comunes y funciones integradas
· Operadores
· Funciones escalares
· Funciones de agregación
Módulo 6 Administración de datos
· Almacenamiento de datos
· Creación de bases de datos y tablas
· Carga de datos
· Alteración de bases de datos y tablas
· Simplificación de consultas con vistas
· Almacenamiento de resultados de consultas
Módulo 7 Almacenamiento de datos y rendimiento
· Partición de tablas
· Carga de datos en tablas particionadas
· Cuándo utilizar el particionamiento
· Elección de formato de almacenamiento
· Gestión de metadatos
· Control de acceso a datos
Módulo 8 Trabajando con múltiples Datasets
· UNION y Joins
· Manejo de valores NULL en Joins
· Joins avanzados
Módulo 9 Funciones analíticas y funciones de ventana
· Utilización de funciones analíticas comunes
· Otras funciones analíticas
· Ventanas deslizantes
Módulo 10 Datos complejos
· Datos complejos con Hive
· Datos complejos con Impala
Módulo 11 Análisis de texto
· Empleo de expresiones regulares
· Procesamiento de texto con SerDes en Hive
· Análisis de los sentimientos y n-grams
Módulo 12 Optimización Hive
· Rendimiento de las consultas
· Bucketing
· Indexación de datos
· Hive en Spark
Módulo 13 Optimización de Impala
· Ejecución de consultas
· Mejorar el rendimiento de Impala
Módulo 14 Extendiendo Hive e Impala
· Customizar SerDes y formatos de fichero en Hive
· Transformación de datos con Scripts personalizados en Hive
· Funciones definidas por el usuario
· Consultas parametrizadas
Módulo 15 Elección de la mejor opción
· Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales
· ¿Cuál elegir?
Módulo 16 Conclusión
Apéndice A: Apache Kudu
· ¿Qué es Kudu?
· Tablas Kudu
· Uso de Impala con Kudu

Profesorado

La multinacional designará el profesor certificado más adecuado para impartir los contenidos de este curso.

Equipamiento

Software y manuales oficiales de la multinacional relativos al curso

Fecha y hora previstas de la seleccion

Fecha Selección 11/09/2023

Hora Selección 19:00