Cursos de formación
ANALISTA DE DATOS CLOUDERA
ANALISTA DE DATOS CLOUDERA
Datos del curso 23/0999.037
Familia: INFORMÁTICA Y COMUNICACIONES
Certificado profesional: NO
Modalidad
Presencial
Horas
48
Fecha
18/09/2023
Tipo de formación
General
Horario
Tardes de lunes a jueves
Fecha fin
05/10/2023
Alumnos
16
Fin inscripción
08/09/2023
Datos del centro
Localidad:
ZARAGOZA
Teléfono:
976715153
Responsable:
Carlos Pedro Martí
Dirección:
Avda. Sainz de Varanda, 15
Requisitos para realizar el curso
Requisitos
Requisitos especificos
Para un máximo aprovechamiento del curso, Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. No son necesarios conocimientos de Hadoop.
Finalidad y Programa del curso
Finalidad
Formar de manera actualizada a profesionales para su inmediata adecuación laboral.
Programa
Examen de certificación incluido: CDP Certified Data AnalystMódulo 1: IntroducciónModulo 2: Fundamentos Hadoop· ¿Por qué Hadoop?· Aspectos generales de Hadoop· Almacenamiento de datos: HDFS· Procesamiento de datos distribuidos: YARN, MapReduce, y Spark· Procesamiento y análisis de datos: Hive, e Impala· Integración de datos: Sqoop· Otras herramientas de datos de Hadoop· Explicación del escenario con ejerciciosMódulo 3: Introducción a Hive e Impala· ¿Qué es Hive?· ¿Qué es Impala?· ¿Por qué utilizar Hive e Impala?· Schema y almacenamiento de datos· Comparación entre Hive y bases de datos tradicionales· Casos de usoMódulo 4: Consultas con Hive e Impala· Tablas y bases de datos· Sintaxis básica en consultas Hive e Impala· Tipos de datos· Empleo de Hue para ejecutar consultas· Empleo de Beeline (la Shell de Hive)· Empleo de la Shell de ImpalaMódulo 5 Operadores comunes y funciones integradas· Operadores· Funciones escalares· Funciones de agregaciónMódulo 6 Administración de datos· Almacenamiento de datos· Creación de bases de datos y tablas· Carga de datos· Alteración de bases de datos y tablas· Simplificación de consultas con vistas· Almacenamiento de resultados de consultasMódulo 7 Almacenamiento de datos y rendimiento· Partición de tablas· Carga de datos en tablas particionadas· Cuándo utilizar el particionamiento· Elección de formato de almacenamiento· Gestión de metadatos· Control de acceso a datosMódulo 8 Trabajando con múltiples Datasets· UNION y Joins· Manejo de valores NULL en Joins· Joins avanzadosMódulo 9 Funciones analíticas y funciones de ventana· Utilización de funciones analíticas comunes· Otras funciones analíticas· Ventanas deslizantesMódulo 10 Datos complejos· Datos complejos con Hive· Datos complejos con ImpalaMódulo 11 Análisis de texto· Empleo de expresiones regulares· Procesamiento de texto con SerDes en Hive· Análisis de los sentimientos y n-gramsMódulo 12 Optimización Hive· Rendimiento de las consultas· Bucketing· Indexación de datos· Hive en SparkMódulo 13 Optimización de Impala· Ejecución de consultas· Mejorar el rendimiento de ImpalaMódulo 14 Extendiendo Hive e Impala· Customizar SerDes y formatos de fichero en Hive· Transformación de datos con Scripts personalizados en Hive· Funciones definidas por el usuario· Consultas parametrizadasMódulo 15 Elección de la mejor opción· Comparación entre MapReduce, Hive, Impala, y bases de datos relacionales· ¿Cuál elegir?Módulo 16 ConclusiónApéndice A: Apache Kudu· ¿Qué es Kudu?· Tablas Kudu· Uso de Impala con Kudu
Profesorado
La multinacional designará el profesor certificado más adecuado para impartir los contenidos de este curso.
Equipamiento
Software y manuales oficiales de la multinacional relativos al curso
Fecha y hora previstas de la seleccion
Fecha Selección 11/09/2023
Hora Selección 19:00