¡Oferta!

Bigdata con Hadoop y Spark

S/250.00

Python For Data Science
Modalidad: Virtual
Fecha de Inicio: 12/12/2022
Frecuencia:2 veces por semana
Horarios:7:00 pm a 10:00 pm
Duración:24 horas
Profesor:Msc. Rubén Quispe, , , ,
Plataforma:Campus Virtual EIE

Innovación de Aprendizaje

Empieza en el mundo del Data Engineer con Apache Hadoop y Spark, las tecnologías del Big Data que están revolucionando el mundo del análisis y los grandes volúmenes de  datos! 

¿Qué es BigData?

El BigData consiste en un proceso que analiza e interpreta grandes volúmenes de datos, tanto estructurados como no estructurados. La información extraída ayuda a a mejorar estrategias y procesos, logrando incrementar el poder competitivo de la empresa y a comprender mejor a los consumidores, entre muchas otras aplicaciones.

El Big Data se puede usar en los más variados sectores de una empresa, por ejemplo, en marketing, finanzas, atención al cliente, ventas, entre otros.

¿Qué es Hadoop?

Apache Hadoop es un framework open source para programar aplicaciones distribuidas que manejen grandes volúmenes de datos, y su modelo distribuido procesa rápidamente Big Data.

¿Qué es Spark?

Apache Spark es un framework de computación en clúster open source, para procesamiento de datos distribuidos diseñado para ser rápido y de propósito general, existiendo una gran flexibilidad e interconexión con otros módulos de Apache como Hadoop, Hive o Kafka.

¿Por qué utilizar BigData?

El Big Data es una de las mejores formas en la que una empresa puede aprovechar todos los datos que se generan a diario para favorecer su crecimiento.  Este proceso permite, por ejemplo:

  • Prevenir posibles fraudes financieros.
  • Identificar nuevas oportunidades comerciales.
  • Identificar procesos cuyos costos pueden ser reducidos.
  • Satisfacer las necesidades de los clientes de forma más puntual, aumentando su nivel de satisfacción.
  • Tomar decisiones más asertivas.

¿Qué hace un profesional Ingeniero de Datos?

Es uno de los perfiles profesionales asociados al Big Data. Entre sus funciones figuran la administración, el almacenamiento y la gestión de datos en una organización con el objetivo de detectar tendencias, y el proceso de los mismos de forma más útil. Se trata de un perfil muy técnico que sienta las bases para los científicos de datos (data scientists), analistas (data analysts) y desarrolladores de aplicaciones.

¿Qué estudiar para ser Ingeniero de Datos?

  • Conocimientos sobre Linux/Unix.
  • Experiencia de programación en Python y Spark.
  • Formación sobre sistemas de ficheros distribuidos como Hadoop, HDFS o Spark.
  • Conocer cómo funcionan las bases de datos y las diferencias entre las relacionales y las NoSQL (como Cassandra, Redis, MongoDB…).
  • Conocimientos de herramientas para tratar y procesar grandes volúmenes de datos como Apache Kafka o Apache Storm.
  • Experiencia en el uso de infraestructuras cloud, contenerización y herramientas de BI y visualización.
  • Adoptar buenas prácticas para la custodia y seguridad de los datos.

Audiencia

  • Profesionales de diversas áreas, que buscan convertir grandes volúmenes de datos en información procesable, como: analistas de inteligencia de negocios, consultores de gestión de datos, gerentes técnicos, gerentes de negocios, gerentes de ciencia de datos. Entusiastas de la ciencia de datos y profesionales de TI.

Plan de Estudios

Módulo I: ¿Qué es Big Data?

  • Características de BIG DATA
  • Big Data y Data Science
  • Casos de uso de Big data
  • Procesamiento de big data
  • Ecosistemas de big data

 

Módulo II: Introducción a Hadoop

  • Comprender qué es Hadoop
  • Comprender qué es Big Data
  • Más información sobre otro software de código abierto relacionado con Hadoop
  • Arquitectura Hadoop

 

Módulo III: Administración de Hadoop

  • Agregar y eliminar nodos de un clúster
  • Verificar el estado de un clúster: Iniciar y detener los componentes de un clúster
  • Modificar los parámetros de configuración de Hadoop
  • Componentes de Hadoop
  • Uso de Pig y Hive en un entorno Hadoop
  • Uso de Flume y Sqoop para mover datos a Hadoop

 

Módulo IV: Introducción a MapReduce y YARN

  • Modelo MapReduce v1: esta es la versión “clásica” que viene con Hadoop 1
  • Limitaciones de Hadoop 1 y MapReduce 1
  • Problemas con/Limitaciones de Hadoop v1 y MapReduce v1
  • La arquitectura de YARN

 

Módulo V: Introducción a Spark

  • ¿Qué es Spark y cuál es su propósito?
  • Componentes del stack unificada de Spark
  • Conjunto de datos distribuido resistente (RDD)
  • Descarga e instalación independiente de Spark
  • Overview de Scala y Python
  • Resilient Distributed Dataset-RDD y DataFrames

 

Módulo VI: Programación de aplicaciones Spark

  • Comprender el propósito y el uso de SparkContext
  • Inicializar Spark con los distintos lenguajes de programación
  • Describir y ejecutar algunos ejemplos de Spark
  • Pasar funciones a Spark
  • Introducción a las bibliotecas de Spark

 

Módulo VII: Configuración, monitoreo y ajuste de Spark

  • Componentes del clúster de Spark
  • Configurar Spark para modificar las propiedades de Spark, las variables ambientales o las propiedades de registro
  • Introducción a los Notebooks

 

Módulo VIII: Arquitectura Spark RDD

  • Comprender cómo Spark genera RDD
  • Administre particiones para mejorar el rendimiento de RDD
  • Optimización de Transformaciones y Acciones
  • Almacenamiento en caché y serialización
  • Desarrollar y probar

Proyecto Integrador

Ejercicios prácticos por sesión finalizada.

Objetivos

  • Obtener información sobre como administrar mejores negocios y brindar mejores servicios a los clientes.
  • Obtener recomendaciones sobre cómo procesar Big Data en plataformas que pueden manejar el volumen, la velocidad, la variedad y la veracidad de Big Data.
  • Obtener  información sobre la arquitectura y los componentes principales de Hadoop, como MapReduce y el sistema de archivos distribuidos de Hadoop (HDFS).
  • Obtener información sobre cómo agregar y eliminar nodos de los clústeres de Hadoop, cómo verificar el espacio disponible en disco en cada nodo y cómo modificar los parámetros de configuración.
  • Conocer otros proyectos de Apache que forman parte del ecosistema de Hadoop, incluidos Pig, Hive, HBase, ZooKeeper, Oozie, Sqoop, Flume, entre otros.
  • Descubrir cómo funciona a velocidades hasta 100 veces más rápidas que Map Reduce para algoritmos iterativos o minería de datos interactiva.
  • Descubrir cómo proporciona computación en clúster en memoria a una velocidad ultrarrápida y es compatible con las API de Java, Python, R y Scala para facilitar el desarrollo.

Beneficios

  • Certificado  a nombre de Escuela Internacional de Innovación Empresarial.
  • Certificado gratuito de Databricks Lakehouse Fundamentals.
  • Material digital del curso.
  • Acceso al campus virtual.
  • Soporte y Atención Personalizada durante todas las clases.
  • Especialización desde cualquier lugar del mundo a tiempo real.
  • Clases 100% prácticas y dinámicas con casos reales del día a día.
  • Horarios flexibles.
  • Taller 100% práctico.
  • Descuentos atractivos para ex-alumnos.

Requerimientos Técnicos

  • Un ordenador con conexión a internet.
  • Muchas ganas de aprender y convertirse en Data Engineer.
Data Science Consultant

Docente:Msc. Rubén Quispe