Contents Menu Expand Light mode Dark mode Auto light/dark mode
Big Data

Feb 5, 2024

Big Data

Feb 5, 2024

  • Apache Airflow
    • Apache Airflow
  • Apache Drill
    • Introducción rápida a Apache Drill
  • Apache Druid
    • Procesamiento de datos locales con SQL en Apache Druid
    • Carga de datos en el HDFS a Apache Druid
    • Creación de queries desde la consola
    • Sumarización usando Roll-up
    • Actualización de datos en Apache Druid
    • Transformación de datos de entrada
    • Introducción a pydruid
  • Apache Hadoop y algoritmo MapReduce
    • Conteo de palabras en Python usando el algortitmo MapReduce
    • Ejecución de una instancia de Hadoop en Docker
    • Conteo de palabras en Python usando Hadoop Streaming pseudo-distribuido
    • Conteo de palabras en Python usando Hadoop Streaming (Python avanzado)
  • Apache HBase
    • Comandos básicos de Apache HBase
    • Manejo de tablas en Apache HBase
    • Carga masiva de datos (pendiente)
    • Uso de Apache Hive para consultar datos en Apache HBase (pendiente)
  • Apache Hive
    • Conteo de palabras en Apache Hive (interactivo)
    • Conteo de palabras en Apache Hive (script)
    • Operaciones básicas en Hive
    • Procesamiento de datos con Hive
    • Transacciones ACID (Insert/ Update / Delete) en Hive
    • Carga de datos en distintos formatos
    • Manejo de Datos Complejos y Tablas Particionadas
  • Apache Phoenix
    • Uso de SQL en Apache HBase usando Apache Phoenix
    • Python Driver para Apache Phoenix (pendiente)
  • Apache Pig
    • Conteo de palabras en Apache Pig
    • Análisis básico de información con Apache Pig
    • Conteo de palabras en Apache Pig usando Jupyter
    • Programación Avanzada
    • Tipos de datos complejos
  • Apache Spark
    • PySpark RDD
      • Conteo de palabras en PySpark
      • Desarrollo de Aplicaciones en PySpark
      • Operaciones sobre RDD (resilient distributed datasets)
      • (Deprecated) WordCount en PySpark (modo standalone)
    • MLLib RDD
      • Pronóstico de la popularidad de libros (MLlib: RDD-based)
      • Predicción de la evolución de la diabetes usando PySpark (MLlib: RDD-based)
      • MLlib: RDD-based – Otros ejemplos
    • SparkQL
      • Operaciones SQL en PySpark
      • Análisis de datos usando PySpark SQL
    • MLLib
      • Pronóstico de la popularidad de libros
      • Identificación de créditos riesgosos
      • Diagnóstico del cáncer de seno usando redes neuronales
      • Estrategías One-Vs-One y One-Vs-Others
      • Predicción de gastos médicos en PySpark
      • Segmentación del mercado de adolecentes en PySpark
    • Structured streaming
      • WordCount usando Structured Streaming
  • Apache Sqoop
    • Movimiento de datos entre MySQL (Maria DB) y el HDFS
  • Apache Tez
    • Apache Tez
  • Apache Zeppelin
    • Procesamiento de datos en Pythno y Bash con Apache Zeppelin
  • Maria DB
    • Ingestión de datos y consultas en MariaDB
    • Conexión a MariaDB usando Python
    • Conteo de palabras en Hadoop y carga de resultados a MariaDB
  • mrjob
    • Conteo de palabras con mrjob
    • Búsqueda de la palabra más frecuente
  • snakebite
    • Acceso al HDFS con snakebite usando Python
Back to top

Apache Airflow#

  • Apache Airflow
Next
Apache Airflow
Previous
Home
Made with Sphinx and @pradyunsg's Furo