Contents Menu Expand Light mode Dark mode Auto light/dark mode
Big Data

Feb 5, 2024

Big Data

Feb 5, 2024

  • Apache Airflow
    • Apache Airflow
  • Apache Drill
    • Introducción rápida a Apache Drill
  • Apache Druid
    • Procesamiento de datos locales con SQL en Apache Druid
    • Carga de datos en el HDFS a Apache Druid
    • Creación de queries desde la consola
    • Sumarización usando Roll-up
    • Actualización de datos en Apache Druid
    • Transformación de datos de entrada
    • Introducción a pydruid
  • Apache Hadoop y algoritmo MapReduce
    • Conteo de palabras en Python usando el algortitmo MapReduce
    • Ejecución de una instancia de Hadoop en Docker
    • Conteo de palabras en Python usando Hadoop Streaming pseudo-distribuido
    • Conteo de palabras en Python usando Hadoop Streaming (Python avanzado)
  • Apache HBase
    • Comandos básicos de Apache HBase
    • Manejo de tablas en Apache HBase
    • Carga masiva de datos (pendiente)
    • Uso de Apache Hive para consultar datos en Apache HBase (pendiente)
  • Apache Hive
    • Conteo de palabras en Apache Hive (interactivo)
    • Conteo de palabras en Apache Hive (script)
    • Operaciones básicas en Hive
    • Procesamiento de datos con Hive
    • Transacciones ACID (Insert/ Update / Delete) en Hive
    • Carga de datos en distintos formatos
    • Manejo de Datos Complejos y Tablas Particionadas
  • Apache Phoenix
    • Uso de SQL en Apache HBase usando Apache Phoenix
    • Python Driver para Apache Phoenix (pendiente)
  • Apache Pig
    • Conteo de palabras en Apache Pig
    • Análisis básico de información con Apache Pig
    • Conteo de palabras en Apache Pig usando Jupyter
    • Programación Avanzada
    • Tipos de datos complejos
  • Apache Spark
    • PySpark RDD
      • Conteo de palabras en PySpark
      • Desarrollo de Aplicaciones en PySpark
      • Operaciones sobre RDD (resilient distributed datasets)
      • (Deprecated) WordCount en PySpark (modo standalone)
    • MLLib RDD
      • Pronóstico de la popularidad de libros (MLlib: RDD-based)
      • Predicción de la evolución de la diabetes usando PySpark (MLlib: RDD-based)
      • MLlib: RDD-based – Otros ejemplos
    • SparkQL
      • Operaciones SQL en PySpark
      • Análisis de datos usando PySpark SQL
    • MLLib
      • Pronóstico de la popularidad de libros
      • Identificación de créditos riesgosos
      • Diagnóstico del cáncer de seno usando redes neuronales
      • Estrategías One-Vs-One y One-Vs-Others
      • Predicción de gastos médicos en PySpark
      • Segmentación del mercado de adolecentes en PySpark
    • Structured streaming
      • WordCount usando Structured Streaming
  • Apache Sqoop
    • Movimiento de datos entre MySQL (Maria DB) y el HDFS
  • Apache Tez
    • Apache Tez
  • Apache Zeppelin
    • Procesamiento de datos en Pythno y Bash con Apache Zeppelin
  • Maria DB
    • Ingestión de datos y consultas en MariaDB
    • Conexión a MariaDB usando Python
    • Conteo de palabras en Hadoop y carga de resultados a MariaDB
  • mrjob
    • Conteo de palabras con mrjob
    • Búsqueda de la palabra más frecuente
  • snakebite
    • Acceso al HDFS con snakebite usando Python
Back to top

Apache HBase#

docker run --rm -it \
    --name hbase \
    -p 16010:16010 \
    -p 50070:50070 \
    -p 8088:8088 \
    -p 8888:8888 \
    -v "$PWD":/workspace \
    jdvelasq/hbase:2.3.0
  • Comandos básicos de Apache HBase
  • Manejo de tablas en Apache HBase
  • Carga masiva de datos (pendiente)
  • Uso de Apache Hive para consultar datos en Apache HBase (pendiente)
Next
Comandos básicos de Apache HBase
Previous
Conteo de palabras en Python usando Hadoop Streaming (Python avanzado)
Made with Sphinx and @pradyunsg's Furo