Apache Hive
Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar agrupación, consulta, y análisis de datos.[1] Inicialmente desarrollado por Facebook, Apache Hive es ahora utilizada y desarrollado por otras empresas como Netflix y la Financial Industry Regulatory Authority (FINRA).[2][3] Amazon mantiene una derivación de software de Apache Hive incluida en Amazon Elastic MapReduce en sus servicios Amazon Web Services.[4]
Apache Hive | ||
---|---|---|
Información general | ||
Tipo de programa | gestión de datos | |
Desarrollador | Apache Software Foundation | |
Lanzamiento inicial | 9 de noviembre de 2011 | |
Licencia | Apache License 2.0 | |
Estado actual | Activo | |
Información técnica | ||
Programado en | Java | |
Plataformas admitidas | máquina virtual Java | |
Versiones | ||
Última versión estable | 2.0.1 ( 25 de mayo de 2016 (8 años, 6 meses y 8 días)) | |
Enlaces | ||
Características
editarApache Hive soporta el análisis de grandes conjuntos de datos almacenados bajo HDFS de Hadoop y en sistemas compatibles como el sistema de archivos Amazon S3. Ofrece un lenguaje de consultas basado en SQL llamado HiveQL[5] con esquemas para leer y convertir consultas de forma transparente en MapReduce, Apache Tez[6] y tareas Spark. Los tres motores de ejecución pueden correr bajo YARN. Para acelerar las consultas, Hive provee índices, que incluyen índices de bitmaps.[7] Otras características de Hive incluyen:
- Indexación para proporcionar aceleración, tipo de índice que incluye compactación e índices de bitmaps. Otros tipos de índices serán incluidos en futuras versiones.
- Diferentes tipos de almacenamiento como texto, RCFile, HBase, ORC, y otros.
- Almacenamiento de metadatos en bases de datos relacionales, lo que permite reducir el tiempo para realizar verificaciones semánticas durante la ejecución de consultas.
- Operaciones sobre datos comprimidos almacenados en el ecosistema Hadoop usando algoritmos que incluyen DEFLATE, BWT, snappy, etc.
- Funciones definidas por el usuario (en inglés, user-defined function, UDF) para manipular fechas, textos, y otras herramientas de minería de datos. Hive soporta la extensión de las funciones definidas por el usuario de manera de tratar casos no contemplados.
- Consultas estilo SQL (HiveQL), las cuales son convertidas automáticamente a MapReduce o Tez, o tareas Spark.
Por defecto, Hive almacena sus metadatos en una base de datos apache Derby, pero puede ser configurado para usar MySQL.[8]
Véase también
editarReferencias
editar- ↑ Venner, Jason (2009). Pro Hadoop. Apress. ISBN 978-1-4302-1942-2.
- ↑ «Use Case Study of Hive/Hadoop». Consultado el 8 de junio de 2016.
- ↑ «OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix"». YouTube. Consultado el 8 de junio de 2016.
- ↑ Amazon Elastic MapReduce Developer Guide
- ↑ «HiveQL Language Manual».
- ↑ «Apache Tez». Consultado el 8 de junio de 2016.
- ↑ «Working with Students to Improve Indexing in Apache Hive». Consultado el 8 de junio de 2016.
- ↑ Lam, Chuck (2010). Hadoop in Action. Manning Publications. ISBN 1-935182-19-6.