Apache Hive

Apache Hive
Tipus	model relacional de dades i programari lliure
Versió inicial	9 novembre 2011
Versió estable	3.1.3 (9 abril 2022)
Llicència	Llicència Apache, versió 2.0
Característiques tècniques
Sistema operatiu	multiplataforma
Plataforma	Màquina Virtual Java
Escrit en	Java
Equip
Desenvolupador(s)	Apache Software Foundation
Codi font	Fonts de codi
Codi font	Codi font
Més informació
Lloc web	hive.apache.org
Seguiment d'errors	Seguiment d'errors

Apache Hive és un projecte de programari d'emmagatzematge, agrupament, gestió i anàlisi de dades construït sobre Apache Hadoop.^[1] Apache Hive ofereix una interfície semblant a SQL per a consultar i fer anàlisi de dades emmagatzemades en diversos sistemes de fitxers i bases de dades. Inicialment desenvolupat per Meta Platforms (Facebook Inc. en aquell moment), l'eina és ara utilitzada per altres empreses com Netflix.^[2]^[3] Amazon manté una derivació del programari Apache Hive inclosa en Amazon Elastic MapReduce, eina dels seus serveis AWS.^[4]

Característiques

Apache Hive dona suport a l'anàlisi de grans conjunts de dades emmagatzemats amb Apache Hadoop i amb altres sistemes compatibles com el sistema d'emmagatzematge d'arxius Amazon S3. Ofereix un llenguatge de consultes basat en SQL anomenat HiveQL,^[5] que permet llegir i convertir consultes de forma transparent a MapReduce, Apache Tez^[6] i tasques Spark. Els tres motors d'execució tot just mencionats poden funcionar sota YARN. Per a accelerar les consultes, Apache Hive proveeix l'usuari d'índexs, que inclouen índexs de bitmaps. Altres característiques significatives de Hive són les següents:

Diferents tipus d'emmagatzematge, com text, RCFile, HBase, ORC i d'altres.
Emmagatzematge de metadades en bases de dades relacionals, fet que permet reduir el temps emprat en verificacions semàntiques durant l'execució de consultes.
Operacions sobre dades comprimides emmagatzemades en l'ecosistema Hadoop fent servir algoritmes com el Deflate, BWT, Snappy i d'altres.
Funcions definides per l'usuari (comunament UDF, de l'anglès User-Defined Functions), per a manipulació de textos, dates, i altres tipus de memòria. Apache Hive també permet estendre les UDF, propietat útil per a lidiar amb casos no contemplats inicialment per les funcions.

Per defecte, Hive emmagatzema les seves metadades en una base de dades Apache Derby, però pot ser configurat per a utilitzar MySQL.^[7]

Referències

↑ Venner, Jason. Pro Hadoop (en anglès). Apress, 2009, p. 440. ISBN 978-1-4302-1942-2.
↑ «Use Case Study of Hive/Hadoop» (en anglès). [Consulta: 8 juny 2016].
↑ «OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix"» (en anglès). [Consulta: 31 gener 2023].
↑ «Amazon Elastic MapReduce Developer Guide» (en anglès). [Consulta: 31 gener 2023].
↑ «HiveQL Language Manual» (en anglès). [Consulta: 31 gener 2023].
↑ «Apache Tez» (en anglès). [Consulta: 31 gener 2023].
↑ Lam, Chuck. Pro Hadoop (en anglès). Apress, 2009, p. 440. ISBN 1-935182-19-6.

[1] Venner, Jason. Pro Hadoop (en anglès). Apress, 2009, p. 440. ISBN 978-1-4302-1942-2.

[2] «Use Case Study of Hive/Hadoop» (en anglès). [Consulta: 8 juny 2016].

[3] «OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix"» (en anglès). [Consulta: 31 gener 2023].

[4] «Amazon Elastic MapReduce Developer Guide» (en anglès). [Consulta: 31 gener 2023].

[5] «HiveQL Language Manual» (en anglès). [Consulta: 31 gener 2023].

[6] «Apache Tez» (en anglès). [Consulta: 31 gener 2023].

[7] Lam, Chuck. Pro Hadoop (en anglès). Apress, 2009, p. 440. ISBN 1-935182-19-6.

[1]

[2]

[3]

[4]

[5]

[6]

[7]