Vés al contingut

Dades massives

De la Viquipèdia, l'enciclopèdia lliure
Creixement i digitalització de la capacitat global d'emmagatzematge d'informació[1]

Dades massives[2] (o Big Data[3][4][5][6]) és el nom que reben els conjunts de dades, els procediments i les aplicacions informàtiques, que, pel seu volum, la seva naturalesa diversa i la velocitat a què han de ser processades, ultrapassen la capacitat dels sistemes informàtics habituals. Aquest processament de dades massives s'utilitza per detectar-hi patrons, podent fer així prediccions vàlides per a la presa de decisions.[7]

La disciplina dedicada a les dades massives s'emmarca dins de les tecnologies de la informació i la comunicació. Aquesta disciplina s'ocupa de totes les activitats relacionades amb els sistemes que gestionen grans conjunts de dades. Les dificultats més habituals en aquests casos se centren en la captura, l'emmagatzematge,[8] la cerca, la compartició, l'anàlisi,[9] i la seva visualització.[10] La tendència de manipular ingents quantitats de dades es deu a la necessitat, en molts casos, d'incloure aquesta informació per a la creació d'informes estadístics i models predictius emprats en diversos camps,[11] com per exemple de les anàlisis de negoci, publicitat, les dades de malalties infeccioses, l'espionatge i el seguiment de la població o la lluita contra el crim organitzat.

El límit superior de la capacitat de processament s'ha anat desplaçant al llarg dels anys. D'aquesta forma els límits que estaven fixats el 2008 rondaven l'ordre de petabytes a zettabytes de dades.[12] Els científics amb certa regularitat troben limitacions a causa de la gran quantitat de dades a analitzar en certes àrees, com ara la meteorologia, la genòmica,[13] les complexes simulacions de processos físics,[14] i les investigacions relacionades amb els processos biològics i ambientals.[15] Les limitacions també afecten els motors de cerca a internet, als sistemes financers i a la informàtica de negocis.

El volum del conjunt de dades creix degut, en part, a la introducció d'informació ubiqua procedent dels sensors sense fils i els dispositius mòbils (per exemple les VANETs[16]), del constant creixement dels històrics d'interaccions d'aplicacions (per exemple processos de registre), càmeres digitals (sistemes de teledetecció), micròfons, lectors de ràdio -identificador de freqüència.[17][18] La capacitat tecnològica per capita a nivell mundial d'emmagatzemar dades es multiplica aproximadament per dos cada quaranta mesos des dels anys vuitanta.[19] S'estima que durant el 2012, cada dia es van crear a prop de 2,5 trilions de bytes de dades (de l'anglès quintillion, 2.5 × 1018).[20]

Per què és important?

[modifica]

El que fa que Big Data sigui tan útil per a moltes empreses és el fet que proporciona respostes a moltes preguntes que les empreses ni tan sols sabien que tenien. En altres paraules, proporciona un punt de referència. Amb una quantitat tan gran d'informació, les dades poden ser modelats o provats de qualsevol manera que l'empresa consideri adient. En fer-ho, les organitzacions són capaços d'identificar els problemes d'una forma més entenedora.

La recopilació de grans quantitats de dades i la recerca de tendències dins de les dades permeten que les empreses es moguin molt més ràpidament, sense problemes i de manera eficient. També els permet eliminar les àrees problemàtiques abans que els problemes acabin amb els seus beneficis o la seva reputació. L'anàlisi de Big Data ajuda a les organitzacions a aprofitar les seves dades i utilitzar-los per identificar noves oportunitats.

Això, al seu torn, condueix a moviments de negocis més intel·ligents, operacions més eficients, majors guanys i clients més feliços. Les empreses amb més èxit amb Big Data aconsegueixen valor de les següents formes:

  • Reducció de cost. Les grans tecnologies de dades, com Hadoop i l'anàlisi basat en el núvol, aporten importants avantatges en termes de costos quan es tracta d'emmagatzemar grans quantitats de dades, a més d'identificar maneres més eficients de fer negocis. Més ràpid, millor presa de decisions.
  • Amb la velocitat de Hadoop i l'analítica en memòria, combinada amb la capacitat d'analitzar noves fonts de dades, les empreses poden analitzar la informació immediatament i prendre decisions basades en el que han après.
  • Nous productes i serveis. Amb la capacitat de mesurar les necessitats dels clients i la satisfacció a través d'anàlisis ve el poder de donar als clients el que volen.
  • Amb l'analítica de Big Data, més empreses estan creant nous productes per satisfer les necessitats dels clients. [1]

Definició

[modifica]

El "Big data" implica normalment conjunts de dades que superen la capacitat del programari habitual per ser capturades, gestionades i processades en un temps raonable. Els volums del "big data" es troben constantment en augment. L'any 2012 es va dimensionar la seva grandària des d'una dotzena de terabytes fins a diversos petabytes de dades. En la metodologia MIKE2.0[21] dedicada a investigar temes relacionats amb la gestió d'informació, es defineix big data en termes de permutacions útils, complexitat i dificultat per esborrar registres individuals. L'any 2001, en un informe de recerca, l'analista Doug Laney[22] del META Group (ara Gartner) definia els reptes que planteja el creixement constant de les dades com una oportunitat i un repte amb tres dimensions:[23] en el volum, la velocitat i la varietat. L'any 2012, Gartner va actualitzar la definició del big data[24] com a "grans volums, velocitat i varietat d'actius d'informació que requereixen noves formes de processament per tal d'usar-los en la de presa de decisions o l'optimització de processos". Grans proveïdors del mercat de big data estan desenvolupant solucions per atendre les demandes més crítiques de processament de dades massives, com MapR, Cyttek Group i Cloudera. Addicionalment, certes organitzacions introdueixen les 3 "V" (Volum, velocitat, varietat) com a manera de descriure'l, sistema que ha sigut expandit amb altres característiques pròpies del big data:[25][26]

  • Volum: el big data no apila, només observa i segueix allò que passa.
  • Velocitat: el big data treballa normalment a velocitat a temps real.
  • Varietat: el big data neix dels texts, imatges, àudio i vídeo. A més a més, completa les peces que falten a través de la fusió de dades-
  • Aprenentatge artificial: el big data sovint no pregunta el perquè, sinó simplement detecta patrons.
  • Empremta digital: el big data és sovint un subproducte gratuït de interacció digital.

El creixement exponencial del concepte del big data ha derivat a una delimitació de la diferència entre el big data i la Intel·ligència empresarial:[27]

  • La intel·ligència empresarial fa ús d'estadístiques descriptives amb dades amb gran densitat d'informació per a mesurar quelcom, preveure tendències, detectar comportaments en l'economia...
  • El Big data fa ús d'estadístiques intuïtives i conceptes de sistemes d'identificació no lineals per interferir lleis (regressions, relacions no lineals i afectes causals) de grans quantitats de dades amb poca densitat d'informació per tal de revelar relacions i dependències, o per efectuar prediccions de comportaments o possibles resultats.

Característiques

[modifica]

El Big Data pot ser descrit segons les següents característiques:[28][29][30]

Volum

La quantitat de dades generades i emmagatzemades. La mida de la dada determina el valor i el visionament potencial, determinant així si es considera o no big data. Així doncs, aquesta quantitat cada vegada més gran de dades suposa un repte per als sistemes informàtics, els quals lluiten per emmagatzemar i recopilar la informació per tal d'utilitzar-la en un futur.

Varietat

El tipus i naturalesa de la dada. Això ajuda a la gent que l'analitza a usar efectivament els resultats prevists. D'aquesta manera, es podria definir com el nombre creixent de tipus de dades que han de manejar-se de manera diferent a partir de simples correus electrònics, registres de dades i de targetes de crèdit.

Velocitat

En aquest context, aquesta és la velocitat a la que la dada es genera i processa per complir amb la demanda i desafiaments que rauen en el creixement i desenvolupament exponencial. Per tant, es tracta de la velocitat en què aquestes dades es mouen a partir de criteris de valoració en el processament i l'emmagatzematge.

Variabilitat

Gran varietat en la naturalesa i font de la dada permet efectuar processos per a manegar-la i aguantar el seu potencial.

Veracitat

La qualitat de la dada capturada pot variar dràsticament, afectant anàlisis suposadament acurats.

Actualitat

[modifica]

El concepte Big data es troba, durant la dècada de 2010, en continu moviment perquè els avanços tecnològics permeten tractaments de volums cada cop majors.[31] S'entén grans volums com a Terabytes o Petabytes d'informació. Això permet incloure en aquest tipus de projectes informacions que fins avui no s'utilitzaven perquè la tecnologia no permetia processar-los en un temps raonable. Segons dades de la consultora International Data Corporation (IDC),[32] el ritme d'adopció de tecnologies de Big Data creixerà a un ritme del 304% des de l'any 2013.[33]

Amb tot, en l'actualitat, s'ha començat a acceptar el terme ciència de dades, el qual va referència a una àrea emergent de treball que s'ocupa de la recollida, la preparació, l'anàlisi, la visualització, l'administració i la conservació de grans col·leccions d'informació. No obstant això, la ciència de dades és més que un simple anàlisi, ja que permet una gamma de funcions específiques que requereixen una sèrie d'habilitats molt diferents (des de coneixement d'estadística, informàtica com les matemàtiques, entre d'altres). És per aquests motius que el món científic, que es caracteritza per fer un ús de grans volums de dades, s'ha vist impulsat i beneficiat per Big Data Analytics, de forma que àmbits tan dispars entre si (com les ciències naturals, l'astronomia, la botànics i la geologia) han trobat diferents aplicacions i funcionalitats que els permeten analitzar detalladament els seus problemes.[30]

Així doncs, les dades massives es consideren com una de les tendències de futur que s'han de tenir en compte a la majoria de les empreses i institucions, ja que la societat de les tecnologies de la informació i la comunicació (TIC) propicia un diluvi universal de dades que, al explotar-les i processar-les, es transformen en decisions de gran valor: és, doncs, aquí on recau la seva importància per les empreses en actiu. D'aquesta manera, segons estima el Foro Económico Mundial aquestes dades constituieixen (ja en l'actualitat) una nova classe d'actiu econòmic, com l'or o una moneda. La revista Forbes, en canvi, assenyala que les dades massives han esat la principal tendència tecnològica dels últims anys que es mantindrà els propers anys, trobant-se molt lligades a la millora de l'accés a la informació, sobre tot des que la majoria de les empreses i institucions han passat a la informàtica al núvol, des de qualsevol dispositiu o objecte (vinculat, al seu torn, amb l'Internet de les coses).[30]

Govern

[modifica]

En 2012, el govern d'Obama[34] va anunciar la Iniciativa de Recerca i Desenvolupament de Big Data, que va explorar com les grans dades podrien utilitzar-se per fer front a problemes importants que enfronta el govern.[35] La iniciativa es compon de 84 programes de dades grans diferents, repartides en sis departaments. L'anàlisi de grans dades va tenir un paper important en la campanya i reelecció de Barack Obama de 2012. El Govern Federal dels Estats Units és amo de sis dels deu superordinadors més poderosos del món. El Data Center de Utah és un centre de dades que s'està construint per l'Agencia de Seguretat Nacional dels Estats Units. Quan hagi acabat, la instal·lació serà capaç de manejar una gran quantitat d'informació recollida per la NSA a través d'Internet. La quantitat exacta d'espai d'emmagatzematge no es coneix, però les fonts més recents afirmen que estarà en l'ordre d'uns pocs exabytes.

Sector privat: alguns exemples

[modifica]

ebay.com utilitza dos magatzems de dades a 7,5 petabytes i 40PB així com un cluster Hadoop 40PB per a la cerca, les recomanacions de consum, i el marxandatge. Dins l'emmagatzematge de dades 90pb d'eBay.

Amazon.com maneja milions d'operacions de back-end de cada dia, així com les consultes de més de mig milió de venedors de terceres parts. La tecnologia central que manté Amazon funcionament està basat en Linux i en 2005 van tenir tres bases de dades més grans del món de Linux, amb capacitats de 7,8 TB, 18,5 TB i 24,7 TB.[36]

Walmart s'ocupa de més d'1 milió de transaccions dels clients cada hora, que s'importa en bases de dades que s'estima contenen més de 2,5 petabytes (2.560 terabytes) de dades - l'equivalent a 167 vegades la informació continguda en tots els llibres dels EUA Biblioteca del Congrés.

Facebook maneja 50 mil milions de fotos de la seva base d'usuaris.[37]

FICO Targeta de crèdit Falcon Sistema de Detecció de Frau protegeix 2.100 milions de comptes actius a tot el món.[38] El volum de les dades de negoci a tot el món, en totes elles, es duplica cada 1,2 anys, segons estimacions.

Windermere Real Estigues utilitza assenyalis GPS anònimes de gairebé 100 milions de conductors per ajudar els compradors d'habitatge nou a determinar els seus temps de conducció típica i tornar del treball al llarg de diferents moments del dia.[39]

Arguments a favor i en contra de l'ús del Big Data

[modifica]

A favor de l'ús de big data

[modifica]

Segons el director de Alianzas de SAS España,[40] Fernando Meco, entre els beneficis que aporta l'anàlisi de dades massives a la societat es troben, per exemple, avançar-se a futures conductes o la gestió d'expectatives dels ciutadans. Això es pot fer recollint i analitzant els comportaments i publicacions que els internautes envien als diferents canals d'Internet com ara les xarxes socials, «fonts d'informació que ens permeten avançar-nos a futures conductes d'actuació», afirma.[41] Aquest expert també afirma que «El Big Data ens porta a fer preguntes i trobar respostes, no solament per a l'empresa, sinó també per a la societat. Per exemple, amb analítica avançada de Big Data nosaltres ajudem a evitar l'extinció d'animals tan representatius com l'os polar o els rinoceronts blancs, a través d'un seguiment dels exemplars que hi ha en llibertat i l'estudi a les zones en les quals habiten. També proveïm solucions als bombers de Londres que estableixen la disponibilitat d'efectius dins de la ciutat depenent de quines zones siguin més propenses a sofrir incendis, i ajudar així a prevenir-los»,[41] descriu.

Un altre important àmbit d'aplicació és en aquelles ciutats que estan adoptant el concepte Smart City[42] i que comencen a recollir mitjançant sensors, quantitats ingents d'informació relativa al trànsit, els subministraments o l'estat dels serveis que ofereixen als seus ciutadans, tenint sempre com a objectiu anticipar-se i millorar.

En contra de l'ús del big data

[modifica]

La investigadora Danah Boyd[43] ha expressat la seva preocupació per l'ús de dades massives en la ciència descurant principis tals com l'elecció d'una mostra representativa i optant per gestionar quantitats massives de dades que, tot i ser més nombroses que una mostra, poden no ser representatives. Aquest enfocament pot conduir a resultats esbiaixats per diversos motius.

La integració de dades amb orígens heterogenis -alguns podrien ser considerats "dades massives" mentre que altres no-. dona lloc a reptes formidables, tant logístics com analítics, però molts investigadors argumenten que aquest tipus d'integracions probablement representin les noves fronteres més prometedores de la ciència.[44][45]

Una altra crítica negativa i constructiva que rebé l'ús de dades massives anonimitzades fou que no sempre el mecanisme d'anonimització és efectiu.[46]

Vegeu també

[modifica]

Referències

[modifica]
  1. «The World's Technological Capacity to Store, Communicate, and Compute Information». MartinHilbert.net. [Consulta: 13 abril 2016].
  2. «TERMCAT - Cercaterm - dades massives» (en castellà). [Consulta: 30 abril 2017].
  3. White, Tom. Hadoop: The Definitive Guide. 2009. 1st Edition. O'Reilly Media. Pg 3.
  4. «Big data». [Consulta: 22 desembre 2023].
  5. White, Tom. Hadoop: The Definitive Guide. 1a ed.. O'Reilly Media, 2009, p. Pg 3. 
  6. «big data - Cercaterm | TERMCAT». [Consulta: 13 octubre 2022].
  7. Pawan i Rao, 2015, p. 418.
  8. ↑ Kusnetzky, Dan. What is "Big Data?". ZDNet. http://blogs.zdnet.com/virtualization/?p=1708 Arxivat 2010-02-21 a Wayback Machine.
  9. Vance, Ashlee. «Start-Up Goes After Big Data With Hadoop Helper» (en anglès), 22-04-2010. [Consulta: 22 desembre 2023].
  10. Keim, Qu i Ma, 2013, p. 20.
  11. Pawan i Rao, 2015, p. 415, 419.
  12. Horowitz, Mark «Visualizing Big Data: Bar Charts for Words» (en anglès). Wired. ISSN: 1059-1028.
  13. Community cleverness required. Nature, 455(7209), 1. 2008. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
  14. Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. http://www.hpcprojects.com/news/news_story.php?news_id=922 Arxivat 2016-04-03 a Wayback Machine.
  15. Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
  16. Zeadally, Sherali; Hunt, Ray; Chen, Yuh-Shyan; Irwin, Angela; Hassan, Aamir «Vehicular ad hoc networks (VANETS): status, results, and challenges» (en anglès). Telecommunication Systems. Springer, 50, núm. 4, 8-2012, pàg. 217-241.
  17. Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9 November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/ Arxivat 2012-10-07 a Wayback Machine.
  18. Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
  19. "The World's Technological Capacity to Store, Communicate, and Compute Information", Martin Hilbert and Priscila López (2011), Science (journal), 332(6025), 60-65; free access to the article through here: martinhilbert.net/WorldInfoCapacity.htm
  20. «IBM Products» (en anglès americà), 09-11-2020. [Consulta: 22 desembre 2023].
  21. «MIKE2.0 Methodology - Open Framework, Information Management Strategy & Collaborative Governance» (en anglès). OmCollab. [Consulta: 4 maig 2016].
  22. Laney, Douglas. "3D Data Management: Controlling Data Volume, Velocity and Variety". Gartner. Retrieved 6 February 2001.
  23. Beyer, Mark. "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data". Gartner. Archived from the original on 10 July 2011. Retrieved 13 July 2011.
  24. «The Importance of 'Big Data': A Definition» (en anglès). Gartner, 21-06-2012. [Consulta: 4 maig 2016].
  25. «le Blog ANDSI » DSI Big Data». www.andsi.fr. [Consulta: 21 novembre 2016].
  26. Echos, Les «Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant» (en francès). lesechos.fr.
  27. «Digital Technology & Social Change». canvas.instructure.com. [Consulta: 21 novembre 2016].
  28. «Big Data».
  29. «Big Data for Development». MartinHilbert.net.
  30. 30,0 30,1 30,2 Alonso Arévalo, Julio; Vázquez Vázquez, Marta «"Dades massives (big data) : la propera «gran cosa» en gestió de la informació"». iD: textos universitaris de biblioteconomia i documentació, núm. 36 (juny), 2016.
  31. López López, José Carlos. «La moda del Big Data: ¿En qué consiste en realidad?» (en castellà). El Economista. Editorial Ecoprensa, S.A, 24-02-2014. [Consulta: 18 gener 2020]. «Este concepto se encuentra en continuo movimiento porque los avances tecnológicos permiten tratamientos de volúmenes mayores.»
  32. «IDC». [Consulta: [15/03/2014]].
  33. Press, Europa. «El uso de Big Data en las empresas españolas crecerá un 304% en dos años», 28-06-2012. [Consulta: 22 desembre 2023].
  34. Kalil, Tom. "Big Data is a Big Deal". White House. Retrieved 26 September 2012.
  35. Executive Office of the President (March 2012). "Big Data Across the Federal Government". White House. Retrieved 26 September 2012.
  36. Layton, Julia. "Amazon Technology". Money.howstuffworks.com. Retrieved 2013-03-05.
  37. "Scaling Facebook to 500 Million Users and Beyond". Facebook.com. Retrieved 2013-07-21.
  38. "FICO® Falcon® Fraud Manager". Fico.com. Retrieved 2013-07-21
  39. Wingfield, Nick (2013-03-12). "Predicting Commutes More Accurately for Would-Be Home Buyers - NYTimes.com". Bits.blogs.nytimes.com. Retrieved 2013-07-21.
  40. [enllaç sense format] http://www.sas.com/offices/europe/spain/
  41. 41,0 41,1 [enllaç sense format] http://www.abc.es/tecnologia/informatica-soluciones/20131207/abci-data-analisis-201312051430.html
  42. Marr, Bernard «How Big Data And The Internet Of Things Create Smarter Cities» (en anglès). Forbes, 19-05-2015.
  43. «danah boyd». [Consulta: 22 desembre 2023].
  44. [enllaç sense format] http://www.danah.org/papers/2012/BigData-ICS-Draft.pdf
  45. [enllaç sense format] http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1926431
  46. Anderson, Nate «“Anonymized” data really isn't—and here’s why not». Ars Technica, 08-09-2009 [Consulta: 30 octubre 2016].

Bibliografia

[modifica]
  • Pawan, P.; Rao, Trivikram «Data Mining with Big Data Using HACE Theorem». International Journal of Science Engineering and Advance Technology, 3, 9, 2015, pàg. 415-420.
  • Keim, Daniel; Qu, Huamin; Ma, Kwan-Liu «Big-Data Visualization». IEEE Computer Graphics and Applications, 33, 4, 7-2013, pàg. 20–21. DOI: 10.1109/MCG.2013.54.