Cercadors de vídeos
Els cercadors de vídeos són programes informàtics dissenyats per trobar vídeos emmagatzemats en dispositius digitals, ja sigui en servidors a través d'Internet o en unitats de memòria d'un mateix equip informàtic. Aquestes cerques es poden fer gràcies a la indexació audiovisual, que amb certs processos d'anàlisi i mitjançant etiquetes descriptives, extreu informació del material audiovisual i ho anota en forma de metadades, les quals seran rastrejades pels motors de cerca.
Utilitat
[modifica]La principal utilitat d'aquests cercadors rau en la creixent creació de continguts audiovisuals i la necessitat de gestionar-los correctament. La digitalització dels arxius audiovisuals i l'establiment d'Internet, ha provocat que tinguem grans quantitats d'arxius de vídeo emmagatzemats en grans bases de dades, la recuperació dels quals pot arribar a ser molt difícil pels grans volums de dades i per la bretxa semàntica que existeix.
Criteris de cerca
[modifica]Els criteris de cerca que utilitza cada cercador depenen de la naturalesa d'aquest i de l'objectiu de les cerques.
Metadades
[modifica]Les metadades són informació sobre dades concretes. Podrien ser informació de qui és l'autor del vídeo, la data de creació, la durada i tota la informació que volguéssim extreure i incloure en els mateixos fitxers. A Internet se sol utilitzar un llenguatge anomenat XML per codificar metadades, el qual funciona molt bé a través de web i és llegible per les persones. Així doncs, a través d'aquesta informació continguda en els mateixos arxius, és la manera més fàcil cercar dades del nostre interès.
Metadades internes
[modifica]Tots els formats de vídeo, en major o menor mesura, incorporen les seves pròpies metadades. El títol, descripció, qualitat de codificació o fins i tot la transcripció del contingut són possibles. Per a revisar aquestes dades hi ha programes com FLV MetaData Injector, Sorenson Squeeze Arxivat 2009-08-29 a Wayback Machine. o Castfire Arxivat 2011-12-07 a Wayback Machine.. Cada un té unes utilitats i especificacions especials.
Cal tenir en compte que en convertir un format a un altre es poden perdre moltes d'aquestes dades, així que cal comprovar que la informació del nou format és correcta. Per aquest motiu és aconsellable tenir el vídeo en quants més formats possibles millor, ja que així tots els robots de cerca seran capaços de trobar-lo i indexar-lo.
Metadades externes
[modifica]En la major part de casos cal aplicar els mateixos mecanismes que en el posicionament d'una imatge o d'un contingut textual.
Títol i descripció
[modifica]Són els factors més importants a l'hora de posicionar un vídeo, ja que aquí trobaran la major part de la informació necessària. Els títols han de ser clarament descriptius i cal eliminar tota paraula o frase que no sigui útil.
Nom del fitxer
[modifica]Ha de ser descriptiu, incloent-hi les paraules clau que descriguin al vídeo sense necessitat de veure el seu títol o descripció. L'ideal és separar aquestes paraules per guions "-".
Etiquetes
[modifica]A la pàgina on es trobi el vídeo ha d'haver-hi una llista de paraules clau enllaçades amb el microformat "rel-tag". Aquestes paraules seran les que els cercadors utilitzin com a base a l'hora d'organitzar la seva informació.
Transcripció i subtítols
[modifica]Encara que no són completament un estàndard, existeixen dos formats en els quals guardar la informació amb un component temporal en el qual s'especifica, un per a subtítols i un altre per transcripcions, que també pot usar-se per als subtítols.
Els formats són SRT o SUB per als subtítols i els TTXT per les transcripcions. Per gestionar aquest tipus de formats és interessant l'ús del programa MP4Box amb el qual es pot aconseguir aquest tipus de fitxers i formats.
Reconeixement de veu
[modifica]El reconeixement de veu consisteix en una transcripció de la parla (speech-to-text) de la pista d'àudio dels vídeos, creant un arxiu de text. D'aquesta manera i amb l'ajuda d'un extractor de frases es podrà cercar fàcilment si el contingut del vídeo en qüestió és del nostre interès.
Alguns cercadors a part d'utilitzar el reconeixement de la parla per buscar vídeos, també l'utilitzen per trobar el punt concret d'un arxiu multimèdia on se cita una paraula o frase en concret i així anar directament en aquest punt. Gaudi (Google Audio Indexing), un projecte desenvolupat per Google Labs, utilitza la tecnologia del reconeixement de veu per ubicar el moment exacte en què una o diverses paraules han estat dites dins un àudio, permetent a l'usuari dirigir-se directament al moment exacte en què les paraules van ser pronunciades. Si la consulta de cerca coincideix amb alguns vídeos de YouTube,[1] les posicions s'indiquen amb marcadors de color groc, i cal passar el ratolí per sobre per llegir el text transcrit.
Reconeixement de text
[modifica]El reconeixement de text pot ser molt útil a l'hora de reconèixer personatges dels vídeos a través dels chyrons. Igual que amb els reconeixedors de veu, també hi ha cercadors que permeten, a través del reconeixement de caràcters, reproduir un vídeo des d'un punt concret on aparegui la paraula en qüestió.
TalkMiner, un exemple de cerca de fragments concrets de vídeos per reconeixement de text, analitza cada vídeo una vegada per segon a la recerca de signes identificadors d'una diapositiva, com ara la seva forma i naturalesa estàtica, captura la imatge de la diapositiva i compensa qualsevol angle mort i utilitza el Reconeixement òptic de Caràcters (OCR) per detectar les paraules en les diapositives. Tot seguit, aquestes paraules són indexades al motor de cerca de TalkMiner, que actualment posa a disposició dels usuaris més de 20.000 vídeos d'institucions com la Universitat Stanford, la Universitat de Califòrnia a Berkeley i TED.
Anàlisi de fotogrames
[modifica]A través dels descriptors visuals es pot analitzar els fotogrames d'un vídeo i extreure'n informació que es podrà anotar en forma de metadades. Les descripcions es generen automàticament i poden descriure diferents aspectes dels fotogrames, com ara el color, la textura, la forma, el moviment i la situació.
Criteris d'ordenació
[modifica]La utilitat d'un motor de cerca depèn de la rellevància del conjunt de resultats que retorna. Si bé pot haver milions de vídeos que inclouen una paraula o frase en particular, alguns vídeos poden ser més rellevants, populars o amb més autoritat que d'altres. Aquesta ordenació té molt a veure amb l'optimització per a motors de recerca.
La majoria dels motors de cerca fan servir diferents mètodes per classificar els resultats i proporcionar el millor vídeo als primers resultats. Tot i així la majoria de programes permeten ordenar els resultats amb diversos criteris.
Ordenació per rellevància
[modifica]Aquest criteri és el més ambigu i menys objectiu, però moltes vegades és el més proper als nostres desitjos. Depèn totalment del propietari del cercador i l'algorisme que aquest ha preferit. És per això que sempre ha estat motiu de discussió i més ara que els resultats de les cerques estan tan arrelats a la nostra societat. Aquest tipus d'ordenació sol dependre del nombre de vegades que surt la paraula buscada, el nombre de visionats d'aquest, la quantitat de pàgines que enllacen amb aquest contingut i les valoracions que en donen els usuaris que l'han vist.[2]
Ordenació per data de pujada
[modifica]Aquest és un criteri totalment temporal on es poden ordenar els resultats en funció de la seva antiguitat en el repositori.
Ordenació per nombre de visionats
[modifica]Ens pot donar una idea de la popularitat de cada vídeo.
Ordenació per valoració dels usuaris
[modifica]És una pràctica molt comuna en els repositoris la de deixar puntuar els vídeos als seus usuaris, i així un contingut de qualitat i gran rellevància obtindrà posicions altes en la llista de resultats adquirint visibilitat. Aquesta pràctica està molt relacionada amb les comunitats virtuals.
Interfícies
[modifica]Hem de distingir dos tipus bàsics d'interfícies, unes són pàgines web allotjades en servidors, les quals s'hi accedeix via Internet i cerquen a través d'Internet, i les altres són programes informàtics que cerquen dins d'una xarxa privada.
Internet
[modifica]Dins les interfícies d'Internet trobem repositoris que allotgen fitxers de vídeo i que incorporen un cercador que sols busca en les bases de dades pròpies, i cercadors de vídeo sense repositori que busquen en fonts de programari externs.
Repositoris amb cercador de vídeos
[modifica]Proporcionen allotjament a arxius de vídeo emmagatzemant-los als seus servidors i solen tenir un cercador integrat que busca entre els vídeos pujats pels seus usuaris. Uns dels primers repositoris web, o si més no els més famosos, són els portals Vimeo, Dailymotion i YouTube.
Les seves cerques se solen basar en la lectura de les etiquetes de metadades, els títols i les descripcions que els usuaris assignen als seus vídeos. Els criteris de disposició i ordenació dels resultats d'aquestes cerques solen ser seleccionables entre data de pujada de l'arxiu, nombre de visionats o el que anomenen rellevància. Tot i així els criteris d'ordenació són avui dia la principal arma d'aquests llocs web, ja que en termes de promoció és de gran importància el posicionament que aquests donin al teu vídeo.
Cercadors de vídeos a repositoris
[modifica]Són pàgines web especialitzades a cercar vídeos per tota la xarxa o per certs repositoris preseleccionats. Funcionen mitjançant aranyes web que inspeccionen la xarxa de forma automatitzada per tal de crear còpies de les webs visitades, les quals seran posteriorment indexades per motors de cerca, i així poder proporcionar cerques més ràpides.
Xarxa privada
[modifica]També es pot donar el cas d'un cercador que sols busqui en un arxiu audiovisual emmagatzemat dins un mateix ordinador o com passa en les televisions, en un servidor privat on els usuaris hi accedeixen a través d'una xarxa d'àrea local. Aquests cercadors solen ser programes informàtics o aplicacions riques d'Internet amb unes opcions de cerca molt concretes per tal de ser el màxim de ràpides i eficients a l'hora de presentar els resultats. Es solen fer servir per a grans bases de dades i per tant estan força enfocades per satisfer les necessitats de les empreses de televisió. Un exemple d'aquest tipus de programari seria el Digition Suite, que a part de ser un referent dins aquest tipus d'interfícies, ens toca de molt a prop per ser el sistema d'emmagatzemament i recuperació d'arxius de la Corporació Catalana de Mitjans Audiovisuals.[3]
Aquesta suite en concret i potser el seu punt més fort, és que integra tot el procés de creació, indexació, emmagatzematge, cerca, edició i recuperació en un. Un cop digitalitzat el contingut audiovisual, s'indexa amb tècniques de diferent nivell segons la importància del contingut i s'emmagatzema. L'usuari, quan vol recuperar un arxiu en concret, omple uns camps de cerca com poden ser títol del programa, data d'emissió, personatges que actuen o el nom de la productora, i el robot comença la recerca. Un cop apareguts els resultats i ordenats segons les preferències, l'usuari pot reproduir els vídeos a baixa qualitat per tal de treballar el més ràpid possible. Quan es troba el contingut desitjat, es descarrega amb bona definició, s'edita i es reprodueix.[4]
Vegeu també
[modifica]- Motor de cerca
- Metadades
- Reconeixement òptic de caràcters
- Reconeixement de la parla
- Optimització per a motors de recerca
- Servei d'allotjament de vídeos
- Aranya web
- Indexació audiovisual
- Biblioteca digital
- MPEG-7
Referències
[modifica]- ↑ «How Does the YouTube Algorithm Work». Sarah Andres, 21-02-2022.
- ↑ (anglès) SEO per webmaster central de Google[Enllaç no actiu]
- ↑ (català) Patrimoni audiovisual: digitalitzar-se o morir (Alícia Conesa) Arxivat 2011-07-08 a Wayback Machine.
- ↑ (català) Digition Suite d'Activa Multimèdia Arxivat 2012-04-26 a Wayback Machine.
Enllaços externs
[modifica]- Funcionament dels motors de cerca a How Stuff Works (anglès)
- Aplicació rica d'Internet per a la consulta amb text i imatge al repositori de vídeos de la Corporació Catalana de Mitjans Audiovisuals (Ramon Salla) Arxivat 2011-07-08 a Wayback Machine.(català)
- Funcionament del motor de cerca Blinkx Arxivat 2011-11-08 a Wayback Machine. (anglès)