¿Qué fue de la web semántica?

Tiempo ha pasado desde que la web semántica fuera descrita por Tim Berners-Lee allá por el año 2000. Pese a las barreras que se preveían, muchos pensamos que podría suponer un paso sustancial en el aprovechamiento de la información disponible en las páginas web. Sin embargo, más de una década después su desarrollo es todavía muy incipiente.

En la web semántica, la información de una página web se estructura de tal manera que no sólo es entendible por las personas sino que los ordenadores son capaces de entenderla e interpretarla. Las personas no notarán ninguna diferencia pero los ordenadores podrán leer la información en un formato que les permita tratarla de forma automatizada. Así, en vez de utilizar algoritmos para identificar lo que es una fecha o un lugar, la información está preparada para que sea leida directamente por un ordenador.

Si todas las páginas web estructuraran la información con estos criterios sería mucho más sencillo convertir el vasto contenido de las páginas web en conocimiento útil para el usuario. En el lenguaje político se hablaba de evolucionar la “sociedad de la información” hacia una “sociedad del conocimiento” en la que describía un estadío ideal en el que se obtenía verdadero valor de lo que se volcaba en la web.

Para que la web semántica triunfara hacían falta tres cosas. Que la información se estructurara adecuadamente en las páginas web, que hubiera tecnologías estandarizadas para el tratamiento de dicha información, y que se desarrollaran algoritmos de procesamiento de la información que permitieran resultados mejores que los tradicionales. Pero mientras el segundo existió y el tercero mostraba síntomas de avance, lo que nunca se consiguió fue lo primero.

Las páginas web no iniciaron nunca de forma masiva el proceso de “anotación”, que así se llama, para hacerlas entendibles por los ordenadores. Y hay que reconocer que no fue culpa suya. Las tecnologías de la web semántica eran tan genéricas que era difícil que los desarrolladores tuvieran claro que formato definir para sus datos. Lo mas parecido a un avance en esta línea viene de la mano de los microformatos (formatos predefinidos para información muy elemental como fechas, lugares,…) aunque tampoco han tenido un éxito generalizado.

Además, los desarrolladores tenían muy poco incentivo para “anotar” las páginas web. De hacer un esfuerzo, era mucho más provechoso encaminarlo hacia optimizar la información que usan los buscadores y así conseguir mejores resultados en las búsquedas. Era más importante el SEO que la idealidad de alcanzar una web semántica. Tampoco triunfó ningún servicio que recopilara información semántica y que hubiera podido tirar del carro.

Pero es que, además, el mundo web ha cambiado mucho respecto a lo que era en el 2000. La web ha evolucionado de ser un lugar de páginas web a ser un lugar de sitios web. Ahora los contenidos que se producen se concentran en un cada vez menor número de sitios, fundamentalmente redes sociales. Y son estos sitios quienes estructuran internamente la información de acuerdo a las necesidades de sus servicio.

En este entorno, mas que los estándares que se habían definido, lo que existen son interfaces de programación suministrados por los propios sitios web para poder extraer parte de la información almacenada en sus servidores. Se había evolucionado y los triunfadores eran otros.

¿Quiere decir esto que la web semántica haya fracasado?. Pues tampoco. Las tecnologías para organizar la información se están usando, fundamentalmente dentro de las empresas para intentar sacar valor de los datos de los que disponen. Y se han incorporado como parte de las características de algunas bases de datos por lo que están disponibles para quien las quiera actualizar.

Las tecnologías las usan internamente los servicios web para mejorar la calidad de sus servicios. Un caso claro son los buscadores que pueden mejorar sus resultados usando estas tecnologías. En cualquier caso su impacto habría que calificarlo de evolucionario más que disruptivo.

Y algunos colectivos decidieron apostar por estas tecnologías sobre todo cuando tenían la necesidad de manejar ordenadamente información, algo que ocurre frecuentemente con el conocimiento científico. El problema es que la información existente está mantenida por grupos diferentes y la información no es fácilmente relacionable entre ellos. Hay dominios con el SNOMED para medicina o XBRL para finanzas que proporcionan un buen valor a sus usuarios pero que no dejan de ser nichos asilados. Y para un uso más generalista, podemos encontrar ejemplos como GoPubMed que dispone de información sobre ciencias de la vida o DBpedia que estructura información procedente de la Wikipedia.

Ya sabíamos que de llegar a existir la web semántica necesitaría de muchos años. Pero, ¿lo dicho aquí significa que la web semántica como tal nunca existirá?

Imagen| kwinkunks