ITELLIGENT

Minería web: de contenidos, de estructuras y de usos

Post sobre:

Escrito por:

Martel, Jaime
12/02/2015

¿Qué es la Minería Web?

La minería web o web mining comprende una serie de técnicas encaminadas a obtener inteligencia a partir de datos procedentes de la web. Aunque las técnicas utilizadas tienen su raíz en las técnicas de data mining o minería de datos, presentan características propias debido a las particularidades que presentan las páginas webs. Algunas de estas particularidades son:

  • La mayor parte de los datos de la web tienen poca estructura (por ejemplo, tablas htmls) o casi ninguna (como pueden ser textos planos oPDFs).
  • Los volúmenes de datos son muy altos y en algunos casos crecen de forma exponencial, con la problemática asociada (big data).
  • Los datos (a nivel de páginas) están relacionados mediante links.
  • Los datos tienen formatos muy variados como htmls, PDFs, imágenes, video, etc.
  • Se mezclan datos fiables con otros de menor fiabilidad, dando lugar a inconsistencias.

Todo lo anterior ha provocado la adaptación y/o desarrollo de nuevas técnicas que permitan aprovechar el gran volumen de datos presente en internet.

¿Cómo clasificar la minería web en función de los datos que utiliza?

  • Minería de Contenidos: su objetivo es obtener «valor» de los datos que contienen las páginas web.  Esta minería presenta la mayor dificultad, debido entre otros: a la falta de estructura de los datos, a su diversidad (ej. imagenes, pdfs, etc.), a la dificultad de interpretar (ej. opiniones). El uso que se le da a los contenidos, una vez estructurados, pueden ser muy diversa: desde la detección de patrones de interés hasta la inteligencia comercial. Hasta el momento este tipo de minería se ha centrado principalmente en textos (algunas veces se habla de text mining), siendo muy utilizadas las técnicas de Procesamiento del Lenguaje Natural, aunque actualmente existe un gran interés en ampliar de una forma efectiva la minería de contenidos a otros formatos (principalmente videos e imágenes).
  • Minería de Estructuras: Internet, de forma implícita, presenta ciertas estructuras que pueden ser de interés para obtener información o inteligencia. Así, dentro de una web, las páginas se organizan de determinada forma -normalmente en una estructura jerárquica-, mientras que distintas web se relacionan entre ellas mediante links -normalmente formando grafos-. Además, las redes sociales han introducido nuevos elementos estructurales como por ejemplo los seguidores. Esta información «estructural» puede ser utilizada de diversas formas, desde ayudar a determinar la relevancia de una página en un buscador a la detección de líderes de opinión en redes sociales.
  • Minería de Uso: La forma en que un usuario interactúa con una página web, aporta datos de gran interés. Tradicionalmente se han utilizado los logs recopilados por los servidores para este tipo de minería (en estos casos se habla de log mining). Es posible, a partir de los datos de interacción, detectar patrones que puedan ser aprovechados con distinta finalidad, desde mejorar la compra en una web modificando la navegación, hasta la personalización de la publicidad.

Otras entradas de esta categoría

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *