ITELLIGENT

Aplicaciones prácticas de Minería Web

Post sobre:

Escrito por:

Martel, Jaime
18/02/2015

En este post incluimos algunos ejemplos de proyectos relacionados con la minería web en los que ITelligent ha participado. Estos proyectos pueden dar una estupenda idea de cómo se puede emplear la minería web que explicábamos en un post anterior.

Inteligencia Comercial para el sector Fotovoltaico y Termosolar

Este proyecto consistió en la obtención de inteligencia comercial para el sector fotovoltaico y termo-solar, el resultado fue un sistema que permite a sus usuarios obtener una ventaja competitiva gracias a que el sistema les permite monitorizar todos los proyectos de energía solar que se publican en España y disponer para cada uno de ellos de una información lista para ser aprovechada comercialmente.

ITelligent_Inteligencia_Comercial_Fotovoltaico_Termosolar

Para este proyecto se desarrolló un «pipeline» muy complejo que a continuación se describe:

  • Diariamente se extraen unos 4000 documentos de unas 70 webs de diversas administraciones públicas españolas.
  • Los 4000 documentos son clasificados automáticamente para detectar aquellos cuya temática sea sobre energía fotovoltaica y/o termo-solar (ej. solicitud de licencias de proyectos, declaraciones de impacto ambiental, concursos, …).
  • Cada uno de los documentos detectados en el paso anterior, son sometidos a un sistema automático de extracción de información para obtener determinada información relevante (ej. nombre del promotor del proyecto, ubicación del proyecto, potencia del proyecto, …).
  • La información obtenida en el paso anterior es enriquecida de forma automática con información adicional procedente de otras páginas web (ej. información catastral, geolocalización en mapa, etc.).
  • Por último los datos son agregados en un mashup que permite el filtrado y el acceso a toda la información de una forma muy amigable.

Sistema de Minería de Opinión para el sector Automovilístico

En este proyecto el cliente requería la monitorización de diversas páginas web de automóviles con contenidos subjetivos (comentarios) y la extracción de inteligencia de estos comentarios. El resultado es un sistema que permite determinar de cada automóvil del que se habla, de que elemento del mismo se habla (ej. seguridad, conducción, habitáculo) y si se habla positivamente o negativamente.

ITelligent_mineria_opinon_automovilistico

Inicialmente el cliente indicó las características que quería estudiar de los automóviles (ej. precio, habitáculo, servicio, seguridad, …) y las páginas web que deseaba monitorizar. Una vez definido lo anterior se desarrolló, en colaboración con los profesores de la Universidad de Sevilla doctores José Antonio Troyano y Fermín Cruz, el sistema que a continuación se describe:

  • Diariamente se extraen los datos de las distintas webs (comentarios y otros).
  • Los datos son procesados por un sistema de minería de opinión de última generación, que permite detectar de qué característica del coche se habla en un comentario y si se habla positivamente o negativamente.
  • El resultado del paso anterior es formateado según las especificaciones del cliente y enviado al mismo.

Inteligencia Competitiva para Ayudas y Subvenciones

En este proyecto el cliente necesitaba obtener todas las ayudas que diariamente se publican en España (sobre 30.000 ayudas al año), clasificarlas y obtener una ficha de cada una de las convocatorias, automatizando lo más posible con vistas a minimizar el esfuerzo manual. El cliente permite ofrecer a sus usuarios una información muy completa de todas las ayudas y subvenciones casi en tiempo real.

ITelligent_mineria_opinion_Ayudas y subvenconesl

Inicialmente el cliente definió como deberían ser clasificadas cada una de las ayudas localizadas, esta clasificación jerárquica permite posteriormente filtrar y crear alertas. Además para cada una de las convocatorias de ayudas se crea una plantilla con diversos campos (ej. plazo, objeto de la convocatoria, …), que permite disponer de una información homogenizada.

Para este proyecto se desarrolló un «pipeline» muy complejo que a continuación se describe:

  • Diariamente se extraen un número muy elevado de documentos de unas 80 webs de diversas administraciones públicas españolas.
  • Los documentos son clasificados automáticamente en función de las categorías definidas por el cliente (ej. I+D+i, urbanismo, juventud, …).
  • Cada uno de los documentos detectados como convocatorias son procesados para extraer determinada información con vistas a crear una ficha de cada convocatoria (ej. plazo de la convocatoria, objeto de la convocatoria,…).
  • La información es diariamente puesta a disposición del cliente junto a unas herramientas que permiten supervisar los resultados. Al mismo tiempo esta supervisión es utilizada como feedback para la mejora de los modelos de extracción y clasificación.

Otras entradas de esta categoría

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *