ITELLIGENT

Cómo acceder al Open Data de forma automática gracias a la Inteligencia Artificial

Post sobre:

Escrito por:

Martel, Jaime
07/02/2018

La mayoría de la información ofrecida por instituciones, diputaciones y otros organismos públicos, popularmente conocida como Open Data, es digitalizada y publicada a través de diferentes canales en Internet. Estos datos abiertos pueden ser tanto disposiciones de licitaciones, ayudas, subvenciones, multas de tráfico, oposiciones, concursos oficiales, etc. Este tipo de información es buscada día a día por diversos usuarios y empresas de diferente índole que desean consultar estas bases de datos de Open Data.

Pero, claro, toda esta información no está estructurada (desordenados) y cada dato está publicado en una web diferente bajo un formato distinto (PDF, HTML, XML,…). Hoy en día no existe una página pública o herramienta comercial que aglutine y extraiga todos estos datos descritos bajo una misma web. Tampoco existe un protocolo o normalización estándar de «cómo se deben publicar».

[Tweet «#OpenData: la mayoría de datos no está estructurada, ¿cuál es la solución?»]

Además de la gran heterogeneidad del Open Data (origen y formato), en el 95% de los casos, esa información no está estructurada y necesita un tratamiento por una persona para que sea útil. Si se tiene en cuenta la cantidad de canales a extraer y el volumen de información publicado, incluso considerando sólo lo publicado diariamente, se hace inmanejable para una persona.

En resumen, la situación de partida es que estamos ante un gran volumen de datos que requiere la necesidad de una herramienta que facilite la consulta y extracción de estos datos. Gracias a la inteligencia artificial y el Machine Learning (aprendizaje automático), tenemos la solución: NetOpenData. Se trata de una herramienta que facilita el acceso a los datos del sector público y open data. Se trata de un servicio para acceder a la información de forma estructurada y bajo un solo paraguas, una sola web.

[Tweet «La herramienta que facilita acceso a los datos del sector público: NetOpenData»]

¿Cómo funciona el sistema de inteligencia artificial diseñado?

La innovación principal de NetOpenData parte de obtener, procesar y ofrecer este tipo de información de forma estructurada siguiendo un enfoque automático. Para ello se han aplicado diferentes técnicas de aprendizaje, siguiendo un enfoque supervisado relacionado con:

Se han desarrollado sistemas capaces de dar solución a la extracción masiva de recursos a partir de Internet, la segmentación de textos, la clasificación de textos y la extracción de información en textos. Además, de cara a la extracción masiva de información se ha hecho uso de herramientas pensadas para este tipo de entornos que permitan trabajar desde una perspectiva paralela capaz de organizar el trabajo siguiendo un enfoque escalable y distribuido ya que de otra forma el sistema no es capaz de procesar toda la información recogida.

Otros de los puntos fuertes de NetOpenData es la utilización de las últimas tecnologías de almacenamiento. Sistemas que surgieron hace poco y están adaptadas a los procesamientos de información en tiempo real. Esto es una ventaja debido a que desde su base de creación se están enfocando a problemas actuales como cargas masivas de datos (Big Data) o tiempos de respuesta y almacenamiento bajos, una gran problemática que les cuesta solventar a las bases de datos tradicionales, debido a la robustez que ya tienen.

¿Qué ventajas posee este sistema de Inteligencia Artificial?

  • Permite extraer unos recursos concretos (Ej. Boletines Oficiales) a través de diferentes canales (Ej. Web de una Diputación) de una forma automática, teniendo en cuenta las peculiaridades de los datos a extraer, así como el uso que se le tiene pensado dar.
  • Es capaz de tratar cada recurso extraído con el fin de obtener de él una información útil para el usuario:
    • Segmentar el índice del contenido.
    • Segmentar el contenido en disposiciones.
    • Clasificar el idioma de la disposición.
    • Clasificar las disposiciones en función a una taxonomía.
  • Puede ordenar determinadas piezas de información según el idioma y el tipo de la disposición.
  • Hace posible guardar de forma persistente tanto la información bruta como la estructurada fruto del tratamiento indicado anteriormente, teniendo en cuenta el uso que se le tiene pensado dar y el volumen generado.
  • Ofrece al usuario el acceso a los datos de forma más práctica y eficaz posible, a través de una única página web que permite:
    • la visualización y filtración de datos
    • la descarga de disposiciones concretas
    • la creación de alertas de disposiciones en base a una serie de filtros concretos.

[Tweet «¿Qué tipo de datos puedes obtener con NetOpenData? #ITelligent»]

¿Qué tipo de datos públicos puedes obtener con NetOpenData?

Boletines Oficiales, Patentes, Marcas, Ayudas, Nombres Comerciales, Contrataciones y Licitaciones. Toda esta información se estructura para puedas utilizarlo de forma fácil y sencilla en tu empresa o para que puedas montar servicios innovadores a partir de estos datos.

NetOpendata

Por otro lado, en ITELLIGENT nos adaptamos a las necesidades de cada uno de nuestros clientes por lo que si tu empresa requiere otros datos diferentes a los que aporta NetOpenData o desea enlazar los datos de nuestro software con otras fuentes, también somos especialistas en hibridación de datos.

Otras entradas de esta categoría

¿Quieres aportar nueva información o hacernos un comentario?

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *