Inicio»  Soluciones Itelligent»

En muchas ocasiones es necesario extraer determinadas "piezas" de información de documentos words o pdfs (Ej. nombres de personas, objeto de una convocatoria, precio de una venta …), para a partir de dichos datos, introducirlos en hojas de Excel, Access u otras bases de datos. A título de ejemplo, un notario puede querer obtener el nombre de los compradores y sus DNIs de unas escrituras de compraventa, esta es una labor tediosa y cara si se realiza manualmente. La extracción automática de datos permite automatizar, en gran medida, esta tarea.

Aunque la extracción de datos puede ser aplicada en un sinfín de situaciones, a continuación y con objeto didáctico se proponen unos pocos ejemplos:

  • Obtener el nombre del promotor, potencia y ubicación de unos documentos de licencias para proyectos de energías renovables.
  • Determinar plazo de presentación, entidad convocante y objeto de un gran número de documentos de concursos o licitaciones.
  • Determinar precio de venta, tipo de bien a subastar y ubicación de los mismos de un gran número de documentos de subastas publicas de bienes inmuebles.
  • Determinar nombre del promotor y ubicación de documentos con declaraciones de impacto ambientales.

Un proyecto de extracción suele requerir diversos pasos, pongamos por ejemplo un proyecto en el que se desea extraer determinada información de escrituras de ventas de inmuebles, los pasos serían:

  • El cliente indica los datos a extraer (Ej. nombre del vendedor, localización del inmueble y metros cuadrados del mismo).
  • El cliente suministra ejemplos de documentos de los que hay que extraer dichos datos, es decir escrituras de ventas de inmuebles.
  • A partir de estos datos ITelligent crea unos modelos matemáticos que permiten extraer los datos de dichos documentos. Estos modelos, básicamente, detectan patrones presenten en el texto que permitan "identificar" los datos a extraer.
  • Una vez creado los modelos, estos se aplican a nuevos documentos, extrayendo la información requerida de dichos documentos.

ITelligent ha desarrollado una tecnología propia de extracción que permite obtener unos excelentes resultados a partir de un número limitado de ejemplos.

  • ¿Los documentos de los que quiero extraer datos deben provenir de una web?

    No los datos pueden ser extraídos de cualquier documento (pdf, word, …) de los que sea posible extraer textos.
  • ¿Es posible extraer datos de cualquier documento?

    Los sistemas de extracción localizan patrones a partir de los ejemplos que se le han aportado, por lo tanto si los documentos son "similares" a los aportados el sistema extraerá los datos con un alto nivel de fiabilidad. Si se desea extraer datos de documentos diferentes es necesario aportar nuevos ejemplos con esos tipos de documentos.
  • ¿A partir de que volumen de trabajo merece la pena automatizar?

    No hay una cantidad mínima, pero como regla general un proyecto de este tipo puede reducir la mano de obra entre un 80% y un 90% por lo tanto a partir de dicho valor se puede estimar el coste máximo que se podría amortizar en un proyecto de este tipo.
  • ¿Debe existir un número mínimo de ejemplos para automatizar la extracción?

    Si, lo normal es que se requiera un número mínimo de ejemplos, este número puede variar dependiendo de la complejidad de los campos que se desean extraer y de la diversidad de los documentos. Para un proyecto básico el número de ejemplos puede variar entre 100 y 200.