En muchas ocasiones es necesario extraer determinadas "piezas" de información de
documentos words o pdfs (Ej. nombres de personas, objeto de una convocatoria, precio
de una venta …), para a partir de dichos datos, introducirlos en hojas de Excel,
Access u otras bases de datos. A título de ejemplo, un notario puede querer obtener
el nombre de los compradores y sus DNIs de unas escrituras de compraventa, esta
es una labor tediosa y cara si se realiza manualmente. La extracción automática
de datos permite automatizar, en gran medida, esta tarea.
Aunque la extracción de datos puede ser aplicada en un sinfín de situaciones, a
continuación y con objeto didáctico se proponen unos pocos ejemplos:
- Obtener el nombre del promotor, potencia y ubicación de unos documentos de licencias
para proyectos de energías renovables.
- Determinar plazo de presentación, entidad convocante y objeto de un gran número
de documentos de concursos o licitaciones.
- Determinar precio de venta, tipo de bien a subastar y ubicación de los mismos de
un gran número de documentos de subastas publicas de bienes inmuebles.
- Determinar nombre del promotor y ubicación de documentos con declaraciones de impacto
ambientales.
Un proyecto de extracción suele requerir diversos pasos, pongamos por ejemplo un
proyecto en el que se desea extraer determinada información de escrituras de ventas
de inmuebles, los pasos serían:
- El cliente indica los datos a extraer (Ej. nombre del vendedor, localización
del inmueble y metros cuadrados del mismo).
- El cliente suministra ejemplos de documentos de los que hay que extraer dichos
datos, es decir escrituras de ventas de inmuebles.
- A partir de estos datos ITelligent crea unos modelos matemáticos que permiten
extraer los datos de dichos documentos. Estos modelos, básicamente, detectan patrones
presenten en el texto que permitan "identificar" los datos a extraer.
- Una vez creado los modelos, estos se aplican a nuevos documentos, extrayendo
la información requerida de dichos documentos.
ITelligent ha desarrollado una tecnología propia de extracción que permite obtener
unos excelentes resultados a partir de un número limitado de ejemplos.
- ¿Los documentos de los que quiero extraer datos deben provenir de una web?
No los datos pueden ser extraídos de cualquier documento (pdf, word, …) de los que
sea posible extraer textos.
- ¿Es posible extraer datos de cualquier documento?
Los sistemas de extracción localizan patrones a partir de los ejemplos que se le
han aportado, por lo tanto si los documentos son "similares" a los aportados el
sistema extraerá los datos con un alto nivel de fiabilidad. Si se desea extraer
datos de documentos diferentes es necesario aportar nuevos ejemplos con esos tipos
de documentos.
- ¿A partir de que volumen de trabajo merece la pena automatizar?
No hay una cantidad mínima, pero como regla general un proyecto de este tipo puede
reducir la mano de obra entre un 80% y un 90% por lo tanto a partir de dicho valor
se puede estimar el coste máximo que se podría amortizar en un proyecto de este
tipo.
- ¿Debe existir un número mínimo de ejemplos para automatizar la extracción?
Si, lo normal es que se requiera un número mínimo de ejemplos, este número puede
variar dependiendo de la complejidad de los campos que se desean extraer y de la
diversidad de los documentos. Para un proyecto básico el número de ejemplos puede
variar entre 100 y 200.
|
|
|
|
|
|
|