Consiste en clasificar una serie de documentos en diversas categorías. Así a titulo
de ejemplo, una empresa puede requerir clasificar una serie de textos según su temática
en: noticias económicas, noticias deportivas, etc… Normalmente esta clasificación
se realiza a mano, lo que es absolutamente viable si el número de documentos es
reducido, pero si el número de documentos es alto, es necesario automatizar esta
tarea. La clasificación automática permite realizar clasificaciones complejas, creando
taxonomias de varios niveles. Ejemplo: clasificar documentos indicando si son sobre
energía renovables o no, además los clasificados como energía renovable se deben
clasificar en: eólica, fotovoltaica, termosolar, hidráulica, etc…pudiéndose a su
vez clasificar cada uno de ellos según otras características.
En algunos casos los documentos a clasificar son internos de la empresa o puede
ser necesario recolectarlos de paginas web, en ambos casos la utilización de sistemas
automáticos de clasificación reducen considerablemente la mano de obra necesaria
y el coste del proceso.
Un proyecto de clasificación suele requerir diversos pasos, pongamos por ejemplo
un proyecto en el que se desea clasificar determinados documentos de ayudas y subvenciones:
- El cliente indica la clasificación a obtener (taxonomía), así en el caso de ayudas
y subvenciones puede requerir que sean clasificadas en convocatorias y resoluciones,
además para cada una de ella quiere que se clasifiquen en cuatro categorías adicionales:
agricultura y pesca, industria, I+D+I y otros.
- El cliente debe suministrar documentos de ejemplos para cada categoría definida
en la taxonomía.
- A partir de dichos datos ITelligent crea unos modelos matemáticos que clasifican
un documento en función de la taxonomía.
- Una vez creado el modelo este es aplicado a nuevos documentos.
ITelligent ha desarrollado una tecnología propia de clasificación que permite obtener
unos excelentes resultados a partir de un número limitado de ejemplos.
- ¿Los documentos que quiero clasificar deben provenir de una
web?
No los documentos pueden ser cualquiera (ej. pdfs, word, …) ya sean obtenidos de
una página web o no.
- ¿Es posible clasificar cualquier documento?
Los sistemas de clasificacion detectan patrones a partir de los ejemplos que se
le han aportado, por lo tanto si los documentos son "similares" a los aportados
el sistema ñps clasificará con un alto nivel de fiabilidad. Si se desea clasificar
documentos muy diferentes a los aportados en los ejemplos es necesario aportar nuevos
ejemplos con esos tipos de documentos.
- ¿A partir de que volumen de trabajo merece la pena automatizar?
No hay una cantidad mínima, pero como regla general un proyecto de este tipo puede
reducir la mano de obra entre un 90% y un 95% por lo tanto a partir de dicho valor
se puede estimar el coste máximo que se podría amortizar en un proyecto de este
tipo.
- ¿Debe existir un número mínimo de ejemplos para automatizar
la clasificación?
Si, lo normal es que se requiera un número mínimo de ejemplos, este número puede
variar dependiendo de la complejidad de la taxonomía y la variabilidad de los documentos.
Para un proyecto básico de clasificación (Ej. dos categorías) el número de ejemplos
puede variar entre 100 y 200.
|
|
|
|
|
|
|