La recolección de datos web, también conocida como web scraping o web harvesting,
consiste en recolectar, de forma automática, información contenida en páginas web
para incorporarla a una base de datos. Así por ejemplo, es posible recolectar diariamente
los precios de determinados artículos en varias páginas webs, o las subidas y bajadas
de la cotización de determinadas empresas en la bolsa. Una vez recolectada la información
según la periodicidad que se quiera, es posible utilizar los datos recolectados
para diversos fines: detectar subidas o bajadas de precios, detectar opiniones sobre
artículos o productos, detectar concursos y licitaciones especificas, etc…
Normalmente la recolección de datos web es el punto de partida para sistemas más
complejos ya que a partir de los datos recolectados es posible obtener diversos
grados de "inteligencia" que cubran necesidades específicas de cada empresa.
La recolección automática de datos puede cubrir diversas necesidades, por lo que
dependiendo de cuál sea su necesidad, es posible adaptar la tecnología de ITelligent
para cubrir dicha necesidad. De forma general un proyecto de recolección requiere:
- El cliente indica que páginas web quiere que sean recolectada y la periodicidad
de dicha recolección (por defecto se realiza una vez al día).
- De forma automática el sistema recolecta la información presente en las páginas
web de forma incremental (es decir no recolecta información ya obtenida con antelación).
- La información recolectada queda a disposición del cliente para su uso (normalmente
en un fichero xml).
ITelligent ha desarrollado una tecnología que automatiza, no sólo la creación de
los motores de recolección de datos web, si no, en gran medida el mantenimiento
de los mismos, por lo que es posible ofrecer este servicio a precios muy competitivos.
- ¿Cómo recibo la información?
La información se recibe mediante un fichero xml, aunque si el cliente lo indica
es posible estudiar otras opciones.
- ¿Qué sucede si alguna página web cambia?
La tecnología desarrollada por ITelligent permite cierto nivel de adaptación a cambios
en la página web, por lo que sólo si hay un cambio sustancial en la web, será necesario
crear un nuevo sistema de recolección, en estos casos, que son muy poco frecuentes,
se puede producir un pequeño retraso en la recepción de los datos. Lógicamente la
creación del nuevo sistema de recolección no supone ningún coste adicional para
el cliente.
- ¿Es posible recolectar datos de cualquier web?
Sí, siempre que la web sea legalmente accesible. Si es necesaria cualquier autorización,
acuerdo o licencia, será responsabilidad del cliente obtenerla y su coste, si lo
hubiera, será por cuenta del cliente.
|
|
|
|
|
|
|