Inicio»  Soluciones Itelligent»

La recolección de datos web, también conocida como web scraping o web harvesting, consiste en recolectar, de forma automática, información contenida en páginas web para incorporarla a una base de datos. Así por ejemplo, es posible recolectar diariamente los precios de determinados artículos en varias páginas webs, o las subidas y bajadas de la cotización de determinadas empresas en la bolsa. Una vez recolectada la información según la periodicidad que se quiera, es posible utilizar los datos recolectados para diversos fines: detectar subidas o bajadas de precios, detectar opiniones sobre artículos o productos, detectar concursos y licitaciones especificas, etc…

Normalmente la recolección de datos web es el punto de partida para sistemas más complejos ya que a partir de los datos recolectados es posible obtener diversos grados de "inteligencia" que cubran necesidades específicas de cada empresa.

La recolección automática de datos puede cubrir diversas necesidades, por lo que dependiendo de cuál sea su necesidad, es posible adaptar la tecnología de ITelligent para cubrir dicha necesidad. De forma general un proyecto de recolección requiere:

  • El cliente indica que páginas web quiere que sean recolectada y la periodicidad de dicha recolección (por defecto se realiza una vez al día).
  • De forma automática el sistema recolecta la información presente en las páginas web de forma incremental (es decir no recolecta información ya obtenida con antelación).
  • La información recolectada queda a disposición del cliente para su uso (normalmente en un fichero xml).

ITelligent ha desarrollado una tecnología que automatiza, no sólo la creación de los motores de recolección de datos web, si no, en gran medida el mantenimiento de los mismos, por lo que es posible ofrecer este servicio a precios muy competitivos.

  • ¿Cómo recibo la información?

    La información se recibe mediante un fichero xml, aunque si el cliente lo indica es posible estudiar otras opciones.
  • ¿Qué sucede si alguna página web cambia?

    La tecnología desarrollada por ITelligent permite cierto nivel de adaptación a cambios en la página web, por lo que sólo si hay un cambio sustancial en la web, será necesario crear un nuevo sistema de recolección, en estos casos, que son muy poco frecuentes, se puede producir un pequeño retraso en la recepción de los datos. Lógicamente la creación del nuevo sistema de recolección no supone ningún coste adicional para el cliente.
  • ¿Es posible recolectar datos de cualquier web?

    Sí, siempre que la web sea legalmente accesible. Si es necesaria cualquier autorización, acuerdo o licencia, será responsabilidad del cliente obtenerla y su coste, si lo hubiera, será por cuenta del cliente.