Archivo de la web española

La recolección de páginas web es la principal forma de llevar a cabo el depósito legal de las publicaciones en línea. Se lleva a cabo con robots rastreadores que van recorriendo las URL seleccionadas previamente y guardando todo lo que tienen enlazado con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web.

A día de hoy es imposible aspirar a la exhaustividad en el archivado web, por lo que en la Biblioteca Nacional de España se ha optado por un modelo mixto que combina recolecciones masivas y selectivas:

  1. Las recolecciones masivas recogen el mayor número de dominios posible con una profundidad pequeña en los niveles de navegación y están vinculadas al dominio .es. Se hacen una vez al año.
  2. Las recolecciones selectivas se hacen para completar las recolecciones masivas, ya que recogen con mayor profundidad y frecuencia una muestra más pequeña de sitios web seleccionados por su relevancia para la historia, la sociedad y la cultura. Se realizan varias veces al año en colaboración con los centros de conservación de las comunidades autónomas y de otras instituciones especializadas. Estas recolecciones selectivas pueden ser de tres tipos:
    1. Temáticas: Cada Departamento de la Biblioteca Nacional y cada comunidad autónoma mantiene sus colecciones temáticas con los recursos en línea que consideren necesario conservar como parte del depósito legal. Por ejemplo: Música y Audiovisuales, Revistas electrónicas andaluzas, Instituciones de la Comunidad Valenciana, etc.
    2. De evento: sobre acontecimientos de especial relevancia.
    3. De emergencia, en el caso de sitios web en peligro de extinción.

Más información: Archivo de la web en BNE

DATOS Y FORMATOS DISPONIBLES:

 

Archivo de la web española
Recolecciones masivas: OpenWayBack HTML (*Sólo accesible en el edificio de la BNE)
Recolecciones temáticas CSV, JSON, ODS, TXT, XLS, XML
Recolecciones de eventos CSV, JSON, ODS, TXT, XLS, XML
Recolecciones de elecciones CSV, JSON, ODS, TXT, XLS, XML
Recolecciones de riesgo CSV, JSON, ODS, TXT, XLS, XML