El primer archivo de medios que la mayoría de los desarrolladores que empiezan a hacer web-scraping encuentran es un formato de archivo de imagen. Las imágenes pueden presentarse en una página web de muchas maneras, pero en general, se dan como simples enlaces basados en URL que son absolutos o relativos. Un enlace absoluto incluye todo lo que necesitamos para descargar el archivo y aparece en el código HTML de la siguiente manera:
1http://www.howtowebscrape.com/examples/images/test1.jpg
Un enlace relativo, por otra parte, normalmente sólo tiene el camino a la imagen, relativo a la página web que ha llamado, lo que a veces conduce a la confusión:
1examples/media/images/test1.jpg
Este enlace relativo es el mismo que el enlace absoluto, una vez que se añade de nuevo en la ruta del dominio principal que se utilizó para llamar a la página HTML que contenía la imagen relativa localizada:
1http://www.howtowebscrape.com/examples/media1.html
que contiene la etiqueta HTML:
1<img src="/media/images/test1.jpg"
En este caso, tomaremos la ruta principal de la que recibimos el HTML y la prepararemos para hacer el enlace completo correcto.
El siguiente diagrama ayuda a explicar el concepto visualmente:
Independientemente de cómo se nos presente la ruta de la imagen, necesitamos tener un enlace válido completo para poder descargar el archivo.