En esta guía, rasparemos los datos de un artículo arbitrario de Wikipedia sobre la película Vengadores: Endgame . Usaremos la dirección URL de la página web. (URL es un acrónimo de Universal Resource Locator ).
La dirección web de la URL tiene dos componentes que juntos especifican la dirección web completamente.
- Identificador de protocolo: denotado por http:
- Nombre del recurso: denotado por en.wikipedia.org/wiki/Avengers:_Endgame en este caso
La primera línea de código de abajo especifica la URL de la página de Wikipedia de la película y la almacena en la url variable. La segunda línea empaqueta y envía la petición y captura la respuesta con la función requests.get(). Almacenamos la respuesta a la variable req1.
123url ="https://en.wikipedia.org/wiki/Avengers:_Endgame "req1 = requests.get(url)
pitón
La misma tarea también se puede hacer con una sola línea de código:
req1 = requests.get($0027https://en.wikipedia.org/wiki/Avengers:_Endgame$0027)
Podemos ver el contenido del objeto creado arriba usando el código de abajo.
1req1.content
pitón
Salida:
1b$0027<!DOCTYPE html.; lang="en" dir="ltr"> < Podemos examinar el encabezado de la página web usando el código que aparece a continuación.1req1.headerspitón
Salida:
1{$0027Fecha$0027: $0027Vie, 31 Ene 2020 20:13:29 GMT$0027, $0027Content-Type$0027: $0027text/html; charset=UTF-8$0027, $0027Server$0027: $0027mw1262.eqiad.wmnet$0027, $0027X-Powered-By$0027: $0027PHP/7.2.26-1+0~20191218.33+debian9~1.gbpb5a340+wmf1$0027, $0027X-Content-Type-Options$0027: $0027nosniff$0027, $0027P3P$0027: $0027CP="Ver https://en.wikipedia.org/wiki/Special:CentralAutoLogin/P3P para más información. ", $0027Content-language$0027: $0027en$0027, $0027Vary$0027: $0027Accept-Encoding,Cookie,Authorization$0027, $0027Content-Encoding$0027: $0027gzip$0027, $0027Last-Modified$0027: $0027Fri, 31 Jan 2020 20:09:01 GMT$0027, $0027Backend-Timing$0027: $0027D=211902 t=1580501608833754$0027, $0027X-ATS-Timestamp$0027: 1580501609$0027, $0027X-Varnish$0027: $0027569435268 464972321$0027, $0027Age$0027: $002739789$0027, $0027X-Cache$0027: $0027cp2004 miss, cp2010 hit/166$0027, $0027X-Cache-Status$0027: $0027hit-front$0027, $0027Server-Timing$0027: $0027cache;desc="hit-front"$0027, $0027Strict-Transport-Security$0027: max-age=106384710; includeSubDomains; preload$0027, $0027Set-Cookie$0027: $0027WMF-Last-Access=01-Feb-2020;Path=/;HttpOnly;secure;Expires=Wed, 04 Mar 2020 00:00:00 GMT, WMF-Last-Access-Global=01-Feb-2020;Path=/;Domain=. wikipedia.org;HttpOnly;secure;Expires=Wed, 04 Mar 2020 00:00:00 GMT, GeoIP=US:TX:San_Antonio:29. 42:-98.49:v4; Path=/; secure; Domain=.wikipedia.org$0027, $0027X-Client-IP$0027: $002713.84.209.100$0027, $0027Cache-Control$0027: $0027private, s-maxage=0, max-age=0, must-revalidate$0027, $0027Accept-Ranges$0027: $0027bytes$0027, $0027Content-Length$0027: $0027110083$0027, $0027Connection$0027: $0027keep-alive$0027}También podemos extraer la respuesta usando el atributo de texto del objeto usando la primera línea de código de abajo. Esto devuelve el contenido HTML de la página web que almacenamos en la variable text_object. La segunda línea imprime el contenido del objeto text.
123 objeto_de_texto = req1.textprint(objeto_de_texto)pitón
Salida:
12345678<!DOCTYPE html;<html lang="en" dir="ltr"<head;<meta charset="UTF-8"/;title="Avengers": Endgame - Wikipedia</título|||documento.documentElement.className="client-js";RLCONF={"wgBreakFrames":! 1, "wgSeparatorTransformTable":["",""], "wgDigitTransformTable":["",""], "wgDefaultDateFormat": "dmy", "wgMonthNames": ["", "enero", "febrero", "marzo", "abril", "mayo", "junio", "julio", "agosto", "septiembre", "octubre", "noviembre", "diciembre"], "wgNombresDeMesCorto": ["", "Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Sep", "Octubre", "Noviembre", "Diciembre"], "wgSolicitud": "XjSKaApAADkAAIpdQNsAAAEX", "wgCSPNonce":! 1, "wgCanonicalNamespace":"", "wgCanonicalSpecialPageName":!1, "wgNamespaceNumber":0, "wgPageName": "Avengers:_Endgame", "wgTitle": "Avengers: Endgame", "wgCurRevisionId":938381569, "wgRevisionId":938381569, "wgArticleId":44254295, "wgIsArticle":!0, "wgIsRedirect":! 1, "wgAction": "view", "wgUserName":null, "wgUserGroups":["*"], "wgCategories": ["CS1 usa escritura en ruso (ru)", "CS1 fuentes en ruso (ru)", "Páginas de Wikipedia semiprotegidas contra el vandalismo", "Artículos con descripción corta", "Usar el inglés americano a partir de octubre de 2019", "Todos los artículos de Wikipedia escritos en inglés americano", "Use mdy dates from January 2020", "Use list-defined references from October 2019", "Pages using multiple image with manual scaled images", "Articles with Encyclopædia Britannica links", "Comics navigational boxes purge", "Películas 2019", "Películas en inglés", "Películas de acción de ciencia ficción 2010", "Películas de secuelas 2010", "Películas de superhéroes 2010", "Películas 2019 en 3D", "Invasiones alienígenas en las películas", "Películas de línea de tiempo alternativa", "Películas americanas en 3D", "Películas americanas", "Películas de acción de ciencia ficción americana", "Películas de secuelas americanas", "Vengadores (serie de películas)", "Películas de cruce", "Películas sobre la vida extraterrestre", "Películas sobre la mecánica cuántica", "Películas sobre el cambio de tamaño", "Películas sobre el viaje en el tiempo", "Películas dirigidas por Anthony y Joe Russo", "Películas con personajes antropomórficos", "Películas con música de Alan Silvestri", "Películas ambientadas en 1970", "Películas ambientadas en 2012", "Películas ambientadas en 2013", "Películas ambientadas en 2014", "Películas ambientadas en 2018", "Películas ambientadas en 2023", "Películas ambientadas en Nueva Jersey", "Películas ambientadas en Nueva York (estado)", "Películas ambientadas en la ciudad de Nueva York", "Películas ambientadas en Noruega", "Películas ambientadas en San Francisco", "Películas ambientadas en Tokio", "Películas ambientadas en Wakanda", "Películas ambientadas en África", "Películas ambientadas en el decenio de 1940", "Películas ambientadas en planetas ficticios", "Películas filmadas en los estudios Pinewood Atlanta", "Películas filmadas en Atlanta", "Películas filmadas en County Durham", "Películas filmadas en Nueva York (estado)", "Películas filmadas en Escocia", "Películas que utilizan imágenes generadas por computadora", "Películas con guión de Christopher Markus", "Películas IMAX", "Viajes intergalácticos en la ficción", "Películas del universo cinematográfico Marvel", "Captura de movimiento en el cine", "Nanotecnología en la ficción", "Películas post-apocalípticas", "Películas secuenciales"], "wgPageContentLanguage": "es", "wgPageContentModel": "wikitext", "wgNombreDePáginaRelevante": "Avengers:_Endgame", "wgArtículoRelevanteId":44254295, "wgIsProbablementeEditable":! 1, "wgRelevantPageIsProbablyEditable":!1, "wgRestrictionEdit":["autoconfirmado"], "wgRestrictionMove":["extendedconfirmed"], "wgMediaViewerOnClick":!0,