Python:
Baixando uma página da web
Como Fazer:
Para baixar uma página da web em Python, você pode usar a biblioteca requests
. Veja como:
import requests
# Endereço da página que você quer baixar
url = 'http://exemplo.com'
# Realiza um GET request
resposta = requests.get(url)
# Checa se o request foi bem-sucedido
if resposta.status_code == 200:
# Salva o conteúdo da página em um arquivo
with open('pagina.html', 'w', encoding='utf-8') as arquivo:
arquivo.write(resposta.text)
# Imprime o resultado
print('Página baixada!')
Saída esperada:
Página baixada!
Mergulho Profundo
Antes da biblioteca requests
, o módulo urllib
era comumente usado para tarefas relacionadas à internet. Porém, a requests
se tornou mais popular devido à sua simplicidade e facilidade de uso. Ela abstrai muitos detalhes de implementação, tornando o ato de fazer requests HTTP quase trivial.
Além de simples GET requests, requests
também permite fazer POST, PUT, DELETE e outros tipos de requests HTTP com a mesma facilidade. Ao baixar páginas, tenha em mente quesitos como respeito ao robots.txt
da página e leis de direitos autorais.
Uma alternativa ao requests
é utilizar o Selenium ou o Beautiful Soup se você precisar de mais controle sobre elementos dinâmicos da página ou quando precisar de parsing de HTML respectivamente.
Veja Também
- Documentação oficial do
requests
: https://docs.python-requests.org/en/latest/ - Módulo
urllib
: https://docs.python.org/3/library/urllib.html - Beautiful Soup para parsing de HTML: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- Selenium para navegação automatizada em páginas web: https://selenium-python.readthedocs.io/