ウェブページのダウンロード

Python:
ウェブページのダウンロード

How to: (方法)

import requests

# ウェブページのURL
url = 'http://example.com'

# リクエストを送り、レスポンスを取得
response = requests.get(url)

# ウェブページの内容を確認
content = response.text

print(content)  # ターミナルに出力する、または必要ならファイルに保存する

サンプル出力:

<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    ...
</head>
<body>
    <div>
        <h1>Example Domain</h1>
        <p>This domain is for use in illustrative examples in documents...</p>
        ...
    </div>
</body>
</html>

Deep Dive (詳細情報)

ウェブページのダウンロードは古くから行われている。様々な方法があるけど、代表的なのはrequestsライブラリを使う方法だ。urllibのような古いライブラリと比べ、requestsはシンプルで扱いやすい。

イレギュラーなケースには、sessionオブジェクトを使って状態を保持したり、エラーハンドリングのためにtry-exceptブロックを使うなど工夫が必要。

ウェブスクレイピングの法的側面にも注意。ダウンロードは公開データに限るべきで、サーバに負担をかけないように配慮しなくてはならない。

See Also (関連情報)

これらのリンクで、もっと学べる。ウェブページを正しく、責任を持って扱おう。