task-2-4-regular-expression/260402 2505155046.py

import requests
import re
import time

def crawl_douban_top250_regex_with_quote():
    base_url = "https://movie.douban.com/top250"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
    }

    movies = []

    for start in range(0, 250, 25):
        url = f"{base_url}?start={start}&filter="

        response = requests.get(url, headers=headers)
        html = response.text

        pattern = re.compile(
            r'<em class="">(\d+)</em>.+?'
            r'<span class="title">([^&]+?)</span>.+?'
            r'<span class="rating_num" property="v:average">(\d\.\d)</span>.+?'
            r'<p class="quote">(.+?)</p>',
            re.S
        )


        items = pattern.findall(html)

        for item in items:
            rank = item[0]
            title = item[1]
            rating = item[2]
            quote = item[3].strip()

            movies.append({
                "rank": rank,
                "title": title,
                "rating": rating,
                "quote": quote
            })


    return movies

if __name__ == "__main__":

    top250 = crawl_douban_top250_regex_with_quote()