Merge branch 'main' of https://gitea.detr.top/2509165001/task-2-1-data-collection

完成爬虫作业：豆瓣Top250 bs4+xpath两种方法
完成作业四：网络数据采集（爬虫基础）
2026-03-26 16:07:47 +08:00 · 2026-03-26 15:58:14 +08:00 · 2026-03-24 23:03:30 +08:00 · 2026-03-24 23:00:05 +08:00 · 2026-03-17 01:21:52 +08:00 · 2026-03-12 11:24:41 +08:00
5 changed files with 162 additions and 0 deletions
--- a/2.py
+++ b/2.py
@@ -0,0 +1,27 @@
 import requests
 from bs4 import BeautifulSoup as bs
 print('------------')
 url = 'https://www.baidu.com'
 params = {'key':'value'}
 response = requests.get(url,params=params)
 print(response.status_code)
 print('------------')
 html_content = response.text
 print(html_content) 
 print('------------')
 soup = bs(html_content,'lxml')
 print(soup)
 print('============')
 title = soup.find('title').string
 print(title)
 print('============')
 links = soup.find_all('a')
 print(links)
 print('============')
 for link in links:
   # print("11111111")
    print("链接:",link.get('href'))
 div_element = soup.select('div.di')
 print(div_element)
 for div in div_element:
    print('div:',div.text)
--- a/26.03.24_48.py
+++ b/26.03.24_48.py
@@ -0,0 +1,18 @@
 import requests
 from bs4 import BeautifulSoup
 header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}
 url = 'https://www.douban.com/doulist/3936288/'
 response = requests.get(url,headers=header,timeout=10)
 response.encoding='utf-8'
 print(response.status_code)
 soup=BeautifulSoup(response.text,'html.parser')
 movies=[]
 for a in soup.find_all('a'):
    print(a)
    href=a.get('href','')
    if '/subject' in href:
        title = a.get_text(strip=True)
        print(title)
        movies.append(title)
 print('----------')
 print(movies)
--- a/douban_bs4.py.txt
+++ b/douban_bs4.py.txt
@@ -0,0 +1,58 @@
 import requests
 from bs4 import BeautifulSoup
 import csv
 import time
 import random
 # ģ<><C4A3><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>
 headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
 }
 movie_list = []
 # <20><>ȡ 10 ҳ<><D2B3>һ<EFBFBD><D2BB> 250 <20><><EFBFBD><EFBFBD>Ӱ
 for page in range(10):
    start = page * 25
    url = f'https://movie.douban.com/top250?start={start}&filter='
    print(f'<27><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>ȡ<EFBFBD><C8A1> {page+1} ҳ...')
    # <20><><EFBFBD><EFBFBD><EFBFBD>ӳ٣<D3B3><D9A3><EFBFBD>ֹ<EFBFBD><D6B9><EFBFBD><EFBFBD>
    time.sleep(random.uniform(0.5, 1.5))
    try:
        # 1. <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>ȡ<EFBFBD><C8A1>ҳ
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        # 2. <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>ҳ
        soup = BeautifulSoup(response.text, 'lxml')
        items = soup.select('.item')
        # 3. <20><>ȡÿ<C8A1><C3BF><EFBFBD><EFBFBD>Ӱ<EFBFBD><D3B0>Ϣ
        for item in items:
            rank = item.select_one('.pic em').text  # <20><><EFBFBD><EFBFBD>
            title = item.select_one('.hd .title').text  # <20><>Ӱ<EFBFBD><D3B0>
            score = item.select_one('.rating_num').text  # <20><><EFBFBD><EFBFBD>
            quote = item.select_one('.inq').text if item.select_one('.inq') else "<22><>"
            info = item.select_one('.bd p').text.strip()  # <20><><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD><EFBFBD>
            movie = {
                "<22><><EFBFBD><EFBFBD>": rank,
                "<22><>Ӱ<EFBFBD><D3B0>": title,
                "<22><><EFBFBD><EFBFBD>": score,
                "<22><><EFBFBD><EFBFBD>": quote,
                "<22><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>Ϣ": info
            }
            movie_list.append(movie)
    except Exception as e:
        print(f"<22><> {page+1} ҳ<><D2B3>ȡʧ<C8A1>ܣ<EFBFBD>{e}")
 # 4. <20><><EFBFBD><EFBFBD>Ϊ CSV <20>ļ<EFBFBD>
 with open("douban_top250_bs4.csv", "w", encoding="utf-8-sig", newline="") as f:
    writer = csv.DictWriter(f, fieldnames=["<22><><EFBFBD><EFBFBD>", "<22><>Ӱ<EFBFBD><D3B0>", "<22><><EFBFBD><EFBFBD>", "<22><><EFBFBD><EFBFBD>", "<22><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>Ϣ"])
    writer.writeheader()
    writer.writerows(movie_list)
 print(f"? <20><>ȡ<EFBFBD><C8A1><EFBFBD>ɣ<EFBFBD><C9A3><EFBFBD> {len(movie_list)} <20><><EFBFBD><EFBFBD><EFBFBD>ݣ<EFBFBD><DDA3>ѱ<EFBFBD><D1B1>浽 douban_top250_bs4.csv")
--- a/douban_xpath.py.txt
+++ b/douban_xpath.py.txt
@@ -0,0 +1,50 @@
 import requests
 from lxml import etree
 import csv
 import time
 import random
 headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
 }
 movie_list = []
 for page in range(10):
    start = page * 25
    url = f'https://movie.douban.com/top250?start={start}&filter='
    print(f'<27><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>ȡ<EFBFBD><C8A1> {page+1} ҳ...')
    time.sleep(random.uniform(0.5, 1.5))
    try:
        response = requests.get(url, headers=headers, timeout=10)
        tree = etree.HTML(response.text)
        items = tree.xpath('//div[@class="item"]')
        for item in items:
            rank = item.xpath('.//em/text()')[0]
            title = item.xpath('.//span[@class="title"][1]/text()')[0]
            score = item.xpath('.//span[@class="rating_num"]/text()')[0]
            quote = item.xpath('.//span[@class="inq"]/text()')
            quote = quote[0] if quote else "<22><>"
            info = item.xpath('.//div[@class="bd"]/p[1]/text()')[0].strip()
            movie = {
                "<22><><EFBFBD><EFBFBD>": rank,
                "<22><>Ӱ<EFBFBD><D3B0>": title,
                "<22><><EFBFBD><EFBFBD>": score,
                "<22><><EFBFBD><EFBFBD>": quote,
                "<22><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>Ϣ": info
            }
            movie_list.append(movie)
    except Exception as e:
        print(f"<22><> {page+1} ҳ<><D2B3>ȡʧ<C8A1>ܣ<EFBFBD>{e}")
 with open("douban_top250_xpath.csv", "w", encoding="utf-8-sig", newline="") as f:
    writer = csv.DictWriter(f, fieldnames=["<22><><EFBFBD><EFBFBD>", "<22><>Ӱ<EFBFBD><D3B0>", "<22><><EFBFBD><EFBFBD>", "<22><><EFBFBD><EFBFBD>", "<22><><EFBFBD><EFBFBD><EFBFBD><EFBFBD>Ϣ"])
    writer.writeheader()
    writer.writerows(movie_list)
 print(f"? <20><>ȡ<EFBFBD><C8A1><EFBFBD>ɣ<EFBFBD><C9A3><EFBFBD> {len(movie_list)} <20><><EFBFBD><EFBFBD><EFBFBD>ݣ<EFBFBD><DDA3>ѱ<EFBFBD><D1B1>浽 douban_top250_xpath.csv")
--- a/requests.py
+++ b/requests.py
@@ -0,0 +1,9 @@
 import requests
 url = 'https://douyin.com'
 params = {'key':'value'}
 response = requests.get(url,params=params)
 if response.status_code == 200:
    html_content = response.text
    print("请求成功，获取到HTML内容")
 else:
    print(f"请求失败，状态码:{response.status_code}")
Author	SHA1	Message	Date
2509165046	4bd9d42ae3	Merge branch 'main' of https://gitea.detr.top/2509165001/task-2-1-data-collection	2026-03-26 16:07:47 +08:00
2509165046	cc2b8096f4	完成爬虫作业：豆瓣Top250 bs4+xpath两种方法	2026-03-26 15:58:14 +08:00
2509165048	82e2af26a5	完成作业四：网络数据采集（爬虫基础）	2026-03-24 23:03:30 +08:00
2509165048	dc174b313e	完成作业三：完成作业二：网络数据采集（爬虫基础）	2026-03-24 23:00:05 +08:00
2509165048	3d7d3eed00	完成作业二：网络数据采集（爬虫基础）	2026-03-17 01:21:52 +08:00
gitea_eternal	14787e562d	添加数据爬取学习材料	2026-03-12 11:24:41 +08:00