上传文件至 /

2026-06-09 11:24:34 +08:00
parent b1698ecc3e
commit 5c02d05021
4 changed files with 166 additions and 0 deletions
--- a/1.py
+++ b/1.py
@@ -0,0 +1,65 @@
 import warnings
 warnings.filterwarnings("ignore", category=DeprecationWarning)
 warnings.filterwarnings("ignore", category=UserWarning)
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.svm import LinearSVC
 from sklearn.metrics import accuracy_score, classification_report
 genre_dict = {
    0: "剧情",
    1: "喜剧",
    2: "科幻",
    3: "悬疑",
    4: "动作",
    5: "爱情",
    6: "动画",
    7: "犯罪",
    8: "奇幻",
    9: "纪录"
 }
 num_classes = len(genre_dict)
 def load_data(file_path="movie_data.csv"):
    df = pd.read_csv(file_path)
    texts = df["text"].astype(str).tolist()
    labels = df["label"].astype(int).tolist()
    return texts, labels
 def text_feature_extraction(texts):
    vectorizer = TfidfVectorizer(
        max_features=10000,
        stop_words="english",
        ngram_range=(1, 2)
    )
    features = vectorizer.fit_transform(texts)
    return features, vectorizer
 def train_and_evaluate(features, labels):
    X_train, X_test, y_train, y_test = train_test_split(
        features, labels, test_size=0.2, random_state=42, stratify=labels
    )
    model = LinearSVC(random_state=42, max_iter=10000)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    print(f"测试集准确率: {acc:.4f}")
    print("\n分类报告:")
    print(classification_report(y_test, y_pred, target_names=genre_dict.values()))
    return model
 def predict_genre(model, vectorizer, new_text):
    new_feature = vectorizer.transform([new_text])
    pred_label = model.predict(new_feature)[0]
    return genre_dict[pred_label]
 if __name__ == "__main__":
    texts, labels = load_data()
    features, vectorizer = text_feature_extraction(texts)
    model = train_and_evaluate(features, labels)
    sample_text = "一个孤独的科学家发明了时间机器，却在穿梭时空的过程中陷入了悖论..."
    print(f"\n示例文本: {sample_text}")
    print(f"预测类型: {predict_genre(model, vectorizer, sample_text)}")
--- a/2.py
+++ b/2.py
@@ -0,0 +1,43 @@
 import requests
 from bs4 import BeautifulSoup
 import json
 import time
 headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
 }
 movies = []
 # 豆瓣Top250每页25条，前50条需要爬取2页（start=0和start=25）
 for page in range(2):
    url = f"https://movie.douban.com/top250?start={page*25}"
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")
    items = soup.find_all("div", class_="item")
    for idx, item in enumerate(items):
        rank = page * 25 + idx + 1
        # 电影名称
        title = item.find("span", class_="title").text.strip()
        # 主演信息
        info = item.find("div", class_="bd").find("p", class_="").text.strip()
        actors = info.split("\n")[0].split("主演:")[-1].strip() if "主演:" in info else "未知"
        # 短评
        quote_tag = item.find("span", class_="inq")
        quote = quote_tag.text.strip() if quote_tag else "无短评"
        movies.append({
            "rank": rank,
            "title": title,
            "actors": actors,
            "quote": quote
        })
    # 礼貌间隔，避免被反爬
    time.sleep(1)
 # 保存为movies.json
 with open("movies.json", "w", encoding="utf-8") as f:
    json.dump(movies, f, ensure_ascii=False, indent=2)
 print("爬取完成，数据已保存到 movies.json")
--- a/3.py
+++ b/3.py
@@ -0,0 +1,32 @@
 import requests
 from bs4 import BeautifulSoup
 import csv
 import time
 # 1. 发送请求
 url = 'https://movie.douban.com/top250'
 headers = {'User-Agent': 'Mozilla/5.0...'}
 response = requests.get(url, headers=headers)
 # 2. 解析数据
 soup = BeautifulSoup(response.text, 'lxml')
 movies = []
 for item in soup.select('.item'):
    title = item.select_one('.title').get_text()
    rating = item.select_one('.rating_num').get_text()
    quote = item.select_one('.inq').get_text() if item.select_one('.inq') else ''
    movies.append({
        'title': title.strip(),
        'rating': rating,
        'quote': quote
    })
 # 3. 保存为CSV
 with open('movies.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['title', 'rating', 'quote'])
    writer.writeheader()
    writer.writerows(movies)
 print(f'已保存 {len(movies)} 部电影到 movies.csv')
--- a/movies.csv
+++ b/movies.csv
@@ -0,0 +1,26 @@
 title,rating,quote
 肖申克的救赎,9.7,
 霸王别姬,9.6,
 泰坦尼克号,9.5,
 阿甘正传,9.5,
 千与千寻,9.4,
 美丽人生,9.5,
 星际穿越,9.4,
 这个杀手不太冷,9.4,
 盗梦空间,9.4,
 楚门的世界,9.4,
 辛德勒的名单,9.5,
 忠犬八公的故事,9.4,
 海上钢琴师,9.3,
 疯狂动物城,9.3,
 三傻大闹宝莱坞,9.2,
 机器人总动员,9.3,
 放牛班的春天,9.3,
 无间道,9.3,
 控方证人,9.6,
 寻梦环游记,9.1,
 大话西游之大圣娶亲,9.2,
 熔炉,9.3,
 触不可及,9.3,
 教父,9.3,
 末代皇帝,9.3,