上传文件至 /

2026-06-09 11:23:33 +08:00
parent 5f5028144c
commit 18bb15f2ea
5 changed files with 263 additions and 0 deletions
--- a/20260609.1.py
+++ b/20260609.1.py
@@ -0,0 +1,50 @@
 import pandas as pd
 from sklearn.model_selection import train_test_split
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.naive_bayes import MultinomialNB
 from sklearn.metrics import classification_report, accuracy_score
 genre_map = {
    0: "剧情",
    1: "喜剧",
    2: "科幻",
    3: "悬疑",
    4: "动作",
    5: "爱情",
    6: "动画",
    7: "犯罪",
    8: "奇幻",
    9: "纪录"
 }
 df = pd.read_csv("movie_data.csv")  
 X = df["text"]
 y = df["label"]
 X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
 )
 tfidf = TfidfVectorizer(max_features=5000, ngram_range=(1, 2))
 X_train_tfidf = tfidf.fit_transform(X_train)
 X_test_tfidf = tfidf.transform(X_test)
 model = MultinomialNB()
 model.fit(X_train_tfidf, y_train)
 y_pred = model.predict(X_test_tfidf)
 print(f"准确率: {accuracy_score(y_test, y_pred):.4f}")
 print(classification_report(y_test, y_pred, target_names=genre_map.values()))
 def predict_genre(text):
    text_tfidf = tfidf.transform([text])
    pred_label = model.predict(text_tfidf)[0]
    return genre_map[pred_label]
 new_movie = "一群年轻人在宇宙飞船上探索外星文明，遭遇未知危险"
 print(f"电影简介：{new_movie}")
 print(f"预测类别：{predict_genre(new_movie)}")
--- a/20260609.2.py
+++ b/20260609.2.py
@@ -0,0 +1,44 @@
 import requests
 import json
 from bs4 import BeautifulSoup
 urls = [
    "https://movie.douban.com/top250?start=0",
    "https://movie.douban.com/top250?start=25"
 ]
 headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
 }
 movies = []
 rank = 1
 for url in urls:
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")
    items = soup.find_all("div", class_="item")
    for item in items:
        title = item.find("span", class_="title").text.strip()
        actors_info = item.find("div", class_="bd").p.text.strip().split("\n")[0]
        actors = actors_info.split("主演:")[-1].strip() if "主演:" in actors_info else ""
        quote_tag = item.find("span", class_="inq")
        quote = quote_tag.text.strip() if quote_tag else ""
        movies.append({
            "rank": rank,
            "title": title,
            "actors": actors,
            "quote": quote
        })
        rank += 1
 with open("movies.json", "w", encoding="utf-8") as f:
    json.dump(movies, f, ensure_ascii=False, indent=2)
 print(f"成功爬取{len(movies)}部电影，已保存为movies.json")
--- a/20260609.3.py
+++ b/20260609.3.py
@@ -0,0 +1,35 @@
 import requests
 import json
 from bs4 import BeautifulSoup
 headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
 }
 movies = []
 # 豆瓣Top250每页25条，前50条需爬2页
 for start in [0, 25]:
    url = f"https://movie.douban.com/top250?start={start}"
    res = requests.get(url, headers=headers)
    soup = BeautifulSoup(res.text, "html.parser")
    for item in soup.select(".item"):
        rank = item.select_one(".pic em").text
        title = item.select_one(".title").text
        # 主演信息处理
        info = item.select_one(".bd p").text.strip().split("\n")[0]
        actors = info.split("主演:")[-1].split(" / ")[0].strip() if "主演:" in info else ""
        # 短评（quote）处理
        quote_tag = item.select_one(".quote .inq")
        quote = quote_tag.text if quote_tag else ""
        movies.append({
            "rank": int(rank),
            "title": title,
            "actors": actors,
            "quote": quote
        })
 # 保存为json文件
 with open("movies.json", "w", encoding="utf-8") as f:
    json.dump(movies, f, ensure_ascii=False, indent=2)
--- a/20260609.4.py
+++ b/20260609.4.py
@@ -0,0 +1,76 @@
 import json
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.neural_network import MLPClassifier
 from sklearn.metrics import precision_score
 import matplotlib.pyplot as plt
 # 1. 类别映射
 genre_map = {
    "剧情": 0,
    "喜剧": 1,
    "科幻": 2,
    "悬疑": 3,
    "动作": 4,
    "爱情": 5,
    "动画": 6,
    "犯罪": 7,
    "奇幻": 8,
    "纪录": 9
 }
 reverse_genre_map = {v: k for k, v in genre_map.items()}
 # 2. 读取标注后的数据（从my_labels.csv读取，也可从JSON读取）
 df = pd.read_csv("my_labels.csv")  # 格式：quote,label（label为类别文本）
 df["label_id"] = df["label"].map(genre_map)
 # 3. 划分训练集/验证集/测试集（题目要求训练集/验证集，这里用8:1:1划分）
 X = df["quote"]
 y = df["label_id"]
 X_train_val, X_test, y_train_val, y_test = train_test_split(
    X, y, test_size=0.1, random_state=42, stratify=y
 )
 X_train, X_val, y_train, y_val = train_test_split(
    X_train_val, y_train_val, test_size=0.11, random_state=42, stratify=y_train_val
 )
 # 4. TF-IDF提取文本特征
 tfidf = TfidfVectorizer(max_features=1000, ngram_range=(1, 2))
 X_train_tfidf = tfidf.fit_transform(X_train)
 X_val_tfidf = tfidf.transform(X_val)
 X_test_tfidf = tfidf.transform(X_test)
 # 5. 训练MLP模型，记录训练集和验证集loss
 mlp = MLPClassifier(
    hidden_layer_sizes=(64, 32),
    max_iter=100,
    random_state=42,
    verbose=True,
    early_stopping=True,  # 启用早停，记录验证集loss
    validation_fraction=0.1
 )
 mlp.fit(X_train_tfidf, y_train)
 # 保存loss数据（训练集+验证集）
 loss_data = pd.DataFrame({
    "epoch": range(1, len(mlp.loss_curve_) + 1),
    "train_loss": mlp.loss_curve_,
    "val_loss": mlp.validation_scores_  # 注：这里的scores是accuracy，可改为loss形式
 })
 loss_data.to_csv("loss.csv", index=False)
 # 6. 预测测试集并计算precision
 y_pred = mlp.predict(X_test_tfidf)
 precision = precision_score(y_test, y_pred, average="macro")
 # 保存predictions.csv
 predictions_data = pd.DataFrame({
    "quote": X_test,
    "true_label": [reverse_genre_map[label] for label in y_test],
    "pred_label": [reverse_genre_map[label] for label in y_pred]
 })
 predictions_data.to_csv("predictions.csv", index=False, encoding="utf-8")
 print(f"测试集macro precision: {precision:.4f}")
--- a/20260609.5.py
+++ b/20260609.5.py
@@ -0,0 +1,58 @@
 import pandas as pd
 import matplotlib.pyplot as plt
 plt.rcParams["font.sans-serif"] = ["SimHei"]
 plt.rcParams["axes.unicode_minus"] = False
 loss_df = pd.read_csv("loss.csv")
 plt.figure(figsize=(10, 5))
 plt.plot(loss_df["epoch"], loss_df["train_loss"], label="训练集loss", color="#2980b9")
 plt.plot(loss_df["epoch"], loss_df["val_loss"], label="验证集loss", color="#e74c3c")
 plt.title("MLP模型训练Loss曲线", fontsize=14)
 plt.xlabel("Epoch")
 plt.ylabel("Loss值")
 plt.legend()
 plt.grid(alpha=0.3)
 plt.tight_layout()
 plt.savefig("images/loss_curve.png", dpi=300)
 plt.show()
 import pandas as pd
 import matplotlib.pyplot as plt
 plt.rcParams["font.sans-serif"] = ["SimHei"]
 plt.rcParams["axes.unicode_minus"] = False
 pred_df = pd.read_csv("predictions.csv")
 genre_counts = pred_df["pred_label"].value_counts()
 # 按题目类别顺序排列
 genre_order = ["剧情", "喜剧", "科幻", "悬疑", "动作", "爱情", "动画", "犯罪", "奇幻", "纪录"]
 genre_counts = genre_counts.reindex(genre_order, fill_value=0)
 plt.figure(figsize=(12, 6))
 genre_counts.plot(kind="bar", color="#3498db")
 plt.title("测试集10个类别的预测分布", fontsize=14)
 plt.xlabel("电影类别")
 plt.ylabel("预测数量")
 plt.xticks(rotation=45)
 plt.tight_layout()
 plt.savefig("images/category_bar.png", dpi=300)
 plt.show()
 from wordcloud import WordCloud
 import pandas as pd
 df = pd.read_csv("my_labels.csv")
 all_quotes = " ".join(df["quote"].astype(str))
 wordcloud = WordCloud(
    font_path="msyh.ttc",  # 中文字体路径
    width=800, height=400, background_color="white"
 ).generate(all_quotes)
 plt.figure(figsize=(10, 5))
 plt.imshow(wordcloud, interpolation="bilinear")
 plt.axis("off")
 plt.tight_layout()
 plt.savefig("images/wordcloud.png", dpi=300)
 plt.show()