Files
task-3-2-1-Text-Processing-…/题目2.3.4.5.6.txt
2026-04-21 11:26:23 +08:00

108 lines
1.6 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

题目2
图像:本质是结构化的数字矩阵,每个像素用固定数值表示(如 RGB 值),计算、存储、运算都可以直接用矩阵操作完成,非常适配计算机的底层架构。
文本:是非结构化数据,需要先通过编码转换成数字,再进一步转换成向量 / 嵌入才能被计算处理,存在额外的转换成本,且表示方式不统一
题目3
1A+B=[3+1,4+2]=[4,6]
22×A=[2×3,2×4]=[6,8]
3A=
3
2
+4
2
?
=
9+16
?
=
25
?
=5
题目4
1A?B=1×4+2×5+3×6=4+10+18=32
2A=
1
2
+2
2
+3
2
?
=
14
?
≈3.7417
B=
4
2
+5
2
+6
2
?
=
77
?
≈8.7750
cosθ=
14
?
×
77
?
32
?
=
1078
?
32
?
≈0.9746
3A?B=1×0+0×1=0
A=
1
2
+0
2
?
=1
B=
0
2
+1
2
?
=1
cosθ=
1×1
0
?
=0
这两个向量在二维平面上是互相垂直的,夹角为 90°所以余弦值为 0表示它们完全不相似。
题目5
词表是所有文档中出现过的不重复单词的集合:
V={Python,?是,?编程,?语言,?Java}
Doc1: Python(1 次), 是(1 次), 编程(1 次), 语言(1 次), Java(0 次)
Doc1向量=[1,?1,?1,?1,?0]
Doc2: Python(0 次), 是(1 次), 编程(1 次), 语言(1 次), Java(1 次)
Doc2向量=[0,?1,?1,?1,?1]
Doc3: Python(3 次), 是(0 次), 编程(0 次), 语言(0 次), Java(0 次)
Doc3向量=[3,?0,?0,?0,?0]
题目6
BOW缺点说明BoW 只统计词频,完全不考虑单词的顺序和上下文关系,无法区分 “我吃苹果” 和 “苹果吃我” 这类语序不同、语义完全相反的句子。
场景影响在情感分析、文本理解、问答系统中语序和上下文对语义至关重要BoW 会导致模型无法理解文本的真实含义,严重影响任务效果。
缺点说明BoW 把每个词当作独立的离散符号,无法体现 “Python” 和 “Java” 都是编程语言这种语义上的相似性,也无法处理同义词、多义词。
场景影响:在文本分类、信息检索中,会导致语义相似但用词不同的文本被判定为不相似,降低模型的泛化能力和检索召回率。