task-3-2-1-Text-Processing-…/题目2.3.4.5.6.txt

题目2
图像：本质是结构化的数字矩阵，每个像素用固定数值表示（如 RGB 值），计算、存储、运算都可以直接用矩阵操作完成，非常适配计算机的底层架构。

文本：是非结构化数据，需要先通过编码转换成数字，再进一步转换成向量 / 嵌入才能被计算处理，存在额外的转换成本，且表示方式不统一
题目3
1）A+B=[3+1,4+2]=[4,6]
2）2×A=[2×3,2×4]=[6,8]
3）∣A∣∣=
3
2
 +4
2

?
 =
9+16
?
 =
25
?
 =5
题目4
1）A?B=1×4+2×5+3×6=4+10+18=32
2）∣A∣∣=
1
2
 +2
2
 +3
2

?
 =
14
?
 ≈3.7417
∣∣B∣∣=
4
2
 +5
2
 +6
2

?
 =
77
?
 ≈8.7750
cosθ=
14
?
 ×
77
?

32
?
 =
1078
?

32
?
 ≈0.9746
3）A?B=1×0+0×1=0
∣∣A∣∣=
1
2
 +0
2

?
 =1
∣∣B∣∣=
0
2
 +1
2

?
 =1
cosθ=
1×1
0
?
 =0

这两个向量在二维平面上是互相垂直的，夹角为 90°，所以余弦值为 0，表示它们完全不相似。
题目5
词表是所有文档中出现过的不重复单词的集合：
V={Python,?是,?编程,?语言,?Java}

Doc1: Python(1 次), 是(1 次), 编程(1 次), 语言(1 次), Java(0 次)
Doc1向量=[1,?1,?1,?1,?0]
Doc2: Python(0 次), 是(1 次), 编程(1 次), 语言(1 次), Java(1 次)
Doc2向量=[0,?1,?1,?1,?1]
Doc3: Python(3 次), 是(0 次), 编程(0 次), 语言(0 次), Java(0 次)
Doc3向量=[3,?0,?0,?0,?0]
题目6
BOW缺点说明：BoW 只统计词频，完全不考虑单词的顺序和上下文关系，无法区分 “我吃苹果” 和 “苹果吃我” 这类语序不同、语义完全相反的句子。

场景影响：在情感分析、文本理解、问答系统中，语序和上下文对语义至关重要，BoW 会导致模型无法理解文本的真实含义，严重影响任务效果。


缺点说明：BoW 把每个词当作独立的离散符号，无法体现 “Python” 和 “Java” 都是编程语言这种语义上的相似性，也无法处理同义词、多义词。

场景影响：在文本分类、信息检索中，会导致语义相似但用词不同的文本被判定为不相似，降低模型的泛化能力和检索召回率。