108 lines
1.6 KiB
Plaintext
108 lines
1.6 KiB
Plaintext
题目2
|
||
图像:本质是结构化的数字矩阵,每个像素用固定数值表示(如 RGB 值),计算、存储、运算都可以直接用矩阵操作完成,非常适配计算机的底层架构。
|
||
|
||
文本:是非结构化数据,需要先通过编码转换成数字,再进一步转换成向量 / 嵌入才能被计算处理,存在额外的转换成本,且表示方式不统一
|
||
题目3
|
||
1)A+B=[3+1,4+2]=[4,6]
|
||
2)2×A=[2×3,2×4]=[6,8]
|
||
3)∣A∣∣=
|
||
3
|
||
2
|
||
+4
|
||
2
|
||
|
||
?
|
||
=
|
||
9+16
|
||
?
|
||
=
|
||
25
|
||
?
|
||
=5
|
||
题目4
|
||
1)A?B=1×4+2×5+3×6=4+10+18=32
|
||
2)∣A∣∣=
|
||
1
|
||
2
|
||
+2
|
||
2
|
||
+3
|
||
2
|
||
|
||
?
|
||
=
|
||
14
|
||
?
|
||
≈3.7417
|
||
∣∣B∣∣=
|
||
4
|
||
2
|
||
+5
|
||
2
|
||
+6
|
||
2
|
||
|
||
?
|
||
=
|
||
77
|
||
?
|
||
≈8.7750
|
||
cosθ=
|
||
14
|
||
?
|
||
×
|
||
77
|
||
?
|
||
|
||
32
|
||
?
|
||
=
|
||
1078
|
||
?
|
||
|
||
32
|
||
?
|
||
≈0.9746
|
||
3)A?B=1×0+0×1=0
|
||
∣∣A∣∣=
|
||
1
|
||
2
|
||
+0
|
||
2
|
||
|
||
?
|
||
=1
|
||
∣∣B∣∣=
|
||
0
|
||
2
|
||
+1
|
||
2
|
||
|
||
?
|
||
=1
|
||
cosθ=
|
||
1×1
|
||
0
|
||
?
|
||
=0
|
||
|
||
这两个向量在二维平面上是互相垂直的,夹角为 90°,所以余弦值为 0,表示它们完全不相似。
|
||
题目5
|
||
词表是所有文档中出现过的不重复单词的集合:
|
||
V={Python,?是,?编程,?语言,?Java}
|
||
|
||
Doc1: Python(1 次), 是(1 次), 编程(1 次), 语言(1 次), Java(0 次)
|
||
Doc1向量=[1,?1,?1,?1,?0]
|
||
Doc2: Python(0 次), 是(1 次), 编程(1 次), 语言(1 次), Java(1 次)
|
||
Doc2向量=[0,?1,?1,?1,?1]
|
||
Doc3: Python(3 次), 是(0 次), 编程(0 次), 语言(0 次), Java(0 次)
|
||
Doc3向量=[3,?0,?0,?0,?0]
|
||
题目6
|
||
BOW缺点说明:BoW 只统计词频,完全不考虑单词的顺序和上下文关系,无法区分 “我吃苹果” 和 “苹果吃我” 这类语序不同、语义完全相反的句子。
|
||
|
||
场景影响:在情感分析、文本理解、问答系统中,语序和上下文对语义至关重要,BoW 会导致模型无法理解文本的真实含义,严重影响任务效果。
|
||
|
||
|
||
缺点说明:BoW 把每个词当作独立的离散符号,无法体现 “Python” 和 “Java” 都是编程语言这种语义上的相似性,也无法处理同义词、多义词。
|
||
|
||
场景影响:在文本分类、信息检索中,会导致语义相似但用词不同的文本被判定为不相似,降低模型的泛化能力和检索召回率。 |