题目2 图像:本质是结构化的数字矩阵,每个像素用固定数值表示(如 RGB 值),计算、存储、运算都可以直接用矩阵操作完成,非常适配计算机的底层架构。 文本:是非结构化数据,需要先通过编码转换成数字,再进一步转换成向量 / 嵌入才能被计算处理,存在额外的转换成本,且表示方式不统一 题目3 1)A+B=[3+1,4+2]=[4,6] 2)2×A=[2×3,2×4]=[6,8] 3)∣A∣∣= 3 2 +4 2 ? = 9+16 ? = 25 ? =5 题目4 1)A?B=1×4+2×5+3×6=4+10+18=32 2)∣A∣∣= 1 2 +2 2 +3 2 ? = 14 ? ≈3.7417 ∣∣B∣∣= 4 2 +5 2 +6 2 ? = 77 ? ≈8.7750 cosθ= 14 ? × 77 ? 32 ? = 1078 ? 32 ? ≈0.9746 3)A?B=1×0+0×1=0 ∣∣A∣∣= 1 2 +0 2 ? =1 ∣∣B∣∣= 0 2 +1 2 ? =1 cosθ= 1×1 0 ? =0 这两个向量在二维平面上是互相垂直的,夹角为 90°,所以余弦值为 0,表示它们完全不相似。 题目5 词表是所有文档中出现过的不重复单词的集合: V={Python,?是,?编程,?语言,?Java} Doc1: Python(1 次), 是(1 次), 编程(1 次), 语言(1 次), Java(0 次) Doc1向量=[1,?1,?1,?1,?0] Doc2: Python(0 次), 是(1 次), 编程(1 次), 语言(1 次), Java(1 次) Doc2向量=[0,?1,?1,?1,?1] Doc3: Python(3 次), 是(0 次), 编程(0 次), 语言(0 次), Java(0 次) Doc3向量=[3,?0,?0,?0,?0] 题目6 BOW缺点说明:BoW 只统计词频,完全不考虑单词的顺序和上下文关系,无法区分 “我吃苹果” 和 “苹果吃我” 这类语序不同、语义完全相反的句子。 场景影响:在情感分析、文本理解、问答系统中,语序和上下文对语义至关重要,BoW 会导致模型无法理解文本的真实含义,严重影响任务效果。 缺点说明:BoW 把每个词当作独立的离散符号,无法体现 “Python” 和 “Java” 都是编程语言这种语义上的相似性,也无法处理同义词、多义词。 场景影响:在文本分类、信息检索中,会导致语义相似但用词不同的文本被判定为不相似,降低模型的泛化能力和检索召回率。