图像分类:整张图片 → 1个标签 ┌─────────────────┐ │ 🐱 │ → 猫 │ │ └─────────────────┘ 目标检测:图片中 → 多个目标框 ┌─────────────────┐ │ [🐱] [🐕] │ → 猫、狗 │ [🏠] │ → 房子 └─────────────────┘ 语义分割:每个像素 → 类别 ┌─────────────────┐ │ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓ │ │ ▓▓地面▓▓天空▓▓▓ │ → 不同颜色代表不同类别 │ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓ │ └─────────────────┘ 文本分类: "这部电影太精彩了!" → 正面情感 命名实体识别(NER): "张伟毕业于清华大学" → 人名:张伟,机构:清华大学 意图识别: "帮我查一下明天北京的天气" → 意图:查询天气,地点:北京,时间:明天 语音转写: 🔊 "今天天气怎么样" → 文字:今天天气怎么样,时间戳:0s-2s 说话人分离: 🔊 [Speaker A]: 明天要开会吗? 🔊 [Speaker B]: 是的,下午三点。 → 每段话标注说话人身份 音频分类: 🔊 🔇 🔊 → 环境声:关门声,人声:说话声,音乐:背景音乐