图像分类：整张图片 → 1个标签
┌─────────────────┐
│    🐱           │ → 猫
│                 │
└─────────────────┘

目标检测：图片中 → 多个目标框
┌─────────────────┐
│  [🐱]    [🐕]   │ → 猫、狗
│       [🏠]      │ → 房子
└─────────────────┘

语义分割：每个像素 → 类别
┌─────────────────┐
│ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓ │
│ ▓▓地面▓▓天空▓▓▓ │ → 不同颜色代表不同类别
│ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓ │
└─────────────────┘
文本分类：
"这部电影太精彩了！" → 正面情感

命名实体识别（NER）：
"张伟毕业于清华大学" → 人名:张伟，机构:清华大学

意图识别：
"帮我查一下明天北京的天气" → 意图:查询天气，地点:北京，时间:明天
语音转写：
🔊 "今天天气怎么样" → 文字:今天天气怎么样，时间戳:0s-2s

说话人分离：
🔊 [Speaker A]: 明天要开会吗？
🔊 [Speaker B]: 是的，下午三点。
→ 每段话标注说话人身份

音频分类：
🔊 🔇 🔊 → 环境声:关门声，人声:说话声，音乐:背景音乐