36 lines
1.4 KiB
Python
36 lines
1.4 KiB
Python
图像分类:整张图片 → 1个标签
|
||
┌─────────────────┐
|
||
│ 🐱 │ → 猫
|
||
│ │
|
||
└─────────────────┘
|
||
|
||
目标检测:图片中 → 多个目标框
|
||
┌─────────────────┐
|
||
│ [🐱] [🐕] │ → 猫、狗
|
||
│ [🏠] │ → 房子
|
||
└─────────────────┘
|
||
|
||
语义分割:每个像素 → 类别
|
||
┌─────────────────┐
|
||
│ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓ │
|
||
│ ▓▓地面▓▓天空▓▓▓ │ → 不同颜色代表不同类别
|
||
│ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓ │
|
||
└─────────────────┘
|
||
文本分类:
|
||
"这部电影太精彩了!" → 正面情感
|
||
|
||
命名实体识别(NER):
|
||
"张伟毕业于清华大学" → 人名:张伟,机构:清华大学
|
||
|
||
意图识别:
|
||
"帮我查一下明天北京的天气" → 意图:查询天气,地点:北京,时间:明天
|
||
语音转写:
|
||
🔊 "今天天气怎么样" → 文字:今天天气怎么样,时间戳:0s-2s
|
||
|
||
说话人分离:
|
||
🔊 [Speaker A]: 明天要开会吗?
|
||
🔊 [Speaker B]: 是的,下午三点。
|
||
→ 每段话标注说话人身份
|
||
|
||
音频分类:
|
||
🔊 🔇 🔊 → 环境声:关门声,人声:说话声,音乐:背景音乐 |