结合CSDN测试结果,注释员使用 SAM 交互式地注释图像,然后新注释的数据反过来用于更新 SAM,彼此相互作用,重复执行此循环来改善模型和数据集:
1)先用开源数据集训练一个小模型
2)标注员用训好的模型辅助标注,优先标好标的。如果图中一个instance开始花费超过30s就可以跳下一张图了
3)用新增的label在大模型上重新训练,并重复第2步。随着模型能力增强,之前难标的会逐渐变成好标的
4)第3步迭代6次后,开始攻克剩余所有困难的instance。先用模型把容易的instance都mask掉,剩下的人工标注了
06
计算机视觉领域的AI平权,视频/图像数据卡位者价值重构
SAM本质大幅降低了图像识别的技术门槛,一是不再需要此前需要大量数据标注训练的门槛,二是开源后使得没有计算机视觉技术积累的公司也能轻易拥有最强大最通用的图像数据结构化理解能力,是计算机视觉领域的AI平权。
据Meta官网,SAM 已经学会了什么是对象的一般概念,它可以为任何图像或任何视频中的任何对象生成掩码,且无需额外的训练甚至包括它在训练期间没有遇到的对象和图像类型。截止4月10日,Github中包含“segment anything”的开源项目已经超过90个,其中包含众多在一两天的极短时间内完成的顶级AI应用,如Grounded-SAM,其将语言大模型与SAM相结合,在不需要额外训练的情况下直接做到使用语言进行图像修改:
1)在一个狗在大自然中奔跑的照片中,输入奔跑的狗,奔跑的狗将被分割选定。
SAM使得视频/图像数据价值量跃升,拥有视频/图像数据及相关获取渠道卡位的公司将迎来价值重构。Meta也无法预测SAM的价值天花板在何处,但无疑视频/图像数据价值量迎来了跃升,4月9日中国人工智能学会对视觉大模型的应用进行了多维度展望,包括自动驾驶、交通管理、视频教育等多个方面,SAM有望赋能千行百业,其中重点展示的多模态智能监控技术是基于即时数据的分析,进一步体现出不仅要重视已有图像/视频数据,更要重视未来长期图像/视频数据获取渠道卡位者
07
XR或迎来强力催化