登录注册
SAM模型拆解 计算机视觉变革点
侃侃同学
全梭哈的散户
2023-04-10 21:27:31
Meta SAM:以可提示的方式实现图像分割。Segment Anything Model(SAM)是2023年4月Meta提出的图像分割模型,由三部分组成,1)可提示的分割任务,描述通用的预训练目标;2)分割模型SAM,能通过提示工程实时输出分割掩膜,以zero-shot方式迁移到一系列任务;3)数据引擎,一方面收集新的数据,另一方面使用新数据来迭代模型。此外,Meta建立了迄今为止最大的分割数据集SA-1B,并与SAM一起开源。SAM的zero-shot性能优秀,能够达到甚至优于完全监督模型的结果,有利于CV更广泛的应用于下游各种C端和B端场景。建议关注国内CV应用和CV算法领域的相关厂商。
  SAM模型:图像编码器+ 提示编码器+ 掩膜解码器。SAM模型由图像编码器、提示编码器和掩膜解码器组成。1)图像编码器:计算图像嵌入;2)提示编码器:计算提示嵌入;3)轻量级掩膜解码器:将图像与提示信息进行组合,预测出分割掩膜。SAM支持在不同提示下重用相同的图像嵌入。流程上看,图像编码器输出图像嵌入,然后通过各种输入提示有效地查询该图像嵌入,提示编码器和掩膜解码器在web浏览器中即可进行近乎实时的掩膜预测(预测时间约50ms)。对于与多个对象对应的模糊提示,SAM可以输出多个有效掩膜和相关的置信度分数。
  数据集:1100万图像+10亿掩膜。大规模且多样化的掩膜数据集能够实现SAM更好的泛化特性。由数据引擎生成的最终数据集SA-1B,包含1100万张经许可且隐私保护的图像,以及超过10亿个掩膜(均为数据引擎最后阶段自动生成的掩膜)。SA-1B拥有的掩膜数量比任何现有的分割数据集都多400倍以上,具有高质量和多样性。除了将其用于训练SAM之外,SA-1B已开源,供其他研究者在此基础上建立新的基础大模型。
  SAM:探索模型组件化应用。Meta指出,与专门为固定任务集训练的系统相比,以提示工程等技术为基础的可组合系统,能实现更广泛的应用。例如CLIP是DALL-E图像生成系统的文本图像对齐组件。此外,Meta指出,虽然特定领域的工具在各自的领域中会优于SAM,但SAM是视觉分割的通才和多面手。由于SAM的强大迁移和泛化能力,以及开箱即用特性,SAM甚至可以通过可穿戴设备检测到的注视点来进行提示,从而启用新的应用程序。
  相关产业链公司。CV应用领域:1)安防视频:海康威视、大华股份、千方科技(宇视科技)、2)交通视频:通行宝;3)智能驾驶:中科创达、四维图新、光庭信息、德赛西威、经纬恒润、东软集团;4)MR/XR领域:中科创达;5)智能终端:萤石网络、中科创达;6)工业视觉:凌云光、创新奇智、奥普特、天准科技、奥比中光、矩子科技。CV算法领域:格灵深瞳、商汤、云从科技、云天励飞。
  风险提示:宏观经济波动,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
海康威视
S
大华股份
工分
1.76
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据