登录注册
继零样本分割一切的SAM,Meta又迅速开源DINOv2模型
夜长梦山
2023-04-20 20:18:52
国盛计算机 继零样本分割一切的SAM,Meta又迅速开源DINOv2模型,不需微调即可用于多种下游任务。DEMO网址:DINOv2 by Meta AI。DINOv2 能产生高性能的视觉特征,用于不同下游视觉任务如分类、分割、图像检索和深度估计,不需要微调。DINOv2蒸馏成小模型后效果依然优秀,在多个参数规模下测试,能在大部分测试基准上超过之前最好的模型OpenCLIP。 DINOv2的创新点和优秀性能来源于使用图像自监督学习的方式训练。DINOv2的模型结构基于(Vision Transformer,VIT)。此前许多视觉模型使用图像和文本配对数据做预训练,Meta认为该方法依赖于文本描述图像的语义内容,会忽略文本描述中未明确提及的重要信息,因此Meta构建了一个大型数据集,先设置一组种子图像,然后寻找和这些种子图像的编码距离接近的图像进行聚类。虽然图像没有文字标注,但模型可以通过图像之间的关联来学到图像特征,克服了文本对图像描述不够全面的局限性。 DINOv2性能优秀,开源后可多方面赋能AI产业。1)DINOv2不需要微调即可胜任完成图生文前期任务,提升整个方案的泛化能力,为后续识别的泛化能力提高打下基础。2)DINOv2能蒸馏成小模型还有较好效果,便于在各种边缘场景及本地化落地。3)DINOv2可以为大语言模型提供丰富的图像特征,加速多模态人工智能的发展。 多模态提升空间巨大,技术进步速度超预期,将落地千行百业。当前多模态的输入输出主要是文本、图像和音频,应用场景包括智能办公和,如智能PPT和其他office套件,此外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。1~5年内,随着多模态的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。未来5~10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。 建议关注:算力产业链公司及大华股份、海康威视、云从科技、千方科技、商汤科技、萤石网络等。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
大华股份
S
海康威视
S
云从科技
工分
7.86
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据