登录注册
基于AIGC的合成合成数据---视觉中国
佛系挖掘
全梭哈的萌新
2023-03-07 13:23:11


合成数据将成为大模型训练数据的新来源。当前,大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话,数据短缺的问题将成为训练瓶颈。对此,合成数据将是一种有效的解决方案。

合成数据是计算机模拟技术或算法创建生成的自标注信息,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试、验证大模型。合成数据可分为三类:表格数据和结构化数据;图像、视频、语音等媒体数据;文本数据。在大模型的训练开发上,合成数据相比原始数据,可以发挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测试和验证数据供给。ChatGPT类面向终端用户的应用只是大模型落地的开始,而产业互联网领域的应用空间更为广阔,合成数据可以解决ChatGPT类大模型的潜在数据瓶颈,推动科研和产业的进一步发展。

合成数据可以精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,所以实际应用过程中的效果强于传统的脱敏数据,便于在更大范围内分享和使用。合成数据创造的新样本具有原始数据的性质,甚至可以通过深度学习算法合成原始数据中没有的罕见样本。合成数据的产业价值主要体现在以下几个方面:实现数据增强和数据模拟,解决数据匮乏、数据质量等问题;有效解决数据隐私保护和数据安全问题,这对于金融、医疗等领域尤为重要;确保数据多样性,纠正历史数据中的偏见,消除算法歧视;应对罕见案例,创建现实中难以采集的数据场景,确保大模型输出结果的准确性

 


 

 

视觉中国,拥有最庞大的图片数据库,也是未来AIGC生产图片数据资产的重要阵地。

视觉中国可以智能生成图片标签,那么这个标签数据其实是可以帮助在图片识别中把图片识别成文本信息的。这种从某种意义上也是合成数据,相当于是一个图片带一个文字标签说明,那么我拿这个数据去训练,不就是更好吗?

在多模态中有一项功能是把图片转换为文本输出,其实也需要用到这种带标签的图片数据来训练,才能提升输出的准确性。

 

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
视觉中国
工分
5.23
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-03-07 13:32
    民生证券早就发过研报了,可以看一下。说的是网络可视化
    0
    0
    打赏
    回复
    投诉
    于2023-03-07 13:35:22更新
    查看1条回复
  • 只看TA
    2023-03-12 08:15
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-03-07 23:17
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往