异动
关注
社群
搜公告
产业库
时间轴
公社AI
通知
全部已读
暂无数据
私信
暂无数据
登录注册
我的主页
退出
汉王科技 大模型新架构仅需2%的数据量就能媲美Transformer架构主流大模型
无名小韭56811122
2025-09-08 13:12:29 江西
作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
汉王科技
工分
2.13
转发
收藏
投诉
复制链接
分享到微信
有用 8
打赏作者
无用
真知无价,用钱说话
0个人打赏
清空
确定
清空
确定
导入文档
同时转发
发布
评论(3)
只看楼主
热度排序
最新发布
最新互动
无名小韭56811122
只看TA
09-08 15:11 江西
资讯总结|我国首个类脑脉冲大模型“瞬悉 1.0”问世
核心事件
2025年9月8日,中国科学院自动化研究所李国齐、徐波团队联合沐曦科技,发布我国首个类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0),在国产GPU算力平台实现全流程训练与推理,突破传统Transformer架构限制,显著提升超长序列处理效率。
事件总结
技术突破
内生复杂性理论:借鉴大脑神经元工作机制,提出非Transformer架构的类脑脉冲模型,建立脉冲神经元动力学与线性注意力模型的联系,为提升模型性能提供新路径。
效率提升:训练阶段仅需主流模型2%的数据量,即达到多任务语言理解、常识推理等任务的同等性能;推理阶段在100万token长度下生成速度较Transformer架构提升26.5倍,400万token下加速超100倍。
国产化生态
适配国产GPU(沐曦科技曦云C550)集群,开发高效训练框架、Triton算子库及并行策略,首次构建国产自主可控的类脑大模型生态。
应用前景
超长序列处理能力适用于法律/医学文档分析、高能物理实验、DNA序列分析等场景,并为低功耗神经形态芯片设计提供新思路。
开源与验证
开源7B模型参数,开放76B模型测试入口,同步发布经工业验证的中英文技术报告,推动技术落地与生态发展。
该成果标志着我国在非Transformer架构大模型领域取得里程碑进展,为人工智能发展开辟新方向。
0
0
打赏
回复
投诉
无名小韭56811122
只看TA
09-08 14:29 江西
【学术报告】中国科学院自动化研究所研究员李国齐: 类脑通用智能大模型
回顾大模型的发展历程,当前主流的大模型架构大多源自2017年谷歌提出的Transformer架构。尽管最早并非由谷歌自身意识到Transformer架构在规模扩大上具有巨大潜力,但OpenAI却在其基础上研发了GPT系列,从GPT-1到GPT-3,直到GPT-3参数规模扩展至迁移参数,引发学术界的广泛关注,而ChatGPT的发布更是让人工智能技术进入了全球聚焦的视野。Transformer架构的优势在于它能够充分发挥GPU集群的高效计算能力,促进了大规模语言模型的发展,例如DeepMind的AlphaFold系列,成功为生物学领域带来革新,并为其贡献了诺贝尔奖。
目前,人工智能已显著进入大模型时代,模型的规模和参数量也急剧增加。在Scaling Law理论的驱动下,随着模型规模、参数量及计算资源的不断增加,当前人工智能模型的性能得到了显著提升。从GPT-1的1.17亿参数到GPT-4的1.8万亿参数,规模的增长直接推动了模型性能的提升。然而,随着模型规模的不断扩大,也有必要思考,单纯追求规模的增长是否能持续推动AI系统向更高阶段发展,或者是否应该寻求其他突破性的研究方向来进一步优化现有系统。
在中国,大模型的研究和应用面临机遇和挑战。虽然国内如DeepSeek、字节跳动、百度、腾讯、阿里等公司也开始涉足大模型领域,并推动了国内大模型的热潮,但我认为目前的挑战主要集中在国内GPU算力平台的瓶颈问题上。目前国产AI芯片或国产GPU集群在高效稳定支持超大规模大模型训练(比如万卡集群乃至更大规模的集群)和推理上仍存在诸多挑战,尤其是在计算能力和功耗方面的限制使得大模型的高效运行变得日益困难。为此,亟需研究并开发低功耗的智能计算系统,以应对当前算力需求日益增长的问题。
尽管Transformer架构在大模型中取得了巨大的成功,但该架构也面临一些固有的缺点。例如,在训练过程中,随着序列长度的增加,开销呈现平方复杂度;而在推理阶段,时间和空间复杂度随着序列长度的增加而线性增长,导致处理超长序列的能力受限。以DeepSeek为例,目前其最大支持64K或128K长度的序列学习,但对于长序列文本,如《红楼梦》或《三国演义》等超长文本作品仍难以有效进行处理和分析。
与此不同的是,大脑在处理信息时具有远超GPU的能效。大脑的神经元数量已经达到千亿级别,而且神经元之间的连接数通过突触连接形成了极为复杂的网络结构。每个神经元与1,000到10,000个其他神经元进行连接,形成了一个规模庞大的网络,这种结构的能效远高于当前的GPU架构。由此,未来的AI研究或许应当通过关注模仿大脑的工作机制,借鉴神经科学的原理探索更加高效的计算模型和架构。
尽管当前的大模型被视为点神经元的模型,但大脑本身却是一个极为复杂的动态系统。每个神经元的胞体和树突可以通过数百到数千个微分方程来描述,这意味着,如果要全面刻画大脑的动态行为,其参数量可能高达100亿亿左右。然而,与此相对的是,大脑的功耗仅为20瓦左右。相比之下,当前的大模型参数量低于大脑的参数规模好几个数量级,但其功耗却高出了好几个数量级。我们估算大脑的能效远超现有的CPU,其能效比高出十个以上的数量级。因此,思考神经科学是否可以为新一代人工智能技术的理论与计算架构提供贡献,成为了一个至关重要的课题。
然而,神经科学与人工智能之间存在一个明显的鸿沟。从当前的研究来看,神经科学主要侧重于精细的结构和生理细节,强调神经元之间的复杂连接以及大脑尺度的动力学,而人工智能则更注重抽象的结构和计算的高效性,尤其是在大规模并行计算方面。例如,GPU在处理大规模并行计算时,能够实现高效的计算能力,但它却难以高效支持当前神经科学所关注的精细结构和神经元建模。这也就造成了神经科学和人工智能之间的鸿沟:当前人工智能模型往往难以将神经科学中的复杂结构融入进来,并且难以将其扩展到大规模的计算模型中。
我们提出的学术思路是,通过对比现有的大模型和大脑的差异,寻找未来研究的方向。现有的大模型可以用“点神经元模型+自注意力机制+Transformer架构”来表达,而人脑的基本计算单位是树突神经元模型。与点神经元模型相比,树突神经元模型要复杂得多,它具有树状结构,包含多个分支和房室,每个分支和房室都存在动力学过程,并且每个分支上有不同的动力学参数,这使得树突神经元模型具备多尺度的记忆能力。因此,我们的目标是探讨是否可以将这种人脑机制融入到现有的大模型中,从而构建一个通用的类脑智能大模型架构。
0
0
打赏
回复
投诉
无名小韭56811122
只看TA
09-08 13:37 江西
汉王科技脱胎于中科院自动化所,其前身是中科院自动化所文字工程中心,中国科学院自动化研究所是汉王科技的股东,持股比例超过5%汉王科技与中科院自动化所的合作并不仅限于资本层面,技术转化和产业化是双方合作的重要实质内容
文字识别技术:2018年,汉王科技与中科院自动化所模式识别团队组建合资公司,共同推进文字识别技术的商业化应用。这直接发挥了自动化所的研发优势和汉王科技的市场化能力。
多模态大模型:面对当前人工智能大模型的发展趋势,汉王科技表示正在深度分析如何更好地转化中科院自动化所的“紫东太初”多模态大模型的应用成果,特别是在“医疗影像”等专业领域探索落地可能性。
双方的合作是持续和动态的。汉王科技多次表示,与自动化所在前沿技术研发和产业化落地方面多年来一直保持交流与分享合作。未来的合作模式可能会更加多样,包括共建研究院、共建孵化基地或共同投资等。
汉王科技与中科院自动化研究所的关系是 “渊源深厚、资本联结、技术协同、共谋转化” 的。自动化所作为技术策源地和重要股东,为汉王科技提供前沿技术支持;汉王科技则利用其产业化和市场能力,将技术转化为实际产品和解决方案。
0
0
打赏
回复
投诉
上一页
1
下一页
前往
页
确定要分配的奖金