2月8号中午,我写下《浅谈chatgpt/openai的真正机会》。里面的四条结论:互联网大厂、算力一线龙、存储一线龙、游戏全行业,后来都一一得到了验证。
3月22号晚上,我写下《脚踏实地的畅想AI更远的未来》,记录自己对AI未来发展的模糊判断。
3月25号晚上,也就是今天,我写下《AIGC新篇章:虚实交互》,通过此文分享我对今后的判断:AIGC的新篇章,属于虚拟与现实的交互。
为什么?
一句话:因为人们日益增长的美好体验需要同落后的交互技术之间的矛盾。
这个主要矛盾,将贯穿于AIGC初级阶段的整个过程和社会生活的各个方面,决定了未来AIGC发展的核心之一是交互技术。
而交互技术的深入发展应用,将会率先与虚拟现实、数字孪生、智能家居、自动驾驶等行业结合,相互支撑,共同走向爆发。
在展开剖析之前,让我们先了解一下各个概念。
1.AIGC:
①AIGC:即AI Generated Content,是指利用人工智能技术来生成内容。
②AIGC初级阶段:这是我在此文做出的定义,特指AIGC向全世界、全场景铺开并渗透、结合的阶段。
2.交互设备
①形式:交互设备可以采用各种不同的形式和媒介,包括语音识别、自然语言处理、计算机视觉、手势控制、ar\vr\mr\xr技术。通过这些设备,人类可以与人工智能进行双向的信息传递和交互。
②AGI:即人工通用智能。AGI系统需要具备对话管理、知识表示和推理、学习和决策等综合智能能力,以便能够处理不同领域和任务的信息,并为人类用户提供高质量的服务和支持。
而AGI的交互(此文的重点)可以在许多领域中得到应用,例如AR\VR\MR\XR、智能家居、智能助理、自动驾驶等。在这些应用中,AGI系统可以根据用户的需求和指令执行不同的任务,并通过交互与用户进行实时的沟通和反馈。这种交互可以让用户获得更加自然、高效和愉悦的体验,同时也能够为用户提供更加个性化和智能化的服务和支持。
3.虚拟现实技术
主要涵盖了四大类:VR/AR/MR/XR。它们都属于虚拟现实技术的范畴,但是在技术实现和应用场景上都有所不同。
AR(增强现实)可以让我们同时看到真实世界和虚拟信息。它将虚拟元素添加到现实世界中,提供了一种增强和丰富现实体验的方式。AR技术在教育、旅游、广告等领域有很大的潜力,但与其他技术相比,它的交互性和沉浸感相对较低。
VR(虚拟现实)会让我们感觉自己完全身临其境在一个虚拟世界里。它提供了完全虚拟的体验,用户可以进入完全不同的环境和世界,并与虚拟元素互动。因此,VR技术在游戏、娱乐、旅游等领域大有可为。
MR(混合现实)是将虚拟信息和现实世界结合起来,它是一种介于AR和VR之间的技术,它结合了现实世界和虚拟元素。跟AR不一样的是MR可以让我们的虚拟物品跟真实物品互动。与XR不同的是MR技术侧重于以现实世界为基础,提供更实际和真实的体验。因此,MR技术在培训、维修、设计等领域有非常大的潜力。
XR(扩展现实)是将现实世界与虚拟元素相结合,提供了最全面和最具交互性的体验。通过XR技术,用户可以获得与现实世界相结合的高度沉浸感和交互性,这使得XR技术可以在游戏、教育、医疗等领域发挥巨大的作用。
顺带说一句,我认为未来潜力的排名是:XR > MR > VR > AR。当然,技术难度也是递增的。
4.数字孪生
数字孪生(Digital Twin)是指通过数字技术将实物系统或产品的实际运行过程、行为和状态以数字形式复制出来,以便在数字环境中进行模拟、监测和优化。
用武侠小说来打比方,数字孪生就像我们使用秘法制造出来的虚拟分身。这些分身可以模拟我们的能力、技巧和状态。传统的练功方式,需要去苦练,还容易走火入魔,风险高效率低,现在我们可以使用数字孪生来练功。只要创造出多个分身,让它们同时去练习,我们就可以抛弃差的,找到最好的来改进我们的武功。
数字孪生可以应用于各种领域,例如制造业、建筑业、能源、交通运输、医疗保健等。通过数字孪生技术,可以在不影响实际系统或产品运行的情况下,优化其性能、降低成本、提高效率和安全性,以及预测和避免潜在的故障和风险。
5.智能家居和自动驾驶
这俩总不需要介绍了吧,字如其名。
现在我们已经了解了概念。
接下去,我将阐述“判断未来AIGC发展的核心之一是交互技术”的逻辑。
1.GPT-4的出现
GPT-4的诞生是第一关键。
目前,GPT-4可以认为是AGI(通用人工智能)的早期版本——微软雷蒙德研究院机器学习理论组负责人万引大神Sébastien Bubeck联手2023新视野数学奖得主Ronen Eldan、2023新晋斯隆研究奖得主李远志、2020斯隆研究奖得主Yin Tat Lee等人的共同判断。
为什么他们下了这个判断?
因为GPT-4除了精通语言,还能无需特别提示解决数学、编程、视觉、医学、法律、心理和更多领域的新任务和难任务。更为关键的是,GPT-4在这些方面表现大幅超越ChatGPT等之前模型,并在所有这些任务上惊人地接近人类水平,也就是摸到了AGI的门槛。
一个最突出的例子,GPT-4满分通过了LeetCode上的亚马逊公司模拟面试,超越所有参与测试的人类,可以被聘用为软件工程师。
正如OpenAI CEO Sam Altaman所言:语言模型只是被设计用来预测下一个词……动物、包括我们人类本来也只被设计成生存和繁衍,但那些复杂和美丽的东西正是来自于此。
虽然GPT-4只能输出文本,但可执行的代码就成了连接它与世界的桥梁。比如给他一组IMDb上的电影数据,GPT-4可以找出最合适的可视化方案,写出来的程序还是可交互的。
GPT-4通过Javascript代码画图,可以是2D的也可以是3D的。
GPT-4生成草图,与Stable Diffusion联用可以精确控制图像布局。
而且,gpt-4在理解人类的情感上也做到了入门级的AGI的水平,给一段两个人吵架但其实涉及4个角色的对话,GPT-4能够准确指出吵架中的Mark是在表达对另一方Judy态度的不满。在日常安排上,让GPT-4根据自然语言指令去管理一个用户的日历,GPT-4可以先自己列出自己需要的API工具,再在测试场景中使用它们。[1]
文学、图像、编程、心理、教育、法律、医疗……不仅如此,现在GPT-4还接入了广域的插件,那么在不远的未来,GPT-4所有强大的功能,及其联系起来的整个开放的数字宇宙,只需要动动嘴,就能为我们所用。
今年AGI的雏形就已经出现,这么想想,也许我有生之年真能见到流浪地球里的MOSS啊。
2.AIGC的爆发
第二个关键是AIGC的爆发。
像下面这样的优质的图,只需要几行prompts,一天放在那跑,你就可以生成一!大!堆!而且指哪打哪,要啥有啥。
我曾经有段时间沉迷mj和sd,深深地震撼了一把。现在回头看,已经相比那时又新加了很多功能,比如设定人物动作,更多风格,手指的问题也大大改善……而未来的方向,将是更多的3D。包括GEN-1,也是明显地感到AI生成视频在快速地进步。
其实内容层面简单来看就三个环节,第一是内容的生成,第二是内容的传输,第三是内容的呈现。AIGC相关技术包含了三大前沿能力,它极大的提高了内容生成的效率,节约了客户在内容生成上的成本,它促进“传输”和“呈现”的创新应用。
多的也不再说,总结一句话:AIGC正使数字宇宙的多模态优质内容呈指数级的爆炸增长。
3.技术制约。
AGI雏形诞生让数字宇宙有了向外联系的桥梁。
AIGC的爆发正在让数字宇宙的多模态优质内容指数级爆炸增长。
那么按道理,素材有了,把素材引出来的桥梁有了,人们就可以利用这些,打造众多的、拥有海量优质细节的虚拟世界啊。可以沉浸式的做很多事情了啊,个人比如试衣服、试家具、学习做手术、设计机器、骑马、开飞机、做研究、练武术、旅游、练美妆、玩游戏……公司比如虚拟办公、数字孪生工厂、全息型研发、无压力跨国合作……郭嘉可以开展沉浸式防灾、军演、测算……不仅在很多方面可以降本增效,提高全社会的生产效率,还可以大大地拓展人类世界的边界,岂不美哉?
然而目前做不到。
为什么?
因为开头我说的那句话:人们日益增长的美好体验需要同落后的交互技术之间的矛盾。
我们目前的交互技术落后了。
一个更好的数字宇宙正在诞生,但我们现阶段的眼睛看不清,耳朵听不准,鼻子闻不到,手指摸不细……
如果把AGI+AIGC加成下的未来世界比喻成一座新的金矿,那么我们目前的交互设备和技术,就像手上拿个小铲子。用力地铲啊铲,费力铲下来几块碎片。
就像树上不断地长出蟠桃但是我们的小木杆打不掉几个。
你说这能忍?
因此未来,我们一定会把小铲子变成大钻机,一定会把小木杆变成金箍棒。
4.未来演变。
要把我们的小铲子变成大钻机,把小木杆变成金箍棒,我们也得一步一步来。先把小铲子先变成小钻子,把小木杆变成小梯子,做出阶段性成果,享受阶段性红利。再利用这些成果和红利进行正循环,不断地拓展。
那么下一步,就要从交互的最基本做起,也就是目前已经有基础达到并有望在GPT-4和AIGC的加持下迅速进化的ar\vr\mr\xr、数字孪生、智能家居、智能驾驶这些。
其实我在第一点概念里也差不多接近解释了为什么他们才是第一波交互升级的受益。下面就简单再写几句。
①ar\vr\mr\xr。它已经经历了诞生和发展,目前在发展和爆发的拐点(雏形AGI和AIGC大大提前了这一拐点)。因为3D内容(包括3D模型、3D动画,和3D交互等)是它的核心之一,在GPT-4和AIGC的结合下,很快就能实现3D内容制作的自动化,迎来变革。(Btw,2D打工人失业后去转3D,3D可能也马上要被替换了,自求多福吧)。而且,ar\vr\mr\xr将最先承接游戏和文本的溢出,也将最先得到发展。通过GPT-4这个雏形AGI和AIGC,各种虚拟角色的动作、行为会更加流畅,也更加智能化(包括养一个虚拟老婆,已经有大佬做到了,其实数字人+声音+GPT-4对话,不难的hh)从而大大增强游戏的沉浸感。
PS:再再再远一点,如果以后推出隐形眼镜式的产品,那感觉手机要变成“眼机”了。
②数字孪生
我们这种制造大国必备啊。究极降本增效,全局上大大提高设计、生产、维护、改进产品和生产线的效率。
以前比较烦,只有大公司做的起来,因为每个地方不一样,要个性化配置,成本高周期长。但是现在有雏形AGI了啊!直接给你通用,成本大降效果又快又好,推广的阻力大大减小。
早点发展和普及起来,到时候什么东南亚什么产业转移统统不用care了。我成本比你低质量比你好产出比你快,那谁还打得过我们啊
③智能家居
这也是一样的。以前都是彩笔智能家居,连上雏形AGI后,就是真·智能家居。比如自动化控制家庭照明、温度、空气质量等。同时,还可以结合智能家居系统与电视、音响等设备,实现家庭影院的智能化控制和管理。做个日程安排,搞个旅行计划,没事还可以聊聊天,排解一下白天的郁闷,多好。主要是可实现度很高,有大佬想去做的话估计今年就可以实现。
④智能驾驶
和上面类似,更加智能化、人性化、安全化、趣味化的交互。更安全地适应路况啊,开车不用手就能交互啊什么的,不赘述。
综上这些,解释了交互技术的深入发展应用,为什么将会率先与虚拟现实、数字孪生、智能家居、自动驾驶等行业结合,相互支撑,共同走向爆发。因为这几个方面衔接的最顺,最能承接需求,也最容易实现。
既然努力跳一跳就能够到更好的世界,那有什么理由不跳呢?
三、此文的作用:
此文的作用是定下自己后续的交易路线,定大方向。虽然我去年说今年开始会有两年的科技牛,但科技大板块也是要分细分的,像现在一些涨幅已经计提了未来五年十年利润的,故事和逻辑都很好,但我也不敢去。。。
后续还需要在此方向上确定交易的战略,定总基调。不过现在大致想法还是延续一直在说的“上中下三策”,详见《1.19 上不上?上什么?》,主打上策和中策。
最后还需要定细分战术,精选个股。目前暂时就选了个万金油$歌尔股份(SZ002241)$ ,其他的比如数字孪生其实有选,但是不是很确定是不是真的好,后续再研究,然后智能家居都已经飞起来了,淦。接下去用不多于40天的时间把基础端算力的票慢慢地切换到交互技术板块中。
我从周四开始按计划逐步切换到虚拟现实全板块,其实当初也只是一个模糊的思路,现在理了一下,逻辑走的通,稍微确定一点了。待未来验证吧。
最后的题外话:
我去年玩AI作画时,还只能生成风景画,少量生物画,而且次品率很高(往往伴随着大量的扭曲),暂时不堪大用,那时候我做出判断:“不出两年…生产力提升一个新台阶…第四次工业革命。”
我那时判断的“不出两年”心里估计的其实是24年底,然而现在主流平台(MJ、SD等)产出的作品就已经完全可以替代大批画师,这才不过区区半年啊!
我大大低估了AI发展的速度。包括在一月底做出判断后,我认为会比较久(起码三个月后)才能落实到应用端,所以一直在基础端的$紫光股份(SZ000938)$ 和光环新网躺着,准备吃完基础端再顺切去应用端,踏一下节奏。然而应用端的落地速度实在太快,3.5到4后,马上就接入办公套餐,紧接着就是重磅的广域插件,短短一个月就上升了三个大层级!(完全打乱了我的选票池买票计划。后面等紫光涨到我的卖出区间时,票池里的各个票都已经涨出了我的买入区间)
我相信,虚拟与现实的交互也会发展得很快,《刀剑圣域》、《头号玩家》,也并非像我想的那般遥不可及。
也许五年,也许三年。
也许,就在今年普普通通的某一天。
新世界,变化真快啊。
[1]量子位https://mp.weixin.qq.com/s/T_ynpytmWQHRSANUNLxj6w