近期 AI 产业的三大发展趋势:AutoML
(自动机器学习)、MLOps
(机器学习的开发及运维)及 XAI
(可解释性的AI)等解决方案,将加快企业发展智慧化应用的脚步。
而随着 AI 成果的日益扩展,企业开始陆续引入 MLOps 方案,来将 ML 开发与运维流程标准化,促使开发成果规模化,将有助企业建构 AI 软件文化,同时提升发展 AI 应用成效。
一些活跃的开源项目:
这几年企业已由发展AI应用的探索期,陆续进入构建 AI 所需的资源、扩展及输出AI应用等阶段。AI技术发展日新月异,促使AI产业化的趋势方兴未艾,不过企业发展AI应用仍面临各阶段挑战,随着AI产业持续优化,透过AutoML、MLOps及XAI等解决方案,分别改善 ML(机器学习)模型繁琐开发过程、ML 开发及运维团队协作效率,与 ML 模型缺乏可信度等企业发展AI应用时所面临的困境,这将推动 AI 技术的加速普及。
毫无疑问,这个时代属于人工智能(AI),这导致机器学习在几乎每个领域的使用,试图解决医疗保健、商业领域和技术领域的不同类型的问题,可以说机器学习无处不在。 同时,开源软件(OSS)和基于云的分布式计算也促使了许多工具、技术和算法的出现,而开发机器学习模型来解决问题并不是挑战,真正的挑战在于如何管理这些模型及大规模数据。
MLOps是机器学习和运营的复合词,它是数据科学家和运维专业人员之间协作和沟通的一种实践,以帮助管理生产机器学习(或深度学习)生命周期。与 DevOps 或 DataOps 方法类似,MLOps 希望提高自动化程度并提高生产 ML 的质量,同时还关注业务和监管要求。 虽然 MLOps 也是作为一组最佳实践开始的,但它正在慢慢演变为一种独立的 ML 生命周期管理方法。 MLOps 适用于整个ML生命周期--从模型生成(软件开发生命周期、持续集成/持续交付)、编排和部署的集成,到健康、诊断、治理和业务指标。简单来时,MLOps=ML+DEV+OPS
端到端的 MLOps 流水线(pipeline)负责持续集成、交付和训练。它们相互补充,以此来缩短了向客户提供 AI 解决方案的途径。
持续训练 (CT)
作为 MLOps 独有的概念,CT 完全是关于模型再训练的自动化。 它涵盖了模型生命周期的所有步骤,从数据接入到在生产环境中跟踪其性能。CT 确保您的算法在生产环境中你的模型出现衰退或变化时第一时间被更新。
为了更好地理解怎么将持续集成、持续交付和持续训练转化为实践,以及 ML 专家和运维专家之间如何分担职责,让我们来研究 MLOps 的关键组成部分。 这包括:模型训练流水线(工作流),模型注册(模型仓库),模型服务(部署),模型监控以及 CI/CD 编排。
在MLOps中,通过将数据、模型、配置、代码进行版本化的管理,保障了算法工程师在整个机器学习生命周期中模型的快速迭代、持续训练、持续部署。从而能够保证机器学习模型的可重复性,可追溯性,并且能够对生产模型的健康进行诊断;同时,也能很方便查看业务指标。
近日中国信息通信研究院发布的《人工智能研发运营一体化(Model/MLOps)能力成熟度模型 第二部分:模型交付》更是标志着行业在MLOps模型交付阶段已取得阶段性进展。
目前,各行各业都将AI工程化能力作为智能化转型比拼的基础,智能时代下的数据迭代进程也随着技术的发展各有侧重。在云测数据总经理看来,智能时代下的数据迭代进程一般要经历算法预研期、算法研发期再到算法持续优化期三个阶段,对数据的要求也在不断深入。
阶段一:算法预研期(数据产品),阶段特点:1、基于成品数据集快速得到验证;2、对传感器及场景要求较低;在此阶段,需要需要行业基础数据集。
阶段二:算法研发期(定制数据服务),阶段特点:1、应用场景及传感器明确;2、需要大规模的场景化优质数据进行算法迭代;
阶段三:算法持续优化期(数据产品+持续数据服务),阶段特点:1、模型及迭代方法论已趋于成熟;2、算法处理生产环境数据;3、持续通过生产环境数据迭代算法;
在数据迭代升级过程当中,每一个阶段的算法皆有其特点,都是迭代过程中的重要一步,通过数据的升级迭代,可以帮助企业完成AI工程化,让人工智能实现更快的产业落地。
数据推动AI的工程化实践进程
中国人工智能产业正进入快速增长阶段,AI领域专业化和细分化程度将进一步提升。在人工智能概念热度和巨大的市场前景背后,一个成功的AI应用势必更多的来自于精准大量的训练数据,诸如自动驾驶、工业制造等智能应用场景越来越复杂,因而,高质量、精细化的数据将直接影响未来AI的工程化实践。
作为人工智能数据服务领域头部代表厂商,云测数据也在积极推动相关行业标准化工作的建设,积极参与《人工智能研发运营一体化(Model/MLOps)能力成熟度模型 第二部分:模型交付》的标准编写。
云测数据在早期就已关注到AI数据服务的需求缺口和潜在的应用市场,立足高质量、场景化的AI训练数据服务,率先形成AI训练数据的“采、标、管、存”一站式服务,实现了从“数据原料”到最后的“数据成品”全链条打通并通过数据产品、数据处理工具与数据服务的“三螺旋”,为智能驾驶、智慧城市、智能IOT、智慧金融等行业提供高效率、高质量、多维度、场景化的数据服务与策略,最大化发挥训练数据的价值,为人工智能场景化落地输送更多数据支撑。
云测数据认为,AI最终是为了落地、为了被使用,所以对于AI所需的数据质量要求会更高更精准。其面向AI工程化率先推出的新一代数据解决方案,硬核实力在于——可在保障数据安全的基础上,加速AI企业算法模型开发周期,在AI数据训练过程中综合效能可提升200%以上、数据交付质量最高可达99.99%标注精度、助力企业降本增效。同时提升数据管理、场景库管理能力,帮助运用人工智能的企业对数据资产加以沉淀、安全管控和风险治理,提升企业AI治理能力,推动挖掘更加多元化的AI价值。
以自动驾驶领域为例,通过采用云测数据标注平台,可实现车企DataOps数据闭环中数据清洗、标注工作,与原流程相比提升2倍流转效率。
总结:
作为人工智能产业的内部驱动力,数据、算法和算力三大要素对人工智能技术的升级发展一直至关重要。以数据为例,由于人工智能技术以有监督学习的模型训练方式为主,在产业蓬勃发展的背后,数据作为技术发展的基石,不断发挥着越来越重要的作用。在这场面向AI行业未来发展的浪潮中,会有更多如云测数据的厂商,以硬核实力叩开人工智能落地的未来之门。
百度(09888):2022年11月,百度智能云企业AI开发平台参与了MLOps开发管理服务能力评测,成为国内首个在开发管理能力上,达到旗舰级的MLOps平台,代表其服务能力达到国内卓越级水平。
启明信息(002232):2月1日在互动平台表示,公司现有基于云原生的MLOps敏捷AI平台,帮助数据科学家和开发人员快速准备、构建、训练和部署高质量的AI模型。
万达信息(300168):凭借在人工智能MLOps领域深厚的技术沉淀和丰富的行业应用经验,作为核心编写单位全程参编本次模型交付标准。
星环科技(688031):推出了企业级AI能力运营平台Sophon MLOps,围绕企业AI模型接入运营管理,持续训练的全生命周期,分别提供规模化集成管理,高效模型推理,模型监控预警,模型性能评估,隐私安全保障等功能。