MLOps 面临的五大挑战

by Canonical on 8 August 2023

ChatGPT 推出后，AI/ML 市场突然成为所有人的焦点。但是，启动一个项目会如此容易吗？最重要的是，扩展一个 AI 计划需要什么？涉及到机器学习工作流的自动化时，MLOps或机器学习运维就是答案。

采用 MLOps 和采用 DevOps 一样，您需要接受不同的思维方式和工作方式。但是，这项计划产生的投资回报值得您付出努力。从大局来看，您需要考虑两个关键方面。一方面，MLOps 是一种相对较新的做法，因此使用过程中遇到挑战不足为奇。另一方面，MLOps 发展迅速，因此每天都会有解决方案迸现。那么，企业通常需要奋力解决的常见 MLOps 挑战是什么？以及如何解决？我们将在本篇博文深入探讨这些问题。

MLOps 挑战 1：人才

Glassdoor 拥有 3 万多个与数据科学相关的工作岗位，以及 1.5 万多个与机器学习工程相关的工作岗位，这些工作都要求不同程度的经验、研究和技能。数据科学职业的吸引力得到了极大的提高，市场上的机会也很多。

从不同角度分析这些数据，企业不断增加劳动力方面的投入，来支持机器学习计划。他们优先考虑了 AI 项目，除了设备，还在人才方面投入大量资金。但是，这也造就了寻找技术人才，减少机器学习和数据科学专业团队的自然减员等相关挑战。缺乏技能和员工流失影响了机器学习生命周期的实现，并对启动新计划所需的时间表带来影响。

因其竞争特性，想要减轻这一挑战造成的影响非常困难。远程招聘无疑是解决方案之一，因其增加了获得更多技术人才的机会。另一个不错的机会是考虑年轻人才，他们可以在公司里通过实习或研究生项目发展技能。然而，这将是一项长期战略，对于短期解决方案，可以聘请提供咨询服务的公司帮助企业启动 AI 项目。公司可根据 AI 准备情况，寻求用例、MLOps 架构，甚至概念证明的指导。

通过我们的指南，深入了解 MLOps 以及如何在您的企业内启用

下载白皮书

MLOps 挑战 2：启动

对于大多数企业来说启动 AI 项目是一项挑战。

开始一个 AI 项目就像拥有商业案例一样简单。回答以下三个主要问题，将帮助您更好地了解实际要达成的目标：

您试图解决什么问题？
您是否拥有现实的期望？
您是否拥有正确的数据？

简而言之，要启动 AI 计划，您需要在开始时就将目标铭记在心，并朝此不断前进。然后，您可以评估公司的 AI 准备情况，并创建自己的项目。考虑差距、关键因素、要避免的常见陷阱以及基础设施挑战等问题，有助于公司更深入地审视 AI 项目的启动准备情况。回答这些问题能够引导对整个 AI 计划的设计。最终，该设计将帮助您的团队确定优先事项，制定预算，并设定合适的时间表。

MLOps 挑战 3：数据

数据是任何 AI 项目的核心。这是决定计划成败的关键部分。为了评估数据质量和数据访问点，需要进行有效性检查。尽管现在数据似乎无处不在，但它尚未成为大多数公司的优先考虑。因此数据收集过程通常都不是非常规范，导致数据不干净、不一致。

整体而言，数据准备并不简单。在涉及到数据管理、收集和存储时，组织可能会面临巨大挑战。通常，数据来自多个来源，这会导致数值和格式上的不匹配。从另一个角度来看，机器学习模型依赖大量数据，而这通常都很难处理。

应对这一挑战有多个微妙之处，因为它在不同层面都有影响。兢兢业业地处理数据可能才是成功的秘诀。限制数据差异和集中存储数据，简化了数据的准备阶段。数据版本化可解决因数据中出现更改而引起的问题。

MLOps 挑战 4：安全

机器学习的运行经常涉及非常敏感的数据和项目。因此，确保环境安全对项目的长期成功至关重要。最近，IBM 的一份 AI 采用报告显示，五分之一的公司提到了确保数据安全的困难。因此，解决这一问题的人数不断增多，这也解释了为什么 25% 的受访者是安全专业人士。

与安全相关的挑战中，运行过时的库是最常见的一项挑战。用户往往没有发现他们拥有多个漏洞，而这代表着有可能招致恶意攻击。

另一个安全隐患和没有得到正确保护的模型端点和数据管线有关。这些有时是可以公开访问的，这可能会导致将敏感的元数据暴露给第三方。端点是一个开发环境。若将它们当做开发环境，则表示有明确的安全标准来确保项目安全和数据安全。

对任何 MLOps 环境来说，安全可能都是一项挑战，因此运行提供安全补丁和支持的软件对项目存在和生产部署来说至关重要。使用具有多租户选项的工具可保护内部环境、数据隐私以及对公众敏感的不同计划的安全。

帮助您的团队部署 AI 模型并提供价值的咨询服务和产品

Read the Datasheet

MLOps 挑战 5：扩大规模

正如麦肯锡《2022年 AI 现状》中提到的那样，许多组织很大程度上已从 AI 实验转到积极将其植入企业应用。这一方面证实了企业对 AI 项目的承诺，但另一方面，又提出了很多与扩大规模的知识和能力相关的问题。从拥有正确的工作流和工具来部署和监控生产模型，一直到支持此类计划所需的基础设施，公司需要快速应用和学习新做法。

许多人对机器学习的首选是开源。诸如 Charmed Kubeflow 等端对端 MLOps 平台，是市场上一个可用的开源选项。它借助一套数据科学家已经惯用的工具，解决了与扩展相关的多种需求，诸如自动化、监控、警示、集成以及部署等。这是应对常见 MLOPs 挑战的一种理想选择。

深入了解 MLOps

查看更多内容

Canonical Academy 上线！

通过 Ubuntu 官方权威认证检验自身专业能力并提高职业发展力伦敦，2025 年 10 月 23 日 — Canonical 宣布推出 Canonical Academy：一个供个人和企业通过由 Ubuntu 核心工程师团队设计并维护的认证体系检验自身开源技术能力的全新平台。首个上线的认证体系是 SysAdmin 认证体系，包含四门考试，检验 Linux 与 Ubuntu 实操技能。考试通过者可获得数字徽章，向雇主及同行证明自身技术能力。 Canonical Academy 的认证考试旨在帮助学习者学以致用，采用模块化、自定进度的评估模式，方便学员在繁忙日程中灵活安排。SysAdmin 认证体系今日发布了三门考试：由 Ubuntu 专家打造的实战考试传统认证往往存 […]

83% 的企业肯定开源软件的应用价值，但也表示在安全与治理方面存在重大缺口

Linux Foundation 最新报告揭示了全球企业对开源软件的采用情况、使用现状及认知态度。 Linux Foundation 携手 Canonical 发布的最新报告《全球开源现状》，是继今年早些时候 Linux Foundation 欧洲地区报告之后的全球性报告。报告证实，欧洲地区报告中揭示的诸多趋势在全球范围内同样存在。这份全球报告尤其证实了开源软件在全球范围内作为关键业务系统基础所发挥的重要作用，并且表明采用率的持续攀升。不过，企业仍然缺乏战略性且安全管理开源软件所需的治理机制、安全测试体系及战略成熟度。报告指出，多数企业期望开源软件能达到企业级性能标准，但在所需治理框架、安全实践及社区协作方面投入不足。下载报告 83% 的企业承认开源对其未来发展具 […]

Canonical 获得 ISO 27001 认证

该认证是符合网络安全标准的有力证明，可在最严苛的企业环境中全面保障开源产品和服务的应用安全。 Canonical 自豪地宣布，经过知名认证提供商 A-LIGN 的广泛评估，其信息安全管理系统（ISMS）已获得 ISO/IEC 27001 认证。这一里程碑彰显了 Canonical 致力于遵守政策，完善流程和控制措施，这些措施旨在保障企业内部数据、客户数据及供应商信息的保密性、完整性及可用性，并推进公司的企业基础设施环境建设。 Canonical 首席信息安全官 Stephanie Domas 表示：“获得 ISO 27001 认证，有力地证明了我们团队对信息安全的坚定承诺。这证实了我们的流程符合全球最高标准，让我们的客户和合作伙伴确信他们的数据受到最周全、最严谨的保护。安 […]