数据可用性——我们是否有足够的数据来训练模型?我们能否持续获得新的和更新的数据?我们可以使用合成数据来降低成本吗? 适用性——该解决方案能否解决问题或改进当前流程?我们可以使用机器学习来解决这个问题吗? 法律限制:我们是否获得当地政府的许可来实施此解决方案?我们获取数据是否合乎道德?这个应用会对社会产生什么影响? 稳健性和可扩展性——这个应用程序足够稳健吗?它具有可扩展性吗? 可解释性:我们能解释一下机器学习模型是如何获得结果的吗?我们能解释一下深度神经网络的内部运作吗? 资源可用性——我们是否有足够的计算、存储、网络和人力资源?我们有合格的专业人员吗? 企业领导者可以通过参加商业机器学习课程来学习机器 希腊数据 学习的基础知识,并应用这些课程来制定业务策略和实施机器学习解决方案。
2. 数据准备 数据准备作者头像
数据准备部分又分为数据采集和标注、清洗、管理和处理四个部分。
数据收集和标签 首先,我们必须决定如何收集数据:内部收集数据、开源数据、从供应商处购买数据或生成合成数据。每种方法都有优点和缺点,在某些情况下,我们从所有四种方法中获取数据。
收集完毕后,我们必须对数据进行标记。购买干净的、有标签的数据并不是对所有公司都可行,您可能还需要在开发过程中对数据选择进行更改。这就是为什么您不能批量购买它们,并且数据可能最终对解决方案毫无用处。
数据收集和标签需要公司的大部分资源:金钱、时间、专业人员、主题专家和法律协议。
数据清理 接下来,我们将通过估算缺失值、分析错误标记的数据、删除异常值和减少噪声来清理数据。您将创建一个数据管道来自动执行此过程并执行数据质量验证。
数据处理 数据处理阶段涉及特征选择、不平衡类的处理、特征工程、数据增强以及数据标准化和缩放。
为了可重复性,我们将存储元数据、数据建模、转换管道和特征存储并对其进行版本控制。
数据管理 最后,我们将发现数据仓库解决方案、版本化数据以实现可重复性、存储元数据以及创建 ETL 管道。这部分将确保模型训练的数据持续流动。
3.模型工程 模型工程
作者头像
在此阶段,我们将使用规划阶段的所有信息来构建和训练机器学习模型。例如:监控模型指标,确保可扩展性和鲁棒性,以及优化存储和计算资源。
通过深入挖掘构建有效的模型架构。 定义模型指标。 在训练和验证数据集上训练和验证模型。 跟踪实验、元数据、功能、代码更改和机器学习管道。 执行模型压缩和组装。 结合领域知识的专家来解释结果。 我们将重点关注模型架构、代码质量、机器学习实验、模型训练和组装。
|