纸聊

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 46|回复: 0

改进数据处理和模型训练技术

[复制链接]

3

主题

0

回帖

11

积分

新手上路

Rank: 1

积分
11
Habib01 发表于 2025-1-15 18:18:21
数据可用性——我们是否有足够的数据来训练模型?我们能否持续获得新的和更新的数据?我们可以使用合成数据来降低成本吗?
适用性——该解决方案能否解决问题或改进当前流程?我们可以使用机器学习来解决这个问题吗?
法律限制:我们是否获得当地政府的许可来实施此解决方案?我们获取数据是否合乎道德?这个应用会对社会产生什么影响?
稳健性和可扩展性——这个应用程序足够稳健吗?它具有可扩展性吗?
可解释性:我们能解释一下机器学习模型是如何获得结果的吗?我们能解释一下深度神经网络的内部运作吗?
资源可用性——我们是否有足够的计算、存储、网络和人力资源?我们有合格的专业人员吗?
企业领导者可以通过参加商业机器学习课程来学习机器 希腊数据 学习的基础知识,并应用这些课程来制定业务策略和实施机器学习解决方案。

2. 数据准备
数据准备作者头像

数据准备部分又分为数据采集和标注、清洗、管理和处理四个部分。   

数据收集和标签
首先,我们必须决定如何收集数据:内部收集数据、开源数据、从供应商处购买数据或生成合成数据。每种方法都有优点和缺点,在某些情况下,我们从所有四种方法中获取数据。

收集完毕后,我们必须对数据进行标记。购买干净的、有标签的数据并不是对所有公司都可行,您可能还需要在开发过程中对数据选择进行更改。这就是为什么您不能批量购买它们,并且数据可能最终对解决方案毫无用处。

数据收集和标签需要公司的大部分资源:金钱、时间、专业人员、主题专家和法律协议。

数据清理
接下来,我们将通过估算缺失值、分析错误标记的数据、删除异常值和减少噪声来清理数据。您将创建一个数据管道来自动执行此过程并执行数据质量验证。

数据处理
数据处理阶段涉及特征选择、不平衡类的处理、特征工程、数据增强以及数据标准化和缩放。

为了可重复性,我们将存储元数据、数据建模、转换管道和特征存储并对其进行版本控制。   

数据管理
最后,我们将发现数据仓库解决方案、版本化数据以实现可重复性、存储元数据以及创建 ETL 管道。这部分将确保模型训练的数据持续流动。

3.模型工程
模型工程

作者头像

在此阶段,我们将使用规划阶段的所有信息来构建和训练机器学习模型。例如:监控模型指标,确保可扩展性和鲁棒性,以及优化存储和计算资源。

通过深入挖掘构建有效的模型架构。
定义模型指标。
在训练和验证数据集上训练和验证模型。
跟踪实验、元数据、功能、代码更改和机器学习管道。
执行模型压缩和组装。
结合领域知识的专家来解释结果。
我们将重点关注模型架构、代码质量、机器学习实验、模型训练和组装。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|纸聊

GMT+8, 2025-5-17 17:48 , Processed in 0.043143 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表