结构化机器学习项目第一周：机器学习策略（一）——数据集设置

admin3个月前 (11-26)龙虎机器人48

在机器学习项目的初始阶段，数据集设置是决定项目成败的关键环节。一个精心设计的数据集不仅能够提高模型性能，还能避免后期出现难以调试的问题。本文将深入探讨数据集设置的核心策略，包括数据收集、清洗、划分、增强以及评估指标选择等关键步骤，帮助您构建一个高效、可靠的机器学习系统。

一、数据收集：构建高质量数据集的基础

1.1 数据来源选择

数据收集是机器学习项目的第一步，也是最容易被忽视的一步。常见的数据来源包括：

自有数据：企业内部的业务数据、用户行为数据等。这类数据通常与业务场景高度相关，但可能存在数据量不足或质量参差不齐的问题。

公开数据集：如Kaggle、UCI机器学习仓库等平台提供的结构化数据。这些数据集经过一定程度的清洗，适合快速验证模型可行性。

第三方数据：通过API接口或付费获取的行业数据，如金融、医疗等领域的专业数据。

合成数据：通过生成对抗网络（GAN）或规则引擎创建的模拟数据，适用于数据稀缺或隐私敏感的场景。

选择建议：优先使用与业务场景最相关的数据源，避免过度依赖单一来源。例如，在推荐系统项目中，应结合用户行为日志和商品属性数据。

1.2 数据质量评估

在收集数据后，需进行质量评估。关键指标包括：

完整性：缺失值比例。例如，用户画像数据中，年龄字段缺失率超过30%可能影响模型效果。

准确性：数据是否真实反映现实情况。如电商场景中，价格数据是否与市场价一致。

一致性：不同数据源之间是否存在冲突。例如，用户ID在不同系统中的表示是否统一。

时效性：数据是否及时更新。在金融风控场景中，过时的交易记录可能失去预测价值。

实践技巧：使用Python的pandas库进行初步分析：

import pandas as pd df = pd.read_csv('data.csv') print(df.isnull().sum()) # 缺失值统计 print(df.describe()) # 数值型数据统计

1.3 数据隐私与合规

在数据收集过程中，需严格遵守相关法律法规：

GDPR（欧盟通用数据保护条例）：要求明确数据收集目的，获得用户授权。

CCPA（加州消费者隐私法案）：赋予用户删除个人数据的权利。

行业规范：如医疗领域的HIPAA法案，对患者信息有严格保护要求。

解决方案：

数据脱敏：使用哈希、加密等技术处理敏感信息。

差分隐私：在数据集中添加噪声，保护个体隐私。

合规审计：定期检查数据处理流程是否符合法规要求。

二、数据清洗：提升数据质量的关键步骤

2.1 缺失值处理

缺失值处理是数据清洗的核心任务。常见方法包括：

删除：适用于缺失比例较低（如<5%）且随机缺失的情况。

填充：

数值型数据：使用均值、中位数或众数填充。

分类数据：使用"未知"类别或众数填充。

模型预测：使用其他特征预测缺失值，适用于高度相关的数据集。

示例代码：

from sklearn.impute import KNNImputer imputer = KNNImputer(n_neighbors=5) df_imputed = imputer.fit_transform(df)

2.2 异常值检测与处理

异常值可能来自数据录入错误或真实极端情况。检测方法包括：

统计方法：Z-score、IQR（四分位距）检测。

可视化方法：箱线图、散点图观察异常点。

机器学习方法：使用孤立森林、LOF（局部离群因子）等算法。

处理策略：

删除：确认是错误数据时。

修正：如将明显错误的年龄值修正为合理范围。

保留：如金融领域的异常交易可能是欺诈行为，需保留并标记。

2.3 数据转换与标准化

不同特征可能需要不同的处理方式：

数值型数据：

标准化：Z-score标准化，使数据均值为0，方差为1。

归一化：Min-Max缩放，将数据映射到[0,1]区间。

分类数据：

独热编码（One-Hot Encoding）：适用于无序类别。

标签编码（Label Encoding）：适用于有序类别。

文本数据：

TF-IDF：捕捉词频与文档频率。

Word2Vec/GloVe：获取词向量表示。

示例代码：

from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer # 定义数值和分类列 numeric_features = ['age', 'income'] categorical_features = ['gender', 'education'] # 创建预处理管道 preprocessor = ColumnTransformer( transformers=[ ('num', StandardScaler(), numeric_features), ('cat', OneHotEncoder(), categorical_features) ])

三、数据集划分：构建有效的训练-验证-测试集

3.1 划分比例选择

常见划分方式包括：

70-15-15：适用于数据量较大的场景（>10万样本）。

80-10-10：适用于中等规模数据集（1万-10万样本）。

90-5-5：适用于数据稀缺场景（<1万样本）。

特殊场景处理：

时间序列数据：按时间顺序划分，避免未来信息泄露。

类别不平衡数据：按类别比例分层抽样，确保每个子集类别分布一致。

3.2 交叉验证策略

当数据量有限时，交叉验证可提高模型评估的可靠性：

K折交叉验证：将数据分为K份，轮流使用K-1份训练，1份验证。

留一法交叉验证：K=样本数，适用于小数据集。

时间序列交叉验证：使用滚动窗口方法，保持时间顺序。

示例代码：

from sklearn.model_selection import TimeSeriesSplit tscv = TimeSeriesSplit(n_splits=5) for train_index, test_index in tscv.split(X): X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] # 训练和评估模型

3.3 过采样与欠采样

处理类别不平衡的常用方法：

过采样：

SMOTE：合成少数类样本。

ADASYN：根据样本密度调整合成数量。

欠采样：

随机欠采样：简单删除多数类样本。

Tomek Links：删除处于类别边界附近的样本对。

实践建议：

优先尝试过采样，避免信息丢失。

结合过采样和欠采样（如SMOTEENN）。

使用类别权重调整模型损失函数。

四、数据增强：提升模型泛化能力

4.1 图像数据增强

在计算机视觉任务中，常用增强方法包括：

几何变换：旋转、平移、缩放、裁剪。

颜色变换：亮度、对比度、饱和度调整。

噪声添加：高斯噪声、椒盐噪声。

混合增强：Mixup、CutMix等混合样本的技术。

示例代码（使用TensorFlow）：

from tensorflow.keras.preprocessing.image import ImageDataGenerator datagen = ImageDataGenerator( rotation_range=20, width_shift_range=0.2, height_shift_range=0.2, shear_range=0.2, zoom_range=0.2, horizontal_flip=True, fill_mode='nearest') train_datagen = datagen.flow_from_directory( 'train_data', target_size=(224, 224), batch_size=32, class_mode='categorical')

4.2 文本数据增强

文本数据的增强更具挑战性，常用方法包括：

同义词替换：使用WordNet或预训练模型替换单词。

句子重组：使用句法分析重新排列句子结构。

回译：将文本翻译成其他语言再翻译回来。

生成对抗网络：使用GAN生成新样本。

示例代码（使用nlpaug库）：

import nlpaug from nlpaug import Augmenter aug = nlpaug.augmenter.word.Augmenter( action='substitute', aug_model='word2vec', aug_model_path='GoogleNews-vectors-negative300.bin') augmented_text = aug.augment("This is an example sentence.")

4.3 表格数据增强

表格数据的增强方法相对较少，但仍有有效策略：

特征交叉：创建新特征，如年龄与性别的交互项。

特征工程：基于领域知识创建新特征。

对抗样本生成：使用GAN生成对抗样本以提升鲁棒性。

数据平滑：使用移动平均等方法平滑噪声数据。

五、评估指标选择：衡量模型性能的关键

5.1 回归任务指标

均方误差（MSE）：对异常值敏感，适用于误差较大的场景。

平均绝对误差（MAE）：对异常值不敏感，适用于误差均匀分布的场景。

R²分数：表示模型解释的方差比例，适用于比较不同模型。

选择建议：

关注预测误差绝对值时使用MAE。

需要惩罚大误差时使用MSE。

需要解释模型性能时使用R²。

5.2 分类任务指标

准确率（Accuracy）：适用于类别平衡的数据集。

精确率（Precision）：关注预测为正的样本中实际为正的比例。

召回率（Recall）：关注实际为正的样本中被预测为正的比例。

F1分数：精确率和召回率的调和平均，适用于类别不平衡的场景。

AUC-ROC曲线：衡量模型区分正负样本的能力。

实践建议：

医疗诊断等高风险场景：优先提高召回率，避免漏诊。

垃圾邮件过滤等场景：优先提高精确率，减少误判。

类别不平衡数据：使用F1分数或AUC-ROC作为主要指标。

5.3 多标签分类指标

Hamming Loss：衡量错误预测的标签比例。

Jaccard Index：计算预测集和真实集的交集与并集之比。

Precision@K：前K个预测标签中正确的比例。

选择建议：

关注整体标签预测质量时使用Hamming Loss。

需要精确匹配时使用Jaccard Index。

需要部分正确预测时使用Precision@K。

六、实践案例：电商推荐系统数据集设置

6.1 数据收集与清洗

数据源：用户行为日志、商品属性数据、用户画像数据。

清洗步骤：删除重复记录。

处理缺失值：用户年龄缺失用年龄段众数填充，商品价格缺失用同类商品均价填充。

检测异常值：删除价格超过品类平均价格3倍标准差的数据。

数据转换：将文本类目转换为数值ID，对数值特征进行标准化。

6.2 数据集划分

比例：70%训练集，15%验证集，15%测试集。

分层抽样：确保每个子集中用户和商品类别的分布一致。

时间验证：使用最近3个月的数据作为测试集，避免未来信息泄露。

6.3 评估指标

主要指标：NDCG@10（归一化折损累积增益）。

辅助指标：点击率（CTR）、转化率（CVR）。

业务指标：GMV（商品交易总额）、用户留存率。

七、总结与最佳实践

7.1 关键成功因素

数据质量优先：高质量数据比复杂模型更重要。

业务理解驱动：数据设置应紧密围绕业务目标。

迭代优化：持续监控数据质量，定期更新数据集。

文档完备：记录数据来源、处理方法和决策依据。

7.2 常见陷阱与解决方案

陷阱1：训练-测试集分布不一致。

解决方案：使用分层抽样，定期检查数据分布。

陷阱2：数据泄漏。

解决方案：严格分离训练和测试数据，避免使用未来信息。

陷阱3：评估指标与业务目标不符。

解决方案：与业务团队共同定义关键指标。

通过系统化的数据集设置策略，可以构建一个高效、可靠的机器学习系统，为后续的模型开发和部署奠定坚实基础。记住，在机器学习项目中，数据质量永远是第一位的。

返回列表

上一篇：龙虎机器人河内机器人

下一篇：结构化机器学习项目第一周：机器学习策略（二）——数据集设置

龙虎机器人

结构化机器学习项目第一周：机器学习策略（一）——数据集设置

相关文章

人工智能之编程基础：Python入门指南

.NET 10 新功能新增功能介绍：WebSocket 功能增强（三）

Hook技术在JS逆向中主要用于拦截和修改关键函数行为，以下是其经典应用场景：

Nginx Location没学好，把自己坑了一把

在 GeckoCIRCUITS 上开发新工具模块的方法（三）

Micrometer监控指标上报Starrocks（二）

发表评论

龙虎机器人,河内机器人,花开月下机器人,澳五机器人

Powered By 机器人. Theme by http://www.zjyzfzs.com/.

龙虎机器人

结构化机器学习项目第一周：机器学习策略（一）——数据集设置

相关文章

人工智能之编程基础：Python入门指南

.NET 10 新功能新增功能介绍：WebSocket 功能增强（三）

Hook技术在JS逆向中主要用于拦截和修改关键函数行为，以下是其经典应用场景：

Nginx Location没学好，把自己坑了一把

在 GeckoCIRCUITS 上开发新工具模块的方法（三）

Micrometer监控指标上报Starrocks（二）

发表评论 取消回复

龙虎机器人,河内机器人,花开月下机器人,澳五机器人

Powered By 机器人. Theme by http://www.zjyzfzs.com/.

发表评论