获取数据

获取数据

  • 数据来源:Todo:推荐几个网站
    • 音频数据:(待补充)
    • 文本数据:(待补充)
    • 图像数据:(待补充)

数据基本处理

  • 缺失值处理:填充缺失值或删除不完整项目
  • 异常值处理:更改异常值或者删除异常值

特征工程

  • 特征提取:从原始数据中提取与任务相关的特征
  • 特征预处理:对特征进行归一化等处理,避免不同特征取值范围(消除量纲)对模型的影响
  • 特征降维:从高维特征中选择重要特征,去除无关特征,例如相关系数,PCA(主成分分析)

机器学习(训练模型)

  • 输入数据
  • 特征处理:对数据进行基本处理及特征工程,提取特征向量
  • 模型训练:将特征向量和标签送入模型进行训练,得到学习好的模型

模型评估

  • 预测过程: 新数据经过相同特征提取方法后,送入模型获取预测结果
  • 评估方法: 将预测结果与真实标签进行比较,评估模型性能

总结

1
2
3
4
5
6
7
8
9
graph TD
subgraph Training
A[label] --> D
B[input] --> C[feature extractor] --> E[features] --> D[machine learning algorithm]
end
subgraph Prediction
F[input] --> G[feature extractor] --> H[features] --> I[classifier model] --> J[label]
D --> I
end