机器学习笔记

By admin , 12 三月, 2026

缺失值处理

可以考虑把缺失值填入众数或平均数。如果可以找出简单的聚类标准，也可以用聚类平均数取代，例如同一个区域的房价。

去掉无用属性

有些属性没什么意义，去掉可以减少干扰，降低运算量。

可以画一个关联性分析的热点图，看看有没有属性关联度过高（越接近1），可以去掉冗余。

sns.heatmap(train.astype(float).corr(),linewidths=0.1,vmax=1.0, 
            square=True, cmap=colormap, linecolor='white', annot=True)

提取新属性

有时候，有些原始属性提取是非值，或者做某种数学运算，可以得出一个符合逻辑、更好学习的新属性。

对于一些数值，如果划分成区间，训练复杂度会降低许多。等分是比较粗糙的做法，可以人工分析数据特点，做不等分。例如按儿童、青年、中年、老年来划分年龄，按有等级特征的区间来划分费用。

特征	`pd.cut()`	`pd.qcut()`
划分依据	按「数值区间」均分	按「样本数量」均分
区间宽度	每个区间宽度相等	区间宽度可能不等
样本分布	各区间样本数可能差异大	各区间样本数基本相等
例子（5 组年龄）	0-16、16-32…（等宽）	0-12、12-28、28-45…（不等宽）
适用场景	想按固定范围分组（如年龄段）	想让每组样本数均衡（建模）

对非数值型属性处理

对所有非数值型的字段做一个统计，看他们的属性有没有明显的大小关系，有的做映射成数值再训练。如果没有大小关系，可以考虑使用one-hot encoding方法。

集成(ensembling)学习

综合多种分类方法对分类结果做投票。具体地，把训练集进一步分成n份，把(n-1)/n作为子分类方法的训练集，把1/n作为测试集。一些常见的分类方法：

Random Forest classifier
Extra Trees classifier
AdaBoost classifer
Gradient Boosting classifer
Support Vector Machine

标签

AI

评论

您的名字

CAPTCHA

本站使用的软件

请输入"Drupal"

This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.

最新内容

Fenrir控制台读屏
17 hours ago
量子力学纲要
1 week ago
布洛赫球
1 week ago
量子云平台
1 week 1 day ago
Quantum Computing in Practice with Qiskit and IBM Quantum Experience
1 week 1 day ago
IBM量子信息基础课程
1 week 1 day ago
量子算法全集
2 weeks 4 days ago
爱给素材
1 month ago
AI世界生成工具
1 month ago
geogebra数学工具
1 month ago

最新评论

Mate从LTS版本中移除。变成全部都是短期的版本… 3 months 3 weeks ago
关于ubuntu-mate 3 months 3 weeks ago
鱼与漁 5 months ago
SC娛樂城 9 months 1 week ago
感谢分享 9 months 3 weeks ago
我没有做过很全面仔细的测试，但在我测试不多的句子里… 10 months ago
语速不一有遇到过吗 10 months ago
26个拼音字母 1 year 4 months ago
如果要把基金从场内转到场外，需要先在场外购买对应基金… 1 year 5 months ago
GPL-2… 1 year 5 months ago