README
feature_engine
是一个专门用于特征工程的python包,它将常用特征工程处理方式整理成了方便的API,本文主要翻译了用户使用指南部分内容。
特征工程是机器学习流程中的重要步骤,甚至说是最重要的步骤也不为过。在实践中,特征工程花费的时间精力通常也是最多的。使用feature_engine
中的函数可以节约很多时间。
当然,在提升便利性的优点下,使用封装好的包或多或少都会损失了灵活性。但这不要紧,如有其他特征工程的需求,用户可以自己另行编写。这个包的更新非常频繁,最新的1.3.0版本是2022年5月5日进行更新的,主要增加了时间序列特征处理的模块。预计这个包未来会加入更多的功能。
此外,这个包的文档也像是一本特特征工程的教材或手册,每一个函数就是一个知识点。阅读此文档也有对知识查缺补漏的功效。
才疏学浅,翻译有误敬请包涵。请点击下面中文文档后面的链接在线阅读。
- 中文文档:https://weak.notion.site/README-45498270dec94e5c8898617bfcf63613
- 英文文档:Feature-engine — 1.7.0 (trainindata.com)
- 更多内容:https://sharkfin-top.vercel.app/
注:本文档是1.3.x的文档
目录(超链接为原英文文档)
- 缺失值填充
- MeanMedianImputer
- ArbitraryNumberImputer
- EndTailImputer
- CategoricalImputer
- RandomSampleImputer
- AddMissingIndicator
- DropMissingData
- 分类变量编码
- OneHotEncoder
- CountFrequencyEncoder
- OrdinalEncoder
- MeanEncoder
- WoEEncoder
- PRatioEncoder
- DecisionTreeEncoder
- RareLabelEncoder
- 变量离散化
- EqualFrequencyDiscretiser
- EqualWidthDiscretiser
- ArbitraryDiscretiser
- DecisionTreeDiscretiser
- 异常值处理
- Winsorizer
- ArbitraryOutlierCapper
- OutlierTrimmer
- 数学转换
- LogTransformer
- LogCpTransformer
- ReciprocalTransformer
- PowerTransformer
- BoxCoxTransformer
- YeoJohnsonTransformer
- 特征创建
- 日期时间特征
- DatetimeFeatures
- 特征选择
- DropFeatures
- DropConstantFeatures
- DropDuplicateFeatures
- DropCorrelatedFeatures
- SmartCorrelatedSelection
- DropHighPSIFeatures
- SelectByShuffling
- SelectBySingleFeaturePerformance
- SelectByTargetMeanPerformance
- RecursiveFeatureElimination
- RecursiveFeatureAddition
- 时间序列特征
- Forecasting Features
- 预处理
- MatchVariables
- sklearn包装
- SklearnTransformerWrapper