README

feature_engine 是一个专门用于特征工程的python包,它将常用特征工程处理方式整理成了方便的API,本文主要翻译了用户使用指南部分内容。

特征工程是机器学习流程中的重要步骤,甚至说是最重要的步骤也不为过。在实践中,特征工程花费的时间精力通常也是最多的。使用feature_engine 中的函数可以节约很多时间。

当然,在提升便利性的优点下,使用封装好的包或多或少都会损失了灵活性。但这不要紧,如有其他特征工程的需求,用户可以自己另行编写。这个包的更新非常频繁,最新的1.3.0版本是2022年5月5日进行更新的,主要增加了时间序列特征处理的模块。预计这个包未来会加入更多的功能。

此外,这个包的文档也像是一本特特征工程的教材或手册,每一个函数就是一个知识点。阅读此文档也有对知识查缺补漏的功效。

才疏学浅,翻译有误敬请包涵。请点击下面中文文档后面的链接在线阅读。

  1. 中文文档:https://weak.notion.site/README-45498270dec94e5c8898617bfcf63613
  2. 英文文档:Feature-engine — 1.7.0 (trainindata.com)
  3. 更多内容:https://sharkfin-top.vercel.app/

注:本文档是1.3.x的文档

目录(超链接为原英文文档)

  1. 缺失值填充
    1. MeanMedianImputer
    2. ArbitraryNumberImputer
    3. EndTailImputer
    4. CategoricalImputer
    5. RandomSampleImputer
    6. AddMissingIndicator
    7. DropMissingData
  2. 分类变量编码
    1. OneHotEncoder
    2. CountFrequencyEncoder
    3. OrdinalEncoder
    4. MeanEncoder
    5. WoEEncoder
    6. PRatioEncoder
    7. DecisionTreeEncoder
    8. RareLabelEncoder
  3. 变量离散化
    1. EqualFrequencyDiscretiser
    2. EqualWidthDiscretiser
    3. ArbitraryDiscretiser
    4. DecisionTreeDiscretiser
  4. 异常值处理
    1. Winsorizer
    2. ArbitraryOutlierCapper
    3. OutlierTrimmer
  5. 数学转换
    1. LogTransformer
    2. LogCpTransformer
    3. ReciprocalTransformer
    4. PowerTransformer
    5. BoxCoxTransformer
    6. YeoJohnsonTransformer
  6. 特征创建
  7. 日期时间特征
    1. DatetimeFeatures
  8. 特征选择
    1. DropFeatures
    2. DropConstantFeatures
    3. DropDuplicateFeatures
    4. DropCorrelatedFeatures
    5. SmartCorrelatedSelection
    6. DropHighPSIFeatures
    7. SelectByShuffling
    8. SelectBySingleFeaturePerformance
    9. SelectByTargetMeanPerformance
    10. RecursiveFeatureElimination
    11. RecursiveFeatureAddition
  9. 时间序列特征
    1. Forecasting Features
  10. 预处理
    1. MatchVariables
  11. sklearn包装
    1. SklearnTransformerWrapper