DataPrep

Instance Constructors

new DataPrep(df: DataFrame)

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final val _allowableEvolutionStrategies: List[String]

Definition Classes
Defaults
final val _allowableInitialGenerationIndexMixingModes: List[String]

Definition Classes
Defaults
final val _allowableInitialGenerationModes: List[String]

Definition Classes
Defaults
final val _allowableMlFlowLoggingModes: List[String]

Definition Classes
Defaults
final val _allowableNAFillModes: List[String]

Definition Classes
Defaults
final val _allowedFilterDirections: Array[String]

Definition Classes
SanitizerDefaults
final val _allowedFilterModes: Array[String]

Definition Classes
SanitizerDefaults
final val _allowedStats: Array[String]

Pearson Defaults
Pearson Defaults

Definition Classes
SanitizerDefaults
var _autoStoppingFlag: Boolean

Definition Classes
AutomationConfig
var _autoStoppingScore: Double

Definition Classes
AutomationConfig
var _cardinalityCheckMode: String

Definition Classes
AutomationConfig
var _cardinalityLimit: Int

Definition Classes
AutomationConfig
var _cardinalityPrecision: Double

Definition Classes
AutomationConfig
var _cardinalitySwitchFlag: Boolean

Definition Classes
AutomationConfig
var _cardinalityThreshold: Int

Definition Classes
AutomationConfig
var _cardinalityType: String

Definition Classes
AutomationConfig
var _categoricalNAFillMap: Map[String, String]

Definition Classes
AutomationConfig
var _characterFillStat: String

Definition Classes
AutomationConfig
var _characterNABlanketFillValue: String

Definition Classes
AutomationConfig
var _continuousDataThreshold: Int

Definition Classes
AutomationConfig
var _continuousEvolutionGeneticMixing: Double

Definition Classes
AutomationConfig
var _continuousEvolutionImprovementThreshold: Int

Definition Classes
AutomationConfig
var _continuousEvolutionMaxIterations: Int

Definition Classes
AutomationConfig
var _continuousEvolutionMutationAggressiveness: Int

Definition Classes
AutomationConfig
var _continuousEvolutionParallelism: Int

Definition Classes
AutomationConfig
var _continuousEvolutionRollingImprovementCount: Int

Definition Classes
AutomationConfig
var _continuousEvolutionStoppingScore: Double

Definition Classes
AutomationConfig
var _correlationCutoffHigh: Double

Definition Classes
AutomationConfig
var _correlationCutoffLow: Double

Definition Classes
AutomationConfig
var _covarianceConfig: CovarianceConfig

Definition Classes
AutomationConfig
def _covarianceConfigDefaults: CovarianceConfig

Definition Classes
Defaults
var _covarianceFilterFlag: Boolean

Definition Classes
AutomationConfig
var _dataPrepCachingFlag: Boolean

Definition Classes
AutomationConfig
def _dataPrepConfigDefaults: DataPrepConfig

Definition Classes
Defaults
var _dataPrepParallelism: Int

Definition Classes
AutomationConfig
var _dataReductionFactor: Double

Definition Classes
AutomationConfig
var _dateTimeConversionType: String

Definition Classes
AutomationConfig
def _defaultAutoStoppingFlag: Boolean

Definition Classes
Defaults
def _defaultAutoStoppingScore: Double

Definition Classes
Defaults
def _defaultCovarianceFilterFlag: Boolean

Definition Classes
Defaults
def _defaultDataPrepCachingFlag: Boolean

Definition Classes
Defaults
def _defaultDataPrepParallelism: Int

Definition Classes
Defaults
def _defaultDataReductionFactor: Double

Definition Classes
Defaults
def _defaultDateTimeConversionType: String

Definition Classes
Defaults
def _defaultFeatureImportanceCutoffType: String

Definition Classes
Defaults
def _defaultFeatureImportanceCutoffValue: Double

Definition Classes
Defaults
def _defaultFeatureInteractionConfig: FeatureInteractionConfig

Definition Classes
Defaults
def _defaultFeatureInteractionFlag: Boolean

Definition Classes
Defaults
def _defaultFeaturesCol: String

Definition Classes
Defaults
def _defaultFieldsToIgnoreInVector: Array[String]

Definition Classes
Defaults
def _defaultFirstGenerationConfig: FirstGenerationConfig

Definition Classes
Defaults
def _defaultHyperSpaceInference: Boolean

Definition Classes
Defaults
def _defaultHyperSpaceInferenceCount: Int

Definition Classes
Defaults
def _defaultHyperSpaceModelCount: Int

Definition Classes
Defaults
def _defaultHyperSpaceModelType: String

Definition Classes
Defaults
def _defaultInitialGenerationMode: String

Definition Classes
Defaults
def _defaultKSampleConfig: KSampleConfig

Definition Classes
Defaults
def _defaultLabelCol: String

Definition Classes
Defaults
def _defaultMlFlowArtifactsFlag: Boolean

Definition Classes
Defaults
def _defaultMlFlowLoggingFlag: Boolean

Definition Classes
Defaults
def _defaultModelingFamily: String

Definition Classes
Defaults
def _defaultNAFillFlag: Boolean

Definition Classes
Defaults
def _defaultOneHotEncodeFlag: Boolean

Definition Classes
Defaults
def _defaultOutlierFilterFlag: Boolean

Definition Classes
Defaults
def _defaultPearsonFilterFlag: Boolean

Definition Classes
Defaults
def _defaultPipelineDebugFlag: Boolean

Definition Classes
Defaults
def _defaultPipelineId: String

Definition Classes
Defaults
def _defaultScalingFlag: Boolean

Definition Classes
Defaults
def _defaultVarianceFilterFlag: Boolean

Definition Classes
Defaults
var _deltaCacheBackingDirectory: String

Definition Classes
AutomationConfig
var _deltaCacheBackingDirectoryRemovalFlag: Boolean

Definition Classes
AutomationConfig
var _evolutionStrategy: String

Definition Classes
AutomationConfig
var _featureImportanceCutoffType: String

Definition Classes
AutomationConfig
var _featureImportanceCutoffValue: Double

Definition Classes
AutomationConfig
var _featureImportancesConfig: MainConfig

Definition Classes
AutomationConfig
def _featureImportancesDefaults: MainConfig

Definition Classes
Defaults
var _featureInteractionConfig: FeatureInteractionConfig

Definition Classes
AutomationConfig
var _featureInteractionContinuousDiscretizerBucketCount: Int

Definition Classes
AutomationConfig
var _featureInteractionFlag: Boolean

Definition Classes
AutomationConfig
var _featureInteractionParallelism: Int

Definition Classes
AutomationConfig
var _featureInteractionRetentionMode: String

Definition Classes
AutomationConfig
var _featureInteractionTargetInteractionPercentage: Double

Definition Classes
AutomationConfig
var _featuresCol: String

Definition Classes
AutomationConfig
var _fieldsToIgnore: Array[String]

Definition Classes
AutomationConfig
var _fieldsToIgnoreInVector: Array[String]

Definition Classes
AutomationConfig
var _fillConfig: FillConfig

Definition Classes
AutomationConfig
def _fillConfigDefaults: FillConfig

Definition Classes
Defaults
var _filterBounds: String

Definition Classes
AutomationConfig
var _filterPrecision: Double

Definition Classes
AutomationConfig
var _firstGenerationArraySeed: Long

Definition Classes
AutomationConfig
var _firstGenerationConfig: FirstGenerationConfig

Definition Classes
AutomationConfig
var _firstGenerationGenePool: Int

Definition Classes
AutomationConfig
var _firstGenerationIndexMixingMode: String

Definition Classes
AutomationConfig
var _firstGenerationMode: String

Definition Classes
AutomationConfig
var _firstGenerationPermutationCount: Int

Definition Classes
AutomationConfig
var _fixedMutationValue: Int

Definition Classes
AutomationConfig
def _gbtDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _gbtDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
var _generationalMutationStrategy: String

Definition Classes
AutomationConfig
var _geneticConfig: GeneticConfig

Definition Classes
AutomationConfig
var _geneticMBOCandidateFactor: Int

Definition Classes
AutomationConfig
var _geneticMBORegressorType: String

Definition Classes
AutomationConfig
var _geneticMixing: Double

Definition Classes
AutomationConfig
def _geneticTunerDefaults: GeneticConfig

Definition Classes
Defaults
var _hyperSpaceInference: Boolean

Definition Classes
AutomationConfig
var _hyperSpaceInferenceCount: Int

Definition Classes
AutomationConfig
var _hyperSpaceModelCount: Int

Definition Classes
AutomationConfig
var _hyperSpaceModelType: String

Definition Classes
AutomationConfig
var _inferenceConfigSaveLocation: String

Definition Classes
AutomationConfig
def _inferenceConfigSaveLocationDefault: String

Definition Classes
Defaults
var _kFold: Int

Definition Classes
AutomationConfig
var _kGroups: Int

Definition Classes
AutomationConfig
var _kMeansDistanceMeasurement: String

Definition Classes
AutomationConfig
var _kMeansMaxIter: Int

Definition Classes
AutomationConfig
var _kMeansPredictionCol: String

Definition Classes
AutomationConfig
var _kMeansSeed: Long

Definition Classes
AutomationConfig
var _kMeansTolerance: Double

Definition Classes
AutomationConfig
var _kSampleConfig: KSampleConfig

Definition Classes
AutomationConfig
var _labelBalanceMode: String

Definition Classes
AutomationConfig
var _labelCol: String

Definition Classes
AutomationConfig
def _lightGBMDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _lightGBMDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
def _linearRegressionDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _linearRegressionDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
def _logisticRegressionDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _logisticRegressionDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
var _lowerFilterNTile: Double

Definition Classes
AutomationConfig
var _lshHashTables: Int

Definition Classes
AutomationConfig
var _lshOutputCol: String

Definition Classes
AutomationConfig
var _lshSeed: Long

Definition Classes
AutomationConfig
var _mainConfig: MainConfig

Definition Classes
AutomationConfig
def _mainConfigDefaults: MainConfig

Definition Classes
Defaults
var _minimumVectorCountToMutate: Int

Definition Classes
AutomationConfig
var _mlFlowAPIToken: String

Definition Classes
AutomationConfig
var _mlFlowArtifactsFlag: Boolean

Definition Classes
AutomationConfig
var _mlFlowBestSuffix: String

Definition Classes
AutomationConfig
var _mlFlowConfig: MLFlowConfig

Definition Classes
AutomationConfig
def _mlFlowConfigDefaults: MLFlowConfig

Definition Classes
Defaults
var _mlFlowCustomRunTags: Map[String, String]

Definition Classes
AutomationConfig
var _mlFlowExperimentName: String

Definition Classes
AutomationConfig
var _mlFlowLoggingFlag: Boolean

Definition Classes
AutomationConfig
var _mlFlowLoggingMode: String

Definition Classes
AutomationConfig
var _mlFlowModelSaveDirectory: String

Definition Classes
AutomationConfig
var _mlFlowTrackingURI: String

Definition Classes
AutomationConfig
def _mlpcDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _mlpcDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
var _modelSeedMap: Map[String, Any]

Definition Classes
AutomationConfig
var _modelSeedSetStatus: Boolean

Definition Classes
AutomationConfig
var _modelSelectionDistinctThreshold: Int

Definition Classes
AutomationConfig
def _modelTypeDefault: String

Definition Classes
Defaults
var _modelingFamily: String

Definition Classes
AutomationConfig
var _mutationMagnitudeMode: String

Definition Classes
AutomationConfig
var _mutationMode: String

Definition Classes
AutomationConfig
var _mutationValue: Double

Definition Classes
AutomationConfig
var _naFillFilterPrecision: Double

Definition Classes
AutomationConfig
var _naFillFlag: Boolean

Definition Classes
AutomationConfig
var _naFillMode: String

Definition Classes
AutomationConfig
def _naiveBayesDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _naiveBayesDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
var _numberOfGenerations: Int

Definition Classes
AutomationConfig
var _numberOfMutationsPerGeneration: Int

Definition Classes
AutomationConfig
var _numberOfParentsToRetain: Int

Definition Classes
AutomationConfig
var _numericBoundaries: Map[String, (Double, Double)]

Definition Classes
AutomationConfig
var _numericFillStat: String

Definition Classes
AutomationConfig
var _numericNABlanketFillValue: Double

Definition Classes
AutomationConfig
var _numericNAFillMap: Map[String, AnyVal]

Definition Classes
AutomationConfig
var _numericRatio: Double

Definition Classes
AutomationConfig
var _numericTarget: Int

Definition Classes
AutomationConfig
var _oneHotEncodeFlag: Boolean

Definition Classes
AutomationConfig
var _outlierConfig: OutlierConfig

Definition Classes
AutomationConfig
def _outlierConfigDefaults: OutlierConfig

Definition Classes
Defaults
var _outlierFilterFlag: Boolean

Definition Classes
AutomationConfig
var _outputDfRepartitionScaleFactor: Int

Definition Classes
AutomationConfig
var _pNorm: Double

Definition Classes
AutomationConfig
var _parallelism: Int

Definition Classes
AutomationConfig
var _pearsonAutoFilterNTile: Double

Definition Classes
AutomationConfig
var _pearsonConfig: PearsonConfig

Definition Classes
AutomationConfig
def _pearsonConfigDefaults: PearsonConfig

Definition Classes
Defaults
var _pearsonFilterDirection: String

Definition Classes
AutomationConfig
var _pearsonFilterFlag: Boolean

Definition Classes
AutomationConfig
var _pearsonFilterManualValue: Double

Definition Classes
AutomationConfig
var _pearsonFilterMode: String

Definition Classes
AutomationConfig
var _pearsonFilterStatistic: String

Definition Classes
AutomationConfig
var _pipelineDebugFlag: Boolean

Definition Classes
AutomationConfig
var _pipelineId: String

Definition Classes
AutomationConfig
var _quorumCount: Int

Definition Classes
AutomationConfig
def _rfDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _rfDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
var _scalerMax: Double

Definition Classes
AutomationConfig
var _scalerMin: Double

Definition Classes
AutomationConfig
var _scalerType: String

Definition Classes
AutomationConfig
var _scalingConfig: ScalingConfig

Definition Classes
AutomationConfig
def _scalingConfigDefaults: ScalingConfig

Definition Classes
Defaults
var _scalingFlag: Boolean

Definition Classes
AutomationConfig
def _scoringDefaultClassifier: String

Definition Classes
Defaults
def _scoringDefaultRegressor: String

Definition Classes
Defaults
var _scoringMetric: String

Definition Classes
AutomationConfig
var _scoringOptimizationStrategy: String

Definition Classes
AutomationConfig
def _scoringOptimizationStrategyClassifier: String

Definition Classes
Defaults
def _scoringOptimizationStrategyRegressor: String

Definition Classes
Defaults
var _seed: Long

Definition Classes
AutomationConfig
var _splitCachingStrategy: String

Definition Classes
AutomationConfig
var _standardScalerMeanFlag: Boolean

Definition Classes
AutomationConfig
var _standardScalerStdDevFlag: Boolean

Definition Classes
AutomationConfig
var _stringBoundaries: Map[String, List[String]]

Definition Classes
AutomationConfig
final val _supportedFeatureImportanceCutoffTypes: List[String]

Definition Classes
Defaults
final val _supportedModels: Array[String]

Definition Classes
Defaults
def _svmDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _svmDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
var _syntheticCol: String

Definition Classes
AutomationConfig
var _trainPortion: Double

Definition Classes
AutomationConfig
var _trainSplitChronologicalColumn: String

Definition Classes
AutomationConfig
var _trainSplitChronologicalRandomPercentage: Double

Definition Classes
AutomationConfig
var _trainSplitColumnSet: Boolean

Definition Classes
AutomationConfig
var _trainSplitMethod: String

Definition Classes
AutomationConfig
def _treeSplitDefaults: MainConfig

Definition Classes
Defaults
var _treeSplitsConfig: MainConfig

Definition Classes
AutomationConfig
def _treesDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
def _treesDefaultStringBoundaries: Map[String, List[String]]

Definition Classes
Defaults
var _upperFilterNTile: Double

Definition Classes
AutomationConfig
var _varianceFilterFlag: Boolean

Definition Classes
AutomationConfig
var _vectorMutationMethod: String

Definition Classes
AutomationConfig
def _xgboostDefaultNumBoundaries: Map[String, (Double, Double)]

Definition Classes
Defaults
final val allowableCardinalilties: List[String]

Definition Classes
Defaults
final val allowableCategoricalFilterModes: List[String]

Definition Classes
Defaults
final val allowableDateTimeConversions: List[String]

Definition Classes
Defaults
final val allowableFeatureInteractionModes: List[String]

Definition Classes
Defaults
final val allowableKMeansDistanceMeasurements: List[String]

Definition Classes
Defaults
final val allowableLabelBalanceModes: List[String]

Definition Classes
Defaults
final val allowableMBORegressorTypes: List[String]

Definition Classes
Defaults
final val allowableMutationModes: List[String]

Definition Classes
Defaults
final val allowableScalers: Array[String]

Scaler Defaults
Scaler Defaults

Definition Classes
SanitizerDefaults
final val allowableVectorMutationMethods: List[String]

Definition Classes
Defaults
final def asInstanceOf[T0]: T0

Definition Classes
Any
def autoStoppingOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def autoStoppingOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def cardinalitySwitchOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def cardinalitySwitchOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def covarianceFilterOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def covarianceFilterOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def dataPersist(preDF: DataFrame, postDF: DataFrame, cacheLevel: StorageLevel, blockUnpersist: Boolean): (DataFrame, String)

Definition Classes
AutomationTools
def dataPrepCachingOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def dataPrepCachingOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def defaultFeaturesCol: String

Definition Classes
SanitizerDefaults
def defaultLabelCol: String

Global Defaults
Global Defaults

Definition Classes
SanitizerDefaults
def defaultPNorm: Double

Definition Classes
SanitizerDefaults
def defaultPearsonAutoFilterNTile: Double

Definition Classes
SanitizerDefaults
def defaultPearsonFilterDirection: String

Definition Classes
SanitizerDefaults
def defaultPearsonFilterManualValue: Double

Definition Classes
SanitizerDefaults
def defaultPearsonFilterMode: String

Definition Classes
SanitizerDefaults
def defaultPearsonFilterStatistic: String

Definition Classes
SanitizerDefaults
def defaultRenamedFeaturesCol: String

Definition Classes
SanitizerDefaults
def defaultScalerMax: Double

Definition Classes
SanitizerDefaults
def defaultScalerMin: Double

Definition Classes
SanitizerDefaults
def defaultScalerType: String

Definition Classes
SanitizerDefaults
def defaultStandardScalerMeanFlag: Boolean

Definition Classes
SanitizerDefaults
def defaultStandardScalerStdDevFlag: Boolean

Definition Classes
SanitizerDefaults
def deltaCheckBackingDirectoryRemovalOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def deltaCheckBackingDirectoryRemovalOn(): DataPrep.this.type

Definition Classes
AutomationConfig
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def extractGenerationData(payload: Array[GenericModelReturn]): Map[Int, (Double, Double)]

Definition Classes
AutomationTools
def extractGenerationalScores(payload: Array[GenericModelReturn], scoringOptimizationStrategy: String, modelFamily: String, modelType: String): Array[GenerationalReport]

Definition Classes
AutomationTools
def extractMLPCPayload(payload: MLPCConfig): Map[String, Any]

Definition Classes
AutomationTools
def extractPayload(cc: Product): Map[String, Any]

Definition Classes
AutomationTools
def featureInteractionOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def featureInteractionOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def fieldRemovalCompare(preFilterFields: Array[String], postFilterFields: Array[String]): List[String]

Definition Classes
AutomationTools
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
def generationDataFrameReport(generationalData: Array[GenerationalReport], sortingStrategy: String): DataFrame

Definition Classes
AutomationTools
def getAutoStoppingFlag: Boolean

Definition Classes
AutomationConfig
def getAutoStoppingScore: Double

Definition Classes
AutomationConfig
def getCardinalityCheckMode: String

Definition Classes
AutomationConfig
def getCardinalityLimit: Int

Definition Classes
AutomationConfig
def getCardinalityPrecision: Double

Definition Classes
AutomationConfig
def getCardinalitySwitch: Boolean

Definition Classes
AutomationConfig
def getCardinalityType: String

Definition Classes
AutomationConfig
def getCategoricalNAFillMap: Map[String, String]

Definition Classes
AutomationConfig
def getCharacterFillStat: String

Definition Classes
AutomationConfig
def getCharacterNABlanketFillValue: String

Definition Classes
AutomationConfig
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def getContinuousDataThreshold: Int

Definition Classes
AutomationConfig
def getContinuousEvolutionGeneticMixing: Double

Definition Classes
AutomationConfig
def getContinuousEvolutionMaxIterations: Int

Definition Classes
AutomationConfig
def getContinuousEvolutionMutationAggressiveness: Int

Definition Classes
AutomationConfig
def getContinuousEvolutionParallelism: Int

Definition Classes
AutomationConfig
def getContinuousEvolutionRollingImporvementCount: Int

Definition Classes
AutomationConfig
def getContinuousEvolutionStoppingScore: Double

Definition Classes
AutomationConfig
def getCorrelationCutoffHigh: Double

Definition Classes
AutomationConfig
def getCorrelationCutoffLow: Double

Definition Classes
AutomationConfig
def getCovarianceConfig: CovarianceConfig

Definition Classes
AutomationConfig
def getCovarianceFilterStatus: Boolean

Definition Classes
AutomationConfig
def getDataPrepCachingStatus: Boolean

Definition Classes
AutomationConfig
def getDataPrepParallelism: Int

Definition Classes
AutomationConfig
def getDataReductionFactor: Double

Definition Classes
AutomationConfig
def getDateTimeConversionType: String

Definition Classes
AutomationConfig
def getDeltaCacheBackingDirectory: String

Definition Classes
AutomationConfig
def getDeltaCacheBackingDirectoryRemovalFlag: Boolean

Definition Classes
AutomationConfig
def getEvolutionStrategy: String

Definition Classes
AutomationConfig
def getFeatConfig: MainConfig

Definition Classes
AutomationConfig
def getFeatureImportanceCutoffType: String

Definition Classes
AutomationConfig
def getFeatureImportanceCutoffValue: Double

Definition Classes
AutomationConfig
def getFeatureInteractionConfig: FeatureInteractionConfig

Definition Classes
AutomationConfig
def getFeatureInteractionContinuousDiscretizerBucketCount: Int

Definition Classes
AutomationConfig
def getFeatureInteractionParallelism: Int

Definition Classes
AutomationConfig
def getFeatureInteractionRetentionMode: String

Definition Classes
AutomationConfig
def getFeatureInteractionStatus: Boolean

Definition Classes
AutomationConfig
def getFeatureInteractionTargetInteractionPercentage: Double

Definition Classes
AutomationConfig
def getFeaturesCol: String

Definition Classes
AutomationConfig
def getFieldsToIgnore: Array[String]

Definition Classes
AutomationConfig
def getFieldsToIgnoreInVector: Array[String]

Definition Classes
AutomationConfig
def getFillConfig: FillConfig

Definition Classes
AutomationConfig
def getFilterBounds: String

Definition Classes
AutomationConfig
def getFilterPrecision: Double

Definition Classes
AutomationConfig
def getFirstGenerationArraySeed: Long

Definition Classes
AutomationConfig
def getFirstGenerationConfig: FirstGenerationConfig

Definition Classes
AutomationConfig
def getFirstGenerationGenePool: Int

Definition Classes
AutomationConfig
def getFirstGenerationIndexMixingMode: String

Definition Classes
AutomationConfig
def getFirstGenerationMode: String

Definition Classes
AutomationConfig
def getFirstGenerationPermutationCount: Int

Definition Classes
AutomationConfig
def getFixedMutationValue: Int

Definition Classes
AutomationConfig
def getGenerationalMutationStrategy: String

Definition Classes
AutomationConfig
def getGeneticConfig: GeneticConfig

Definition Classes
AutomationConfig
def getGeneticMixing: Double

Definition Classes
AutomationConfig
def getHyperSpaceInferenceCount: Int

Definition Classes
AutomationConfig
def getHyperSpaceInferenceStatus: Boolean

Definition Classes
AutomationConfig
def getHyperSpaceModelCount: Int

Definition Classes
AutomationConfig
def getHyperSpaceModelType: String

Definition Classes
AutomationConfig
def getInferenceConfigSaveLocation: String

Definition Classes
AutomationConfig
def getKFold: Int

Definition Classes
AutomationConfig
def getKGroups: Int

Definition Classes
AutomationConfig
def getKMeansDistanceMeasurement: String

Definition Classes
AutomationConfig
def getKMeansMaxIter: Int

Definition Classes
AutomationConfig
def getKMeansPredictionCol: String

Definition Classes
AutomationConfig
def getKMeansSeed: Long

Definition Classes
AutomationConfig
def getKMeansTolerance: Double

Definition Classes
AutomationConfig
def getKSampleConfig: KSampleConfig

Definition Classes
AutomationConfig
def getLSHHashTables: Int

Definition Classes
AutomationConfig
def getLSHOutputCol: String

Definition Classes
AutomationConfig
def getLabelCol: String

Definition Classes
AutomationConfig
def getLowerFilterNTile: Double

Definition Classes
AutomationConfig
def getMainConfig: MainConfig

Definition Classes
AutomationConfig
def getMinimumVectorCountToMutate: Int

Definition Classes
AutomationConfig
def getMlFlowBestSuffix: String

Definition Classes
AutomationConfig
def getMlFlowConfig: MLFlowConfig

Definition Classes
AutomationConfig
def getMlFlowCustomRunTags: Map[String, String]

Definition Classes
AutomationConfig
def getMlFlowExperimentName: String

Definition Classes
AutomationConfig
def getMlFlowLogArtifactsFlag: Boolean

Definition Classes
AutomationConfig
def getMlFlowLoggingFlag: Boolean

Definition Classes
AutomationConfig
def getMlFlowLoggingMode: String

Definition Classes
AutomationConfig
def getMlFlowModelSaveDirectory: String

Definition Classes
AutomationConfig
def getMlFlowTrackingURI: String

Definition Classes
AutomationConfig
def getModelSeedMap: Map[String, Any]

Definition Classes
AutomationConfig
def getModelSeedSetStatus: Boolean

Definition Classes
AutomationConfig
def getModelSelectionDistinctThreshold: Int

Definition Classes
AutomationConfig
def getModelingFamily: String

Definition Classes
AutomationConfig
def getMutationMagnitudeMode: String

Definition Classes
AutomationConfig
def getMutationMode: String

Definition Classes
AutomationConfig
def getMutationValue: Double

Definition Classes
AutomationConfig
def getNAFillFilterPrecision: Double

Definition Classes
AutomationConfig
def getNAFillMode: String

Definition Classes
AutomationConfig
def getNaFillStatus: Boolean

Definition Classes
AutomationConfig
def getNumberOfGenerations: Int

Definition Classes
AutomationConfig
def getNumberOfMutationsPerGeneration: Int

Definition Classes
AutomationConfig
def getNumberOfParentsToRetain: Int

Definition Classes
AutomationConfig
def getNumericBoundaries: Map[String, (Double, Double)]

Definition Classes
AutomationConfig
def getNumericFillStat: String

Definition Classes
AutomationConfig
def getNumericNABlanketFillValue: Double

Definition Classes
AutomationConfig
def getNumericNAFillMap: Map[String, AnyVal]

Definition Classes
AutomationConfig
def getOneHotEncodingStatus: Boolean

Definition Classes
AutomationConfig
def getOutlierConfig: OutlierConfig

Definition Classes
AutomationConfig
def getOutlierFilterStatus: Boolean

Definition Classes
AutomationConfig
def getPNorm: Double

Definition Classes
AutomationConfig
def getParallelism: Int

Definition Classes
AutomationConfig
def getPearsonAutoFilterNTile: Double

Definition Classes
AutomationConfig
def getPearsonConfig: PearsonConfig

Definition Classes
AutomationConfig
def getPearsonFilterDirection: String

Definition Classes
AutomationConfig
def getPearsonFilterManualValue: Double

Definition Classes
AutomationConfig
def getPearsonFilterMode: String

Definition Classes
AutomationConfig
def getPearsonFilterStatistic: String

Definition Classes
AutomationConfig
def getPearsonFilterStatus: Boolean

Definition Classes
AutomationConfig
def getPipelineId: String

Definition Classes
AutomationConfig
def getQuorumCount: Int

Definition Classes
AutomationConfig
def getScalerMax: Double

Definition Classes
AutomationConfig
def getScalerMin: Double

Definition Classes
AutomationConfig
def getScalerType: String

Definition Classes
AutomationConfig
def getScalingConfig: ScalingConfig

Definition Classes
AutomationConfig
def getScalingStatus: Boolean

Definition Classes
AutomationConfig
def getScoringMetric: String

Definition Classes
AutomationConfig
def getScoringOptimizationStrategy: String

Definition Classes
AutomationConfig
def getSeed: Long

Definition Classes
AutomationConfig
def getSplitCachingStrategy: String

Definition Classes
AutomationConfig
def getStandardScalingMeanFlag: Boolean

Definition Classes
AutomationConfig
def getStandardScalingStdDevFlag: Boolean

Definition Classes
AutomationConfig
def getStringBoundaries: Map[String, List[String]]

Definition Classes
AutomationConfig
def getSyntheticCol: String

Definition Classes
AutomationConfig
def getTrainPortion: Double

Definition Classes
AutomationConfig
def getTrainSplitChronologicalColumn: String

Definition Classes
AutomationConfig
def getTrainSplitChronologicalRandomPercentage: Double

Definition Classes
AutomationConfig
def getTrainSplitMethod: String

Definition Classes
AutomationConfig
def getTreeSplitsConfig: MainConfig

Definition Classes
AutomationConfig
def getUpperFilterNTile: Double

Definition Classes
AutomationConfig
def getVarianceFilterStatus: Boolean

Definition Classes
AutomationConfig
def getVectorMutationMethod: String

Definition Classes
AutomationConfig
def hashCode(): Int

Definition Classes
AnyRef → Any
def hyperSpaceInferenceOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def hyperSpaceInferenceOn(): DataPrep.this.type

Definition Classes
AutomationConfig
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def mlFlowLogArtifactsOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def mlFlowLogArtifactsOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def mlFlowLoggingOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def mlFlowLoggingOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def naFillOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def naFillOn(): DataPrep.this.type

Definition Classes
AutomationConfig
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def oneHotEncodingOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def oneHotEncodingOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def outlierFilterOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def outlierFilterOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def pearsonFilterOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def pearsonFilterOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def prepData(): DataGeneration
def prettyPrintConfig(config: AnyRef): String

Provide a human-readable report into stdout and in the logs that show the configuration for a model run with the key -> value relationship shown as json
Provide a human-readable report into stdout and in the logs that show the configuration for a model run with the key -> value relationship shown as json
config
AnyRef -> a defined case class
returns
String in the form of pretty print syntax

Definition Classes
AutomationTools
def printSchema(schema: Array[String], dataName: String): String

Definition Classes
AutomationTools
def printSchema(df: DataFrame, dataName: String): String

Definition Classes
AutomationTools
def recordInferenceDataConfig(config: MainConfig, startingFields: Array[String]): InferenceDataConfig

Helper method for generating the Inference Config object for the data configuration steps needed to perform to reproduce the modeling for subsequent inference runs.
Helper method for generating the Inference Config object for the data configuration steps needed to perform to reproduce the modeling for subsequent inference runs.
config
The full main Config that is utilized for the execution of the run.
startingFields
The fields that are are returned from type casting and validation (may contain artificial suffixes for StringIndexer (_si) and OneHotEncoder(_oh). These will be removed before recording.
returns
and Instance of InferenceDataConfig

Definition Classes
AutomationTools
Since
0.4.0
def recordInferenceSwitchSettings(config: MainConfig): InferenceSwitchSettings

Single-pass method for recording all switch settings to the InferenceConfig Object.
Single-pass method for recording all switch settings to the InferenceConfig Object.
config
MainConfig used for starting the training AutoML run

Definition Classes
AutomationTools
lazy val sc: SparkContext

Definition Classes
SparkSessionWrapper
def scalingOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def scalingOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def setAutoStoppingScore(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setCardinalityCheckMode(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
Annotations
@throws( classOf[AssertionError] )
def setCardinalityLimit(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
def setCardinalityPrecision(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
def setCardinalitySwitch(value: Boolean): DataPrep.this.type

Definition Classes
AutomationConfig
def setCardinalityThreshold(value: Int): DataPrep.this.type

Setter - for overriding the cardinality threshold exception threshold.
Setter - for overriding the cardinality threshold exception threshold. [WARNING] increasing this value on a sufficiently large data set could incur, during runtime, excessive memory and cpu pressure on the cluster.
value
Int: the limit above which an exception will be thrown for a classification problem wherein the label distinct count is too large to successfully generate synthetic data.

Definition Classes
AutomationConfig
Since
0.5.1
Note
Default: 20
def setCardinalityType(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
Annotations
@throws( classOf[AssertionError] )
def setCategoricalNAFillMap(value: Map[String, String]): DataPrep.this.type

Setter for providing a map of [Column Name -> String Fill Value] for manual by-column overrides.
Setter for providing a map of [Column Name -> String Fill Value] for manual by-column overrides. Any non-specified fields in this map will utilize the "auto" statistics-based fill paradigm to calculate and fill any NA values in non-numeric columns.
value
Map[String, String]: Column Name as String -> Fill Value as String

Definition Classes
AutomationConfig
Since
0.5.2
Note
If fields are specified in here that are not part of the DataFrame's schema, an exception will be thrown.
,
if naFillMode is specified as using Map Fill modes, this setter or the numeric na fill map MUST be set.
def setCharacterFillStat(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setCharacterNABlanketFillValue(value: String): DataPrep.this.type

Setter for providing a 'blanket override' value (fill all found categorical columns' missing values with this specified value).
Setter for providing a 'blanket override' value (fill all found categorical columns' missing values with this specified value).
value
String: A value to fill all categorical na values in the DataFrame with.

Definition Classes
AutomationConfig
Since
0.5.2
def setContinuousDataThreshold(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setContinuousEvolutionGeneticMixing(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setContinuousEvolutionImprovementThreshold(value: Int): DataPrep.this.type

Setter for defining the secondary stopping criteria for continuous training mode ( number of consistentlt not-improving runs to terminate the learning algorithm due to diminishing returns.
Setter for defining the secondary stopping criteria for continuous training mode ( number of consistentlt not-improving runs to terminate the learning algorithm due to diminishing returns.
value
Negative Integer (an improvement to a priori will reset the counter and subsequent non-improvements will decrement a mutable counter. If the counter hits this limit specified in value, the continuous mode algorithm will stop).

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Since
0.6.0
Exceptions thrown
IllegalArgumentException if the value is positive.
def setContinuousEvolutionMaxIterations(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setContinuousEvolutionMutationAggressiveness(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setContinuousEvolutionParallelism(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setContinuousEvolutionRollingImprovementCount(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setContinuousEvolutionStoppingScore(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setCorrelationCutoffHigh(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setCorrelationCutoffLow(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setDataPrepParallelism(value: Int): DataPrep.this.type

Setter for defining the number of concurrent threads allocated to performing asynchronous data prep tasks within the feature engineering aspect of this application.
Setter for defining the number of concurrent threads allocated to performing asynchronous data prep tasks within the feature engineering aspect of this application.
value
Int: A value that must be greater than zero.

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Since
0.6.0
Exceptions thrown
IllegalArgumentException if a value less than or equal to zero is supplied.
Note
This value has an upper limit, depending on driver size, that will restrict the efficacy of the asynchronous tasks within the pool. Setting this too high may cause cluster instability.
def setDataReductionFactor(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setDateTimeConversionType(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setDeltaCacheBackingDirectory(value: String): DataPrep.this.type

Setter for providing a path to write the kfold train/test splits as Delta data sets to (useful for extremely large data sets or a situation where using local disk storage might be prohibitively expensive)
Setter for providing a path to write the kfold train/test splits as Delta data sets to (useful for extremely large data sets or a situation where using local disk storage might be prohibitively expensive)
value
String path to a dbfs location for creating the temporary (or persisted)

Definition Classes
AutomationConfig
Since
0.7.1
def setDeltaCacheBackingDirectoryRemovalFlag(value: Boolean): DataPrep.this.type

Setter for whether or not to delete the written train/test splits for the run in Delta.
Setter for whether or not to delete the written train/test splits for the run in Delta. Defaulted to true which means that the job will delete the data on Object store to clean itself up after the run is completed if the splitCachingStrategy is set to 'delta'
value
Boolean - true => delete false => leave on Object Store

Definition Classes
AutomationConfig
Since
0.7.1
def setEvolutionStrategy(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setFeatConfig(value: MainConfig): DataPrep.this.type

Definition Classes
AutomationConfig
def setFeatConfig(): DataPrep.this.type

Definition Classes
AutomationConfig
def setFeatureImportanceCutoffType(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setFeatureImportanceCutoffValue(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setFeatureInteractionContinuousDiscretizerBucketCount(value: Int): DataPrep.this.type

Setter for determining the behavior of continuous feature columns.
Setter for determining the behavior of continuous feature columns. In order to calculate Entropy for a continuous variable, the distribution must be converted to nominal values for estimation of per-split information gain. This setting defines how many nominal categorical values to create out of a continuously distributed feature in order to calculate Entropy.
value
Int -> must be greater than 1

Definition Classes
AutomationConfig
Since
0.6.2
Exceptions thrown
IllegalArgumentException if the value specified is <= 1
def setFeatureInteractionParallelism(value: Int): DataPrep.this.type

Setter for configuring the concurrent count for scoring of feature interaction candidates.
Setter for configuring the concurrent count for scoring of feature interaction candidates. Due to the nature of these operations, the configuration here may need to be set differently to that of the modeling and general feature engineering phases of the toolkit. This is highly dependent on the row count of the data set being submitted.
value
Int -> must be greater than 0

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Since
0.6.2
Exceptions thrown
IllegalArgumentException if the value is < 1
def setFeatureInteractionRetentionMode(value: String): DataPrep.this.type

Setter for determining the mode of operation for inclusion of interacted features.
Setter for determining the mode of operation for inclusion of interacted features. Modes are:
- all -> Includes all interactions between all features (after string indexing of categorical values)
- optimistic -> If the Information Gain / Variance, as compared to at least ONE of the parents of the interaction is above the threshold set by featureInteractionTargetInteractionPercentage (e.g. if IG of left parent is 0.5 and right parent is 0.9, with threshold set at 10, if the interaction between these two parents has an IG of 0.42, it would be rejected, but if it was 0.46, it would be kept)
- strict -> the threshold percentage must be met for BOTH parents. (in the above example, the IG for the interaction would have to be > 0.81 in order to be included in the feature vector).
value
String -> one of: 'all', 'optimistic', or 'strict'

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Since
0.6.2
Exceptions thrown
IllegalArgumentException if the specified value submitted is not permitted
def setFeatureInteractionTargetInteractionPercentage(value: Double): DataPrep.this.type

Setter for establishing the minimum acceptable InformationGain or Variance allowed for an interaction candidate based on comparison to the scores of its parents.
Setter for establishing the minimum acceptable InformationGain or Variance allowed for an interaction candidate based on comparison to the scores of its parents.
value
Double in range of -inf -> inf

Definition Classes
AutomationConfig
Since
0.6.2
def setFeaturesCol(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setFieldsToIgnore(value: Array[String]): DataPrep.this.type

Definition Classes
AutomationConfig
def setFieldsToIgnoreInVector(value: Array[String]): DataPrep.this.type

Definition Classes
AutomationConfig
def setFilterBounds(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setFilterPrecision(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setFirstGenerationArraySeed(value: Long): DataPrep.this.type

Definition Classes
AutomationConfig
def setFirstGenerationGenePool(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setFirstGenerationIndexMixingMode(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setFirstGenerationMode(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setFirstGenerationPermutationCount(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setFixedMutationValue(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setGenerationalMutationStrategy(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setGeneticMBOCandidateFactor(value: Int): DataPrep.this.type

Setter for defining the factor to be applied to the candidate listing of hyperparameters to generate through mutation for each generation other than the initial and post-modeling optimization phases.
Setter for defining the factor to be applied to the candidate listing of hyperparameters to generate through mutation for each generation other than the initial and post-modeling optimization phases. The larger this value (default: 10), the more potential space can be searched. There is not a large performance hit to this, and as such, values in excess of 100 are viable.
value
Int - a factor to multiply the numberOfMutationsPerGeneration by to generate a count of potential candidates.

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Since
0.6.0
Exceptions thrown
IllegalArgumentException if the value is not greater than zero.
def setGeneticMBORegressorType(value: String): DataPrep.this.type

Setter for selecting the type of Regressor to use for the within-epoch generation MBO of candidates
Setter for selecting the type of Regressor to use for the within-epoch generation MBO of candidates
value
String - one of "XGBoost", "LinearRegression" or "RandomForest"

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Since
0.6.0
Exceptions thrown
IllegalArgumentException if the value is not supported
def setGeneticMixing(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setHyperSpaceInferenceCount(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setHyperSpaceModelCount(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setHyperSpaceModelType(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setInferenceConfigSaveLocation(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
def setKFold(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setKGroups(value: Int): DataPrep.this.type

Setter for specifying the number of K-Groups to generate in the KMeans model
Setter for specifying the number of K-Groups to generate in the KMeans model
value
Int: number of k groups to generate
returns
this

Definition Classes
AutomationConfig
def setKMeansDistanceMeasurement(value: String): DataPrep.this.type

Setter for which distance measurement to use to calculate the nearness of vectors to a centroid
Setter for which distance measurement to use to calculate the nearness of vectors to a centroid
value
String: Options -> "euclidean" or "cosine" Default: "euclidean"
returns
this

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Exceptions thrown
IllegalArgumentException() if an invalid value is entered
def setKMeansMaxIter(value: Int): DataPrep.this.type

Setter for specifying the maximum number of iterations for the KMeans model to go through to converge
Setter for specifying the maximum number of iterations for the KMeans model to go through to converge
value
Int: Maximum limit on iterations
returns
this

Definition Classes
AutomationConfig
def setKMeansPredictionCol(value: String): DataPrep.this.type

Setter for the internal KMeans column for cluster membership attribution
Setter for the internal KMeans column for cluster membership attribution
value
String: column name for internal algorithm column for group membership
returns
this

Definition Classes
AutomationConfig
def setKMeansSeed(value: Long): DataPrep.this.type

Setter for a KMeans seed for the clustering algorithm
Setter for a KMeans seed for the clustering algorithm
value
Long: Seed value
returns
this

Definition Classes
AutomationConfig
def setKMeansTolerance(value: Double): DataPrep.this.type

Setter for Setting the tolerance for KMeans (must be >0)
Setter for Setting the tolerance for KMeans (must be >0)
value
The tolerance value setting for KMeans
returns
this

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Exceptions thrown
IllegalArgumentException() if a value less than 0 is entered
See also
reference: http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.clustering.KMeans for further details.
def setKSampleConfig(): DataPrep.this.type

Definition Classes
AutomationConfig
def setLSHHashTables(value: Int): DataPrep.this.type

Setter for Configuring the number of Hash Tables to use for MinHashLSH
Setter for Configuring the number of Hash Tables to use for MinHashLSH
value
Int: Count of hash tables to use
returns
this

Definition Classes
AutomationConfig
See also
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.feature.MinHashLSH for more information
def setLSHOutputCol(value: String): DataPrep.this.type

Setter for the internal LSH output hash information column
Setter for the internal LSH output hash information column
value
String: column name for the internal MinHashLSH Model transformation value
returns
this

Definition Classes
AutomationConfig
def setLSHSeed(value: Long): DataPrep.this.type

Setter for Configuring the Seed value for the LSH MinHash model
Setter for Configuring the Seed value for the LSH MinHash model
value
Long: A Seed value

Definition Classes
AutomationConfig
Since
0.5.1
def setLabelBalanceMode(value: String): DataPrep.this.type

Setter - for determining the label balance approach mode.
Setter - for determining the label balance approach mode.
value
String: one of: 'match', 'percentage' or 'target'

Definition Classes
AutomationConfig
Annotations
@throws( ... )
Since
0.5.1
Exceptions thrown
UnsupportedOperationException() if the provided mode is not supported.
Note
Default: "percentage"
,
Available modes:
'match': Will match all smaller class counts to largest class count. [WARNING] - May significantly increase memory pressure!
'percentage' Will adjust smaller classes to a percentage value of the largest class count. 'target' Will increase smaller class counts to a fixed numeric target of rows.
def setLabelCol(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setLowerFilterNTile(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setMainConfig(value: MainConfig): DataPrep.this.type

Definition Classes
AutomationConfig
def setMainConfig(): DataPrep.this.type

Definition Classes
AutomationConfig
def setMinimumVectorCountToMutate(value: Int): DataPrep.this.type

Setter for minimum threshold for vector indexes to mutate within the feature vector.
Setter for minimum threshold for vector indexes to mutate within the feature vector.
value
The minimum (or fixed) number of indexes to mutate.
returns
this

Definition Classes
AutomationConfig
Note
In vectorMutationMethod "fixed" this sets the fixed count of how many vector positions to mutate. In vectorMutationMethod "random" this sets the lower threshold for 'at least this many indexes will be mutated'
def setMlFlowAPIToken(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setMlFlowBestSuffix(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setMlFlowConfig(value: MLFlowConfig): DataPrep.this.type

Definition Classes
AutomationConfig
def setMlFlowCustomRunTags(value: Map[String, String]): DataPrep.this.type

Definition Classes
AutomationConfig
def setMlFlowExperimentName(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setMlFlowLoggingMode(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setMlFlowModelSaveDirectory(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
def setMlFlowTrackingURI(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setModelSeedMap(value: Map[String, Any]): DataPrep.this.type

Definition Classes
AutomationConfig
def setModelSeedString(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setModelSelectionDistinctThreshold(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setModelingFamily(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setMutationMagnitudeMode(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setMutationMode(value: String): DataPrep.this.type

Setter for the Mutation Mode of the feature vector individual values
Setter for the Mutation Mode of the feature vector individual values
value
String: the mode to use.
returns
this

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Exceptions thrown
IllegalArgumentException() if the mode is not supported.
Note
Options: "weighted" - uses weighted averaging to scale the euclidean distance between the centroid vector and mutation candidate vectors "random" - randomly selects a position on the euclidean vector between the centroid vector and the candidate mutation vectors "ratio" - uses a ratio between the values of the centroid vector and the mutation vector *
def setMutationValue(value: Double): DataPrep.this.type

Setter for specifying the mutation magnitude for the modes 'weighted' and 'ratio' in mutationMode
Setter for specifying the mutation magnitude for the modes 'weighted' and 'ratio' in mutationMode
value
Double: value between 0 and 1 for mutation magnitude adjustment.
returns
this

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Exceptions thrown
IllegalArgumentException() if the value specified is outside of the range (0, 1)
Note
the higher this value, the closer to the centroid vector vs. the candidate mutation vector the synthetic row data will be.
def setNAFillFilterPrecision(value: Double): DataPrep.this.type

Setter for defining the precision for calculating the model type as per the label column
Setter for defining the precision for calculating the model type as per the label column
value
Double: Precision accuracy for approximate distinct calculation.

Definition Classes
AutomationConfig
Annotations
@throws( classOf[AssertionError] )
Since
0.5.2
Exceptions thrown
java.lang.AssertionError If the value is outside of the allowable range of {0, 1}
Note
setting this value to zero (0) for a large regression problem will incur a long processing time and an expensive shuffle.
def setNAFillMode(value: String): DataPrep.this.type

Mode for na fill
Available modes:
auto : Stats-based na fill for fields.
Mode for na fill
Available modes:
auto : Stats-based na fill for fields. Usage of .setNumericFillStat and .setCharacterFillStat will inform the type of statistics that will be used to fill.
mapFill : Custom by-column overrides to 'blanket fill' na values on a per-column basis. The categorical (string) fields are set via .setCategoricalNAFillMap while the numeric fields are set via .setNumericNAFillMap.
blanketFillAll : Fills all fields based on the values specified by .setCharacterNABlanketFillValue and .setNumericNABlanketFillValue. All NA's for the appropriate types will be filled in accordingly throughout all columns.
blanketFillCharOnly Will use statistics to fill in numeric fields, but will replace all categorical character fields na values with a blanket fill value.
blanketFillNumOnly Will use statistics to fill in character fields, but will replace all numeric fields na values with a blanket value.
value
String: Mode for NA Fill

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Since
0.5.2
Exceptions thrown
IllegalArgumentException if the mods specified is not supported.
def setNumberOfGenerations(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setNumberOfMutationsPerGeneration(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setNumberOfParentsToRetain(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setNumericBoundaries(value: Map[String, (Double, Double)]): DataPrep.this.type

Definition Classes
AutomationConfig
def setNumericFillStat(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setNumericNABlanketFillValue(value: Double): DataPrep.this.type

Setter for providing a 'blanket override' value (fill all found numeric columns' missing values with this specified value)
Setter for providing a 'blanket override' value (fill all found numeric columns' missing values with this specified value)
value
Double: A value to fill all numeric na value in the DataFrame with.

Definition Classes
AutomationConfig
Since
0.5.2
def setNumericNAFillMap(value: Map[String, AnyVal]): DataPrep.this.type

Setter for providing a map of [Column Name -> AnyVal Fill Value] (must be numeric).
Setter for providing a map of [Column Name -> AnyVal Fill Value] (must be numeric). Any non-specified fields in this map will utilize the "auto" statistics-based fill paradigm to calculate and fill any NA values in numeric columns.
value
Map[String, AnyVal]: Column Name as String -> Fill Numeric Type Value

Definition Classes
AutomationConfig
Since
0.5.2
Note
If fields are specified in here that are not part of the DataFrame's schema, an exception will be thrown.
,
if naFillMode is specified as using Map Fill modes, this setter or the categorical na fill map MUST be set.
def setNumericRatio(value: Double): DataPrep.this.type

Setter - for specifying the percentage ratio for the mode 'percentage' in setLabelBalanceMode()
Setter - for specifying the percentage ratio for the mode 'percentage' in setLabelBalanceMode()
value
Double: A fractional double in the range of 0.0 to 1.0.

Definition Classes
AutomationConfig
Annotations
@throws( ... )
Since
0.5.1
Exceptions thrown
UnsupportedOperationException() if the provided value is outside of the range of 0.0 -> 1.0
Note
Default: 0.2
,
Setting this value to 1.0 is equivalent to setting the label balance mode to 'match'
def setNumericTarget(value: Int): DataPrep.this.type

Setter - for specifying the target row count to generate for 'target' mode in setLabelBalanceMode()
Setter - for specifying the target row count to generate for 'target' mode in setLabelBalanceMode()
value
Int: The desired final number of rows per minority class label

Definition Classes
AutomationConfig
Since
0.5.1
Note
[WARNING] Setting this value to too high of a number will greatly increase runtime and memory pressure.
def setPNorm(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setParallelism(value: Int): DataPrep.this.type

Definition Classes
AutomationConfig
def setPearsonAutoFilterNTile(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setPearsonFilterDirection(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setPearsonFilterManualValue(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setPearsonFilterMode(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setPearsonFilterStatistic(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setPipelineId(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setQuorumCount(value: Int): DataPrep.this.type

Setter for how many vectors to find in adjacency to the centroid for generation of synthetic data
Setter for how many vectors to find in adjacency to the centroid for generation of synthetic data
value
Int: Number of vectors to find nearest each centroid within the class
returns
this

Definition Classes
AutomationConfig
Note
the higher the value set here, the higher the variance in synthetic data generation
def setScalerMax(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setScalerMin(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setScalerType(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setScoringMetric(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setScoringOptimizationStrategy(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setSeed(value: Long): DataPrep.this.type

Definition Classes
AutomationConfig
def setSplitCachingStrategy(value: String): DataPrep.this.type

Setter for determining the split caching strategy (either persist to disk for each kfold split or backing to Delta)
Setter for determining the split caching strategy (either persist to disk for each kfold split or backing to Delta)
value
Configuration string either 'persist' or 'delta'

Definition Classes
AutomationConfig
Since
0.7.1
def setStandardScalerMeanFlagOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def setStandardScalerMeanFlagOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def setStandardScalerStdDevFlagOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def setStandardScalerStdDevFlagOn(): DataPrep.this.type

Definition Classes
AutomationConfig
def setStringBoundaries(value: Map[String, List[String]]): DataPrep.this.type

Definition Classes
AutomationConfig
def setSyntheticCol(value: String): DataPrep.this.type

Setter - for setting the name of the Synthetic column name
Setter - for setting the name of the Synthetic column name
value
String: A column name that is uniquely not part of the main DataFrame

Definition Classes
AutomationConfig
Since
0.5.1
def setTrainPortion(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setTrainSplitChronologicalColumn(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setTrainSplitChronologicalRandomPercentage(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setTrainSplitMethod(value: String): DataPrep.this.type

Definition Classes
AutomationConfig
def setTreeSplitsConfig(value: MainConfig): DataPrep.this.type

Definition Classes
AutomationConfig
def setTreeSplitsConfig(): DataPrep.this.type

Definition Classes
AutomationConfig
def setUpperFilterNTile(value: Double): DataPrep.this.type

Definition Classes
AutomationConfig
def setVectorMutationMethod(value: String): DataPrep.this.type

Setter for the Vector Mutation Method
Setter for the Vector Mutation Method
value
String - the mode to use.
returns
this

Definition Classes
AutomationConfig
Annotations
@throws( classOf[IllegalArgumentException] )
Exceptions thrown
IllegalArgumentException() if the mode is not supported.
Note
Options: "fixed" - will use the value of minimumVectorCountToMutate to select random indexes of this number of indexes. "random" - will use this number as a lower bound on a random selection of indexes between this and the vector length. "all" - will mutate all of the vectors.
lazy val spark: SparkSession

Definition Classes
SparkSessionWrapper
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def toString(): String

Definition Classes
AnyRef → Any
final val trainSplitMethods: List[String]

Definition Classes
Defaults
def trainSplitValidation(trainSplitMethod: String, modelSelection: String): String

Definition Classes
AutomationTools
def varianceFilterOff(): DataPrep.this.type

Definition Classes
AutomationConfig
def varianceFilterOn(): DataPrep.this.type

Definition Classes
AutomationConfig
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )

Related Doc: package executor

class DataPrep extends AutomationConfig with AutomationTools

Instance Constructors

new DataPrep(df: DataFrame)

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: Any): Boolean

final val _allowableEvolutionStrategies: List[String]

final val _allowableInitialGenerationIndexMixingModes: List[String]

final val _allowableInitialGenerationModes: List[String]

final val _allowableMlFlowLoggingModes: List[String]

final val _allowableNAFillModes: List[String]

final val _allowedFilterDirections: Array[String]

final val _allowedFilterModes: Array[String]

final val _allowedStats: Array[String]

var _autoStoppingFlag: Boolean

var _autoStoppingScore: Double

var _cardinalityCheckMode: String

var _cardinalityLimit: Int

var _cardinalityPrecision: Double

var _cardinalitySwitchFlag: Boolean

var _cardinalityThreshold: Int

var _cardinalityType: String

var _categoricalNAFillMap: Map[String, String]

var _characterFillStat: String

var _characterNABlanketFillValue: String

var _continuousDataThreshold: Int

var _continuousEvolutionGeneticMixing: Double

var _continuousEvolutionImprovementThreshold: Int

var _continuousEvolutionMaxIterations: Int

var _continuousEvolutionMutationAggressiveness: Int

var _continuousEvolutionParallelism: Int

var _continuousEvolutionRollingImprovementCount: Int

var _continuousEvolutionStoppingScore: Double

var _correlationCutoffHigh: Double

var _correlationCutoffLow: Double

var _covarianceConfig: CovarianceConfig

def _covarianceConfigDefaults: CovarianceConfig

var _covarianceFilterFlag: Boolean

var _dataPrepCachingFlag: Boolean

def _dataPrepConfigDefaults: DataPrepConfig

var _dataPrepParallelism: Int

var _dataReductionFactor: Double

var _dateTimeConversionType: String

def _defaultAutoStoppingFlag: Boolean

def _defaultAutoStoppingScore: Double

def _defaultCovarianceFilterFlag: Boolean

def _defaultDataPrepCachingFlag: Boolean

def _defaultDataPrepParallelism: Int

def _defaultDataReductionFactor: Double

def _defaultDateTimeConversionType: String

def _defaultFeatureImportanceCutoffType: String

def _defaultFeatureImportanceCutoffValue: Double

def _defaultFeatureInteractionConfig: FeatureInteractionConfig

def _defaultFeatureInteractionFlag: Boolean

def _defaultFeaturesCol: String

def _defaultFieldsToIgnoreInVector: Array[String]

def _defaultFirstGenerationConfig: FirstGenerationConfig

def _defaultHyperSpaceInference: Boolean

def _defaultHyperSpaceInferenceCount: Int

def _defaultHyperSpaceModelCount: Int

def _defaultHyperSpaceModelType: String

def _defaultInitialGenerationMode: String

def _defaultKSampleConfig: KSampleConfig

def _defaultLabelCol: String

def _defaultMlFlowArtifactsFlag: Boolean

def _defaultMlFlowLoggingFlag: Boolean

def _defaultModelingFamily: String

def _defaultNAFillFlag: Boolean

def _defaultOneHotEncodeFlag: Boolean

def _defaultOutlierFilterFlag: Boolean

def _defaultPearsonFilterFlag: Boolean

def _defaultPipelineDebugFlag: Boolean

def _defaultPipelineId: String

def _defaultScalingFlag: Boolean

def _defaultVarianceFilterFlag: Boolean

var _deltaCacheBackingDirectory: String

var _deltaCacheBackingDirectoryRemovalFlag: Boolean