CustomSparkAction

Instance Constructors

new CustomSparkAction(id: ActionId, inputIds: Seq[DataObjectId], outputIds: Seq[DataObjectId], transformer: CustomDfsTransformerConfig, breakDataFrameLineage: Boolean = false, persist: Boolean = false, mainInputId: Option[DataObjectId] = None, mainOutputId: Option[DataObjectId] = None, executionMode: Option[ExecutionMode] = None, executionCondition: Option[Condition] = None, metricsFailCondition: Option[String] = None, metadata: Option[ActionMetadata] = None, recursiveInputIds: Seq[DataObjectId] = Seq(), inputIdsToIgnoreFilter: Seq[DataObjectId] = Seq())(implicit instanceRegistry: InstanceRegistry)

inputIds
input DataObject's
outputIds
output DataObject's
transformer
custom transformation for multiple dataframes to apply
mainInputId
optional selection of main inputId used for execution mode and partition values propagation. Only needed if there are multiple input DataObject's.
mainOutputId
optional selection of main outputId used for execution mode and partition values propagation. Only needed if there are multiple output DataObject's.
executionMode
optional execution mode for this Action
executionCondition
optional spark sql expression evaluated against SubFeedsExpressionData. If true Action is executed, otherwise skipped. Details see Condition.
metricsFailCondition
optional spark sql expression evaluated as where-clause against dataframe of metrics. Available columns are dataObjectId, key, value. If there are any rows passing the where clause, a MetricCheckFailed exception is thrown.
recursiveInputIds
output of action that are used as input in the same action
inputIdsToIgnoreFilter
optional list of input ids to ignore filter (partition values & filter clause)

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def addRuntimeEvent(phase: ExecutionPhase, state: RuntimeEventState, msg: Option[String] = None, results: Seq[SubFeed] = Seq()): Unit

Adds an action event
Adds an action event

Definition Classes
Action
def applyAdditionalColumns(additionalColumns: Map[String, String], partitionValues: Seq[PartitionValues])(df: DataFrame)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

applies additionalColumns
applies additionalColumns

Definition Classes
SparkAction
def applyCastDecimal2IntegralFloat(df: DataFrame): DataFrame

applies type casting decimal -> integral/float
applies type casting decimal -> integral/float

Definition Classes
SparkAction
def applyCustomTransformation(transformer: CustomDfTransformerConfig, subFeed: SparkSubFeed)(df: DataFrame)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

apply custom transformation
apply custom transformation

Definition Classes
SparkAction
def applyFilter(filterClauseExpr: Column)(df: DataFrame): DataFrame

applies filterClauseExpr
applies filterClauseExpr

Definition Classes
SparkAction
def applyTransformations(inputSubFeed: SparkSubFeed, transformation: Option[CustomDfTransformerConfig], columnBlacklist: Option[Seq[String]], columnWhitelist: Option[Seq[String]], additionalColumns: Option[Map[String, String]], standardizeDatatypes: Boolean, additionalTransformers: Seq[(DataFrame) ⇒ DataFrame], filterClauseExpr: Option[Column] = None)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

applies all the transformations above
applies all the transformations above

Definition Classes
SparkAction
final def asInstanceOf[T0]: T0

Definition Classes
Any
def atlasName: String

Definition Classes
Action → AtlasExportable
def atlasQualifiedName(prefix: String): String

Definition Classes
AtlasExportable
val breakDataFrameLineage: Boolean

Stop propagating input DataFrame through action and instead get a new DataFrame from DataObject.
Stop propagating input DataFrame through action and instead get a new DataFrame from DataObject. This can help to save memory and performance if the input DataFrame includes many transformations from previous Actions. The new DataFrame will be initialized according to the SubFeed's partitionValues.

Definition Classes
CustomSparkAction → SparkAction
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def createEmptyDataFrame(dataObject: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

Definition Classes
SparkAction
def enableRuntimeMetrics(): Unit

Runtime metrics
Runtime metrics
Note: runtime metrics are disabled by default, because they are only collected when running Actions from an ActionDAG. This is not the case for Tests or other use cases. If enabled exceptions are thrown if metrics are not found.

Definition Classes
Action
def enrichSubFeedDataFrame(input: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed, phase: ExecutionPhase)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

Enriches SparkSubFeed with DataFrame if not existing
Enriches SparkSubFeed with DataFrame if not existing
input
input data object.
subFeed
input SubFeed.

Definition Classes
SparkAction
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def exec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

Action.exec implementation
Action.exec implementation
subFeeds
SparkSubFeed's to be processed
returns
processed SparkSubFeed's

Definition Classes
SparkSubFeedsAction → Action
val executionCondition: Option[Condition]

optional spark sql expression evaluated against SubFeedsExpressionData.
optional spark sql expression evaluated against SubFeedsExpressionData. If true Action is executed, otherwise skipped. Details see Condition.

Definition Classes
CustomSparkAction → Action
var executionConditionResult: (Boolean, Option[String])

Attributes
protected
Definition Classes
Action
val executionMode: Option[ExecutionMode]

optional execution mode for this Action
optional execution mode for this Action

Definition Classes
CustomSparkAction → Action
var executionModeResult: Try[Option[ExecutionModeResult]]

Attributes
protected
Definition Classes
Action
def factory: FromConfigFactory[Action]

Returns the factory that can parse this type (that is, type CO).
Returns the factory that can parse this type (that is, type CO).
Typically, implementations of this method should return the companion object of the implementing class. The companion object in turn should implement FromConfigFactory.
returns
the factory (object) for this class.

Definition Classes
CustomSparkAction → ParsableFromConfig
def filterDataFrame(df: DataFrame, partitionValues: Seq[PartitionValues], genericFilter: Option[Column]): DataFrame

Filter DataFrame with given partition values
Filter DataFrame with given partition values
df
DataFrame to filter
partitionValues
partition values to use as filter condition
genericFilter
filter expression to apply
returns
filtered DataFrame

Definition Classes
SparkAction
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
def getAllLatestMetrics: Map[DataObjectId, Option[ActionMetrics]]

Definition Classes
Action
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def getFinalMetrics(dataObjectId: DataObjectId): Option[ActionMetrics]

Definition Classes
Action
def getInputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

Attributes
protected
Definition Classes
Action
def getLatestMetrics(dataObjectId: DataObjectId): Option[ActionMetrics]

Definition Classes
Action
def getLatestRuntimeState: Option[RuntimeEventState]

get latest runtime state
get latest runtime state

Definition Classes
Action
def getMainInput(inputSubFeeds: Seq[SubFeed])(implicit context: ActionPipelineContext): DataObject

Definition Classes
SparkSubFeedsAction
def getOutputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

Attributes
protected
Definition Classes
Action
def getRuntimeInfo: Option[RuntimeInfo]

get latest runtime information for this action
get latest runtime information for this action

Definition Classes
Action
val id: ActionId

A unique identifier for this instance.
A unique identifier for this instance.

Definition Classes
CustomSparkAction → Action → SdlConfigObject
final def init(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

Generic init implementation for Action.init
Generic init implementation for Action.init
subFeeds
SparkSubFeed's to be processed
returns
processed SparkSubFeed's

Definition Classes
SparkSubFeedsAction → Action
val inputIds: Seq[DataObjectId]

input DataObject's
val inputIdsToIgnoreFilter: Seq[DataObjectId]

optional list of input ids to ignore filter (partition values & filter clause)
optional list of input ids to ignore filter (partition values & filter clause)

Definition Classes
CustomSparkAction → SparkSubFeedsAction
val inputs: Seq[DataObject with CanCreateDataFrame]

Input DataObjects To be implemented by subclasses
Input DataObjects To be implemented by subclasses

Definition Classes
CustomSparkAction → SparkSubFeedsAction → Action
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def logWritingFinished(subFeed: SparkSubFeed, noData: Boolean, duration: Duration)(implicit session: SparkSession): Unit

Definition Classes
SparkAction
def logWritingStarted(subFeed: SparkSubFeed)(implicit session: SparkSession): Unit

Definition Classes
SparkAction
lazy val logger: Logger

Attributes
protected
Definition Classes
SmartDataLakeLogger
val mainInputId: Option[DataObjectId]

optional selection of main inputId used for execution mode and partition values propagation.
optional selection of main inputId used for execution mode and partition values propagation. Only needed if there are multiple input DataObject's.

Definition Classes
CustomSparkAction → SparkSubFeedsAction
lazy val mainOutput: DataObject with CanWriteDataFrame

Definition Classes
SparkSubFeedsAction
val mainOutputId: Option[DataObjectId]

optional selection of main outputId used for execution mode and partition values propagation.
optional selection of main outputId used for execution mode and partition values propagation. Only needed if there are multiple output DataObject's.

Definition Classes
CustomSparkAction → SparkSubFeedsAction
val metadata: Option[ActionMetadata]

Additional metadata for the Action
Additional metadata for the Action

Definition Classes
CustomSparkAction → Action
val metricsFailCondition: Option[String]

optional spark sql expression evaluated as where-clause against dataframe of metrics.
optional spark sql expression evaluated as where-clause against dataframe of metrics. Available columns are dataObjectId, key, value. If there are any rows passing the where clause, a MetricCheckFailed exception is thrown.

Definition Classes
CustomSparkAction → Action
def multiTransformDataFrame(inputDf: DataFrame, transformers: Seq[(DataFrame) ⇒ DataFrame]): DataFrame

applies multiple transformations to a SubFeed
applies multiple transformations to a SubFeed

Definition Classes
SparkAction
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def nodeId: String

provide an implementation of the DAG node id
provide an implementation of the DAG node id

Definition Classes
Action → DAGNode
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def onRuntimeMetrics(dataObjectId: Option[DataObjectId], metrics: ActionMetrics): Unit

Definition Classes
Action
val outputIds: Seq[DataObjectId]

output DataObject's
val outputs: Seq[DataObject with CanWriteDataFrame]

Output DataObjects To be implemented by subclasses
Output DataObjects To be implemented by subclasses

Definition Classes
CustomSparkAction → SparkSubFeedsAction → Action
val persist: Boolean

Force persisting input DataFrame's on Disk.
Force persisting input DataFrame's on Disk. This improves performance if dataFrame is used multiple times in the transformation and can serve as a recovery point in case a task get's lost. Note that DataFrames are persisted automatically by the previous Action if later Actions need the same data. To avoid this behaviour set breakDataFrameLineage=false.

Definition Classes
CustomSparkAction → SparkAction
def postExec(inputSubFeeds: Seq[SubFeed], outputSubFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed after executing an action.
Executes operations needed after executing an action. In this step any task on Input- or Output-DataObjects needed after the main task is executed, e.g. JdbcTableDataObjects postWriteSql or CopyActions deleteInputData.

Definition Classes
SparkSubFeedsAction → SparkAction → Action
def preExec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed before executing an action.
Executes operations needed before executing an action. In this step any phase on Input- or Output-DataObjects needed before the main task is executed, e.g. JdbcTableDataObjects preWriteSql

Definition Classes
Action
def preInit(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Checks before initalization of Action In this step execution condition is evaluated and is Action init is skipped if result is false.
Checks before initalization of Action In this step execution condition is evaluated and is Action init is skipped if result is false.

Definition Classes
Action
def prepare(implicit session: SparkSession, context: ActionPipelineContext): Unit

Prepare DataObjects prerequisites.
Prepare DataObjects prerequisites. In this step preconditions are prepared & tested: - connections can be created - needed structures exist, e.g Kafka topic or Jdbc table
This runs during the "prepare" phase of the DAG.

Definition Classes
SparkSubFeedsAction → SparkAction → Action
def prepareInputSubFeed(input: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed, ignoreFilters: Boolean = false)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

Applies changes to a SubFeed from a previous action in order to be used as input for this actions transformation.
Applies changes to a SubFeed from a previous action in order to be used as input for this actions transformation.

Definition Classes
SparkAction
lazy val prioritizedMainInputCandidates: Seq[DataObject with CanCreateDataFrame]

Definition Classes
SparkSubFeedsAction
val recursiveInputIds: Seq[DataObjectId]

output of action that are used as input in the same action
val recursiveInputs: Seq[DataObject with CanCreateDataFrame]

Recursive Inputs are DataObjects that are used as Output and Input in the same action This is usually prohibited as it creates loops in the DAG.
Recursive Inputs are DataObjects that are used as Output and Input in the same action This is usually prohibited as it creates loops in the DAG. In special cases this makes sense, i.e. when building a complex delta logic

Definition Classes
CustomSparkAction → SparkSubFeedsAction → Action
def reset(): Unit

Resets the runtime state of this Action This is mainly used for testing
Resets the runtime state of this Action This is mainly used for testing

Definition Classes
Action
def setSparkJobMetadata(operation: Option[String] = None)(implicit session: SparkSession): Unit

Sets the util job description for better traceability in the Spark UI
Sets the util job description for better traceability in the Spark UI
Note: This sets Spark local properties, which are propagated to the respective executor tasks. We rely on this to match metrics back to Actions and DataObjects. As writing to a DataObject on the Driver happens uninterrupted in the same exclusive thread, this is suitable.
operation
phase description (be short...)

Definition Classes
Action
def subFeedDfTransformer(fnTransform: (DataFrame) ⇒ DataFrame)(subFeed: SparkSubFeed): SparkSubFeed

Transform the DataFrame of a SubFeed
Transform the DataFrame of a SubFeed

Definition Classes
SparkAction
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
final def toString(): String

This is displayed in ascii graph visualization
This is displayed in ascii graph visualization

Definition Classes
Action → AnyRef → Any
def toStringMedium: String

Definition Classes
Action
def toStringShort: String

Definition Classes
Action
def transform(inputSubFeeds: Seq[SparkSubFeed], outputSubFeeds: Seq[SparkSubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SparkSubFeed]

Transform SparkSubFeed's.
Transform SparkSubFeed's. To be implemented by subclasses.
inputSubFeeds
SparkSubFeeds to be transformed
outputSubFeeds
SparkSubFeeds to be enriched with transformed result
returns
transformed SparkSubFeeds

Definition Classes
CustomSparkAction → SparkSubFeedsAction
def transformPartitionValues(partitionValues: Seq[PartitionValues])(implicit context: ActionPipelineContext): Map[PartitionValues, PartitionValues]

Transform partition values
Transform partition values

Definition Classes
CustomSparkAction → SparkSubFeedsAction
val transformer: CustomDfsTransformerConfig

custom transformation for multiple dataframes to apply
def validateAndUpdateSubFeed(output: DataObject, subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

The transformed DataFrame is validated to have the output's partition columns included, partition columns are moved to the end and SubFeeds partition values updated.
The transformed DataFrame is validated to have the output's partition columns included, partition columns are moved to the end and SubFeeds partition values updated.
output
output DataObject
subFeed
SubFeed with transformed DataFrame
returns
validated and updated SubFeed

Definition Classes
SparkAction
def validateDataFrameContainsCols(df: DataFrame, columns: Seq[String], debugName: String): Unit

Validate that DataFrame contains a given list of columns, throwing an exception otherwise.
Validate that DataFrame contains a given list of columns, throwing an exception otherwise.
df
DataFrame to validate
columns
Columns that must exist in DataFrame
debugName
name to mention in exception

Definition Classes
SparkAction
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
def writeSubFeed(subFeed: SparkSubFeed, output: DataObject with CanWriteDataFrame, isRecursiveInput: Boolean = false)(implicit session: SparkSession, context: ActionPipelineContext): Boolean

writes subfeed to output respecting given execution mode
writes subfeed to output respecting given execution mode
returns
true if no data was transfered, otherwise false

Definition Classes
SparkAction

Related Docs: object CustomSparkAction | package action

Instance Constructors

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: Any): Boolean

def addRuntimeEvent(phase: ExecutionPhase, state: RuntimeEventState, msg: Option[String] = None, results: Seq[SubFeed] = Seq()): Unit

def applyAdditionalColumns(additionalColumns: Map[String, String], partitionValues: Seq[PartitionValues])(df: DataFrame)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

def applyCastDecimal2IntegralFloat(df: DataFrame): DataFrame

def applyCustomTransformation(transformer: CustomDfTransformerConfig, subFeed: SparkSubFeed)(df: DataFrame)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

def applyFilter(filterClauseExpr: Column)(df: DataFrame): DataFrame

final def asInstanceOf[T0]: T0

def atlasName: String

def atlasQualifiedName(prefix: String): String

val breakDataFrameLineage: Boolean

def clone(): AnyRef

def createEmptyDataFrame(dataObject: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

def enableRuntimeMetrics(): Unit

def enrichSubFeedDataFrame(input: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed, phase: ExecutionPhase)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

final def eq(arg0: AnyRef): Boolean

final def exec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

val executionCondition: Option[Condition]

var executionConditionResult: (Boolean, Option[String])

val executionMode: Option[ExecutionMode]

var executionModeResult: Try[Option[ExecutionModeResult]]

def factory: FromConfigFactory[Action]

def filterDataFrame(df: DataFrame, partitionValues: Seq[PartitionValues], genericFilter: Option[Column]): DataFrame

def finalize(): Unit

def getAllLatestMetrics: Map[DataObjectId, Option[ActionMetrics]]

final def getClass(): Class[_]

def getFinalMetrics(dataObjectId: DataObjectId): Option[ActionMetrics]

def getInputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

def getLatestMetrics(dataObjectId: DataObjectId): Option[ActionMetrics]

def getLatestRuntimeState: Option[RuntimeEventState]

def getMainInput(inputSubFeeds: Seq[SubFeed])(implicit context: ActionPipelineContext): DataObject

def getOutputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

def getRuntimeInfo: Option[RuntimeInfo]

val id: ActionId

final def init(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

val inputIds: Seq[DataObjectId]

val inputIdsToIgnoreFilter: Seq[DataObjectId]

val inputs: Seq[DataObject with CanCreateDataFrame]

final def isInstanceOf[T0]: Boolean

def logWritingFinished(subFeed: SparkSubFeed, noData: Boolean, duration: Duration)(implicit session: SparkSession): Unit

def logWritingStarted(subFeed: SparkSubFeed)(implicit session: SparkSession): Unit

lazy val logger: Logger

val mainInputId: Option[DataObjectId]

lazy val mainOutput: DataObject with CanWriteDataFrame

val mainOutputId: Option[DataObjectId]

val metadata: Option[ActionMetadata]

val metricsFailCondition: Option[String]

def multiTransformDataFrame(inputDf: DataFrame, transformers: Seq[(DataFrame) ⇒ DataFrame]): DataFrame

final def ne(arg0: AnyRef): Boolean

def nodeId: String

final def notify(): Unit

final def notifyAll(): Unit

def onRuntimeMetrics(dataObjectId: Option[DataObjectId], metrics: ActionMetrics): Unit

val outputIds: Seq[DataObjectId]

val outputs: Seq[DataObject with CanWriteDataFrame]

val persist: Boolean

def postExec(inputSubFeeds: Seq[SubFeed], outputSubFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def preExec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def preInit(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def prepare(implicit session: SparkSession, context: ActionPipelineContext): Unit

def prepareInputSubFeed(input: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed, ignoreFilters: Boolean = false)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

lazy val prioritizedMainInputCandidates: Seq[DataObject with CanCreateDataFrame]

val recursiveInputIds: Seq[DataObjectId]

val recursiveInputs: Seq[DataObject with CanCreateDataFrame]

def reset(): Unit

def setSparkJobMetadata(operation: Option[String] = None)(implicit session: SparkSession): Unit

def subFeedDfTransformer(fnTransform: (DataFrame) ⇒ DataFrame)(subFeed: SparkSubFeed): SparkSubFeed

final def synchronized[T0](arg0: ⇒ T0): T0

final def toString(): String

def toStringMedium: String

def toStringShort: String

def transform(inputSubFeeds: Seq[SparkSubFeed], outputSubFeeds: Seq[SparkSubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SparkSubFeed]

def transformPartitionValues(partitionValues: Seq[PartitionValues])(implicit context: ActionPipelineContext): Map[PartitionValues, PartitionValues]

val transformer: CustomDfsTransformerConfig

def validateAndUpdateSubFeed(output: DataObject, subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed