CopyAction

Instance Constructors

new CopyAction(id: ActionId, inputId: DataObjectId, outputId: DataObjectId, deleteDataAfterRead: Boolean = false, transformer: Option[CustomDfTransformerConfig] = None, transformers: Seq[ParsableDfTransformer] = Seq(), columnBlacklist: Option[Seq[String]] = None, columnWhitelist: Option[Seq[String]] = None, additionalColumns: Option[Map[String, String]] = None, filterClause: Option[String] = None, standardizeDatatypes: Boolean = false, breakDataFrameLineage: Boolean = false, persist: Boolean = false, executionMode: Option[ExecutionMode] = None, executionCondition: Option[Condition] = None, metricsFailCondition: Option[String] = None, saveModeOptions: Option[SaveModeOptions] = None, metadata: Option[ActionMetadata] = None)(implicit instanceRegistry: InstanceRegistry)

inputId
inputs DataObject
outputId
output DataObject
deleteDataAfterRead
a flag to enable deletion of input partitions after copying.
transformer
optional custom transformation to apply.
transformers
optional list of transformations to apply. See sparktransformer for a list of included Transformers. The transformations are applied according to the lists ordering.
columnBlacklist
Remove all columns on blacklist from dataframe
columnWhitelist
Keep only columns on whitelist in dataframe
additionalColumns
optional tuples of [column name, spark sql expression] to be added as additional columns to the dataframe. The spark sql expressions are evaluated against an instance of DefaultExpressionData.
executionMode
optional execution mode for this Action
executionCondition
optional spark sql expression evaluated against SubFeedsExpressionData. If true Action is executed, otherwise skipped. Details see Condition.
metricsFailCondition
optional spark sql expression evaluated as where-clause against dataframe of metrics. Available columns are dataObjectId, key, value. If there are any rows passing the where clause, a MetricCheckFailed exception is thrown.
saveModeOptions
override and parametrize saveMode set in output DataObject configurations when writing to DataObjects.

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def addRuntimeEvent(executionId: ExecutionId, phase: ExecutionPhase, state: RuntimeEventState, msg: Option[String] = None, results: Seq[SubFeed] = Seq(), tstmp: LocalDateTime = LocalDateTime.now): Unit

Adds a runtime event for this Action
Adds a runtime event for this Action

Definition Classes
Action
def addRuntimeMetrics(executionId: Option[ExecutionId], dataObjectId: Option[DataObjectId], metric: ActionMetrics): Unit

Adds a runtime metric for this Action
Adds a runtime metric for this Action

Definition Classes
Action
def applyExecutionMode(mainInput: DataObject, mainOutput: DataObject, subFeed: SubFeed, partitionValuesTransform: (Seq[PartitionValues]) ⇒ Map[PartitionValues, PartitionValues])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Applies the executionMode and stores result in executionModeResult variable
Applies the executionMode and stores result in executionModeResult variable

Attributes
protected
Definition Classes
Action
def applyTransformers(transformers: Seq[DfTransformer], inputSubFeed: SparkSubFeed, outputSubFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

apply transformer to SubFeed
apply transformer to SubFeed

Attributes
protected
Definition Classes
SparkOneToOneActionImpl
def applyTransformers(transformers: Seq[PartitionValueTransformer], partitionValues: Seq[PartitionValues])(implicit session: SparkSession, context: ActionPipelineContext): Map[PartitionValues, PartitionValues]

apply transformer to partition values
apply transformer to partition values

Attributes
protected
Definition Classes
SparkActionImpl
def applyTransformers(transformers: Seq[DfsTransformer], inputPartitionValues: Seq[PartitionValues], inputSubFeeds: Seq[SparkSubFeed], outputSubFeeds: Seq[SparkSubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SparkSubFeed]

apply transformer to SubFeeds
apply transformer to SubFeeds

Attributes
protected
Definition Classes
SparkActionImpl
final def asInstanceOf[T0]: T0

Definition Classes
Any
def atlasName: String

Definition Classes
Action → AtlasExportable
def atlasQualifiedName(prefix: String): String

Definition Classes
AtlasExportable
val breakDataFrameLineage: Boolean

Stop propagating input DataFrame through action and instead get a new DataFrame from DataObject.
Stop propagating input DataFrame through action and instead get a new DataFrame from DataObject. This can help to save memory and performance if the input DataFrame includes many transformations from previous Actions. The new DataFrame will be initialized according to the SubFeed's partitionValues.

Definition Classes
CopyAction → SparkActionImpl
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def createEmptyDataFrame(dataObject: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

Definition Classes
SparkActionImpl
val deleteDataAfterRead: Boolean

a flag to enable deletion of input partitions after copying.
def enrichSubFeedDataFrame(input: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed, phase: ExecutionPhase, isRecursive: Boolean = false)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

Enriches SparkSubFeed with DataFrame if not existing
Enriches SparkSubFeed with DataFrame if not existing
input
input data object.
subFeed
input SubFeed.
phase
current execution phase
isRecursive
true if this input is a recursive input

Definition Classes
SparkActionImpl
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def exec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

Executes the main task of an action.
Executes the main task of an action. In this step the data of the SubFeed's is moved from Input- to Output-DataObjects.
subFeeds
SparkSubFeed's to be processed
returns
processed SparkSubFeed's

Definition Classes
ActionSubFeedsImpl → Action
val executionCondition: Option[Condition]

optional spark sql expression evaluated against SubFeedsExpressionData.
optional spark sql expression evaluated against SubFeedsExpressionData. If true Action is executed, otherwise skipped. Details see Condition.

Definition Classes
CopyAction → Action
var executionConditionResult: Option[(Boolean, Option[String])]

Attributes
protected
Definition Classes
Action
val executionMode: Option[ExecutionMode]

optional execution mode for this Action
optional execution mode for this Action

Definition Classes
CopyAction → Action
var executionModeResult: Option[Try[Option[ExecutionModeResult]]]

Attributes
protected
Definition Classes
Action
def factory: FromConfigFactory[Action]

Returns the factory that can parse this type (that is, type CO).
Returns the factory that can parse this type (that is, type CO).
Typically, implementations of this method should return the companion object of the implementing class. The companion object in turn should implement FromConfigFactory.
returns
the factory (object) for this class.

Definition Classes
CopyAction → ParsableFromConfig
def filterDataFrame(df: DataFrame, partitionValues: Seq[PartitionValues], genericFilter: Option[Column]): DataFrame

Filter DataFrame with given partition values
Filter DataFrame with given partition values
df
DataFrame to filter
partitionValues
partition values to use as filter condition
genericFilter
filter expression to apply
returns
filtered DataFrame

Definition Classes
SparkActionImpl
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def getDataObjectsState: Seq[DataObjectState]

Get potential state of input DataObjects when executionMode is DataObjectStateIncrementalMode.
Get potential state of input DataObjects when executionMode is DataObjectStateIncrementalMode.

Definition Classes
Action
def getInputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

Attributes
protected
Definition Classes
Action
def getLatestRuntimeEventState: Option[RuntimeEventState]

Get latest runtime state
Get latest runtime state

Definition Classes
Action
def getMainInput(inputSubFeeds: Seq[SubFeed])(implicit context: ActionPipelineContext): DataObject

Attributes
protected
Definition Classes
ActionSubFeedsImpl
def getMainPartitionValues(inputSubFeeds: Seq[SubFeed])(implicit context: ActionPipelineContext): Seq[PartitionValues]

Attributes
protected
Definition Classes
ActionSubFeedsImpl
def getOutputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

Attributes
protected
Definition Classes
Action
def getRuntimeDataImpl: RuntimeData

Definition Classes
SparkActionImpl → Action
def getRuntimeInfo(executionId: Option[ExecutionId] = None): Option[RuntimeInfo]

Get summarized runtime information for a given ExecutionId.
Get summarized runtime information for a given ExecutionId.
executionId
ExecutionId to get runtime information for. If empty runtime information for last ExecutionId are returned.

Definition Classes
Action
def getRuntimeMetrics(executionId: Option[ExecutionId] = None): Map[DataObjectId, Option[ActionMetrics]]

Get the latest metrics for all DataObjects and a given SDLExecutionId.
Get the latest metrics for all DataObjects and a given SDLExecutionId.
executionId
ExecutionId to get metrics for. If empty metrics for last ExecutionId are returned.

Definition Classes
Action
def getTransformers(transformation: Option[CustomDfTransformerConfig], columnBlacklist: Option[Seq[String]], columnWhitelist: Option[Seq[String]], additionalColumns: Option[Map[String, String]], standardizeDatatypes: Boolean, additionalTransformers: Seq[DfTransformer], filterClauseExpr: Option[Column] = None)(implicit session: SparkSession, context: ActionPipelineContext): Seq[DfTransformer]

Combines all transformations into a list of DfTransformers
Combines all transformations into a list of DfTransformers

Definition Classes
SparkOneToOneActionImpl
val id: ActionId

A unique identifier for this instance.
A unique identifier for this instance.

Definition Classes
CopyAction → Action → SdlConfigObject
final def init(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

Initialize Action with SubFeed's to be processed.
Initialize Action with SubFeed's to be processed. In this step the execution mode is evaluated and the result stored for the exec phase. If successful - the DAG can be built - Spark DataFrame lineage can be built
subFeeds
SparkSubFeed's to be processed
returns
processed SparkSubFeed's

Definition Classes
ActionSubFeedsImpl → Action
val input: DataObject with CanCreateDataFrame

Input DataObject which can CanCreateDataFrame
Input DataObject which can CanCreateDataFrame

Definition Classes
CopyAction → SparkOneToOneActionImpl
val inputId: DataObjectId

inputs DataObject
def inputIdsToIgnoreFilter: Seq[DataObjectId]

Definition Classes
ActionSubFeedsImpl
val inputs: Seq[DataObject with CanCreateDataFrame]

Input DataObjects To be implemented by subclasses
Input DataObjects To be implemented by subclasses

Definition Classes
CopyAction → SparkActionImpl → Action
def isAsynchronous: Boolean

If this Action should be run as asynchronous streaming process
If this Action should be run as asynchronous streaming process

Definition Classes
SparkActionImpl → Action
def isAsynchronousProcessStarted: Boolean

Definition Classes
SparkActionImpl → Action
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def logWritingFinished(subFeed: SparkSubFeed, noData: Option[Boolean], duration: Duration)(implicit session: SparkSession, context: ActionPipelineContext): Unit

Attributes
protected
Definition Classes
ActionSubFeedsImpl
def logWritingStarted(subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

Attributes
protected
Definition Classes
ActionSubFeedsImpl
lazy val logger: Logger

Attributes
protected
Definition Classes
SmartDataLakeLogger
def mainInputId: Option[DataObjectId]

Definition Classes
ActionSubFeedsImpl
lazy val mainOutput: DataObject

Attributes
protected
Definition Classes
ActionSubFeedsImpl
def mainOutputId: Option[DataObjectId]

Definition Classes
ActionSubFeedsImpl
val metadata: Option[ActionMetadata]

Additional metadata for the Action
Additional metadata for the Action

Definition Classes
CopyAction → Action
val metricsFailCondition: Option[String]

optional spark sql expression evaluated as where-clause against dataframe of metrics.
optional spark sql expression evaluated as where-clause against dataframe of metrics. Available columns are dataObjectId, key, value. If there are any rows passing the where clause, a MetricCheckFailed exception is thrown.

Definition Classes
CopyAction → Action
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def nodeId: String

provide an implementation of the DAG node id
provide an implementation of the DAG node id

Definition Classes
Action → DAGNode
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
val output: DataObject with CanWriteDataFrame

Output DataObject which can CanWriteDataFrame
Output DataObject which can CanWriteDataFrame

Definition Classes
CopyAction → SparkOneToOneActionImpl
val outputId: DataObjectId

output DataObject
val outputs: Seq[DataObject with CanWriteDataFrame]

Output DataObjects To be implemented by subclasses
Output DataObjects To be implemented by subclasses

Definition Classes
CopyAction → SparkActionImpl → Action
val persist: Boolean

Force persisting input DataFrame's on Disk.
Force persisting input DataFrame's on Disk. This improves performance if dataFrame is used multiple times in the transformation and can serve as a recovery point in case a task get's lost. Note that DataFrames are persisted automatically by the previous Action if later Actions need the same data. To avoid this behaviour set breakDataFrameLineage=false.

Definition Classes
CopyAction → SparkActionImpl
final def postExec(inputSubFeeds: Seq[SubFeed], outputSubFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed after executing an action.
Executes operations needed after executing an action. In this step any task on Input- or Output-DataObjects needed after the main task is executed, e.g. JdbcTableDataObjects postWriteSql or CopyActions deleteInputData.

Definition Classes
SparkOneToOneActionImpl → SparkActionImpl → ActionSubFeedsImpl → Action
def postExecFailed(implicit session: SparkSession): Unit

Executes operations needed to cleanup after executing an action failed.
Executes operations needed to cleanup after executing an action failed.

Definition Classes
SparkActionImpl → Action
def postExecSubFeed(inputSubFeed: SubFeed, outputSubFeed: SubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed after executing an action for the SubFeed.
Executes operations needed after executing an action for the SubFeed. Can be implemented by sub classes.

Definition Classes
CopyAction → SparkOneToOneActionImpl
def postprocessOutputSubFeedCustomized(subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

Implement additional processing logic for SubFeeds after transformation.
Implement additional processing logic for SubFeeds after transformation. Can be implemented by subclass.

Definition Classes
SparkActionImpl → ActionSubFeedsImpl
def postprocessOutputSubFeeds(subFeeds: Seq[SparkSubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SparkSubFeed]

Definition Classes
ActionSubFeedsImpl
def preExec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed before executing an action.
Executes operations needed before executing an action. In this step any phase on Input- or Output-DataObjects needed before the main task is executed, e.g. JdbcTableDataObjects preWriteSql

Definition Classes
SparkActionImpl → Action
def preInit(subFeeds: Seq[SubFeed], dataObjectsState: Seq[DataObjectState])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Checks before initalization of Action In this step execution condition is evaluated and Action init is skipped if result is false.
Checks before initalization of Action In this step execution condition is evaluated and Action init is skipped if result is false.

Definition Classes
Action
def prepare(implicit session: SparkSession, context: ActionPipelineContext): Unit

Prepare DataObjects prerequisites.
Prepare DataObjects prerequisites. In this step preconditions are prepared & tested: - connections can be created - needed structures exist, e.g Kafka topic or Jdbc table
This runs during the "prepare" phase of the DAG.

Definition Classes
ActionSubFeedsImpl → Action
def prepareInputSubFeed(input: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed, ignoreFilters: Boolean = false)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

Applies changes to a SubFeed from a previous action in order to be used as input for this actions transformation.
Applies changes to a SubFeed from a previous action in order to be used as input for this actions transformation.

Definition Classes
SparkActionImpl
def prepareInputSubFeeds(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): (Seq[SparkSubFeed], Seq[SparkSubFeed])

Definition Classes
ActionSubFeedsImpl
def preprocessInputSubFeedCustomized(subFeed: SparkSubFeed, ignoreFilters: Boolean, isRecursive: Boolean)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

Implement additional preprocess logic for SubFeeds before transformation Can be implemented by subclass.
Implement additional preprocess logic for SubFeeds before transformation Can be implemented by subclass.
isRecursive
If subfeed is recursive (input & output)

Attributes
protected
Definition Classes
SparkActionImpl → ActionSubFeedsImpl
lazy val prioritizedMainInputCandidates: Seq[DataObject]

Attributes
protected
Definition Classes
ActionSubFeedsImpl
def recursiveInputs: Seq[DataObject with CanCreateDataFrame]

Recursive Inputs are DataObjects that are used as Output and Input in the same action.
Recursive Inputs are DataObjects that are used as Output and Input in the same action. This is usually prohibited as it creates loops in the DAG. In special cases this makes sense, i.e. when building a complex comparision/update logic.
Usage: add DataObjects used as Output and Input as outputIds and recursiveInputIds, but not as inputIds.

Definition Classes
SparkActionImpl → Action
val saveModeOptions: Option[SaveModeOptions]

override and parametrize saveMode set in output DataObject configurations when writing to DataObjects.
override and parametrize saveMode set in output DataObject configurations when writing to DataObjects.

Definition Classes
CopyAction → SparkActionImpl
def setSparkJobMetadata(operation: Option[String] = None)(implicit session: SparkSession, context: ActionPipelineContext): Unit

Sets the util job description for better traceability in the Spark UI
Sets the util job description for better traceability in the Spark UI
Note: This sets Spark local properties, which are propagated to the respective executor tasks. We rely on this to match metrics back to Actions and DataObjects. As writing to a DataObject on the Driver happens uninterrupted in the same exclusive thread, this is suitable.
operation
phase description (be short...)

Definition Classes
Action
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
final def toString(executionId: Option[ExecutionId]): String

Definition Classes
Action
final def toString(): String

This is displayed in ascii graph visualization
This is displayed in ascii graph visualization

Definition Classes
Action → AnyRef → Any
def toStringMedium: String

Definition Classes
Action
def toStringShort: String

Definition Classes
Action
def transform(inputSubFeed: SparkSubFeed, outputSubFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

Transform a SparkSubFeed.
Transform a SparkSubFeed. To be implemented by subclasses.
inputSubFeed
SparkSubFeed to be transformed
outputSubFeed
SparkSubFeed to be enriched with transformed result
returns
transformed output SparkSubFeed

Definition Classes
CopyAction → SparkOneToOneActionImpl
final def transform(inputSubFeeds: Seq[SparkSubFeed], outputSubFeeds: Seq[SparkSubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SparkSubFeed]

Transform subfeed content To be implemented by subclass.
Transform subfeed content To be implemented by subclass.

Definition Classes
SparkOneToOneActionImpl → ActionSubFeedsImpl
def transformPartitionValues(partitionValues: Seq[PartitionValues])(implicit session: SparkSession, context: ActionPipelineContext): Map[PartitionValues, PartitionValues]

Transform partition values.
Transform partition values. Can be implemented by subclass.

Definition Classes
CopyAction → ActionSubFeedsImpl
val transformers: Seq[ParsableDfTransformer]

optional list of transformations to apply.
optional list of transformations to apply. See sparktransformer for a list of included Transformers. The transformations are applied according to the lists ordering.
def validateAndUpdateSubFeedCustomized(output: DataObject, subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

The transformed DataFrame is validated to have the output's partition columns included, partition columns are moved to the end and SubFeeds partition values updated.
The transformed DataFrame is validated to have the output's partition columns included, partition columns are moved to the end and SubFeeds partition values updated.
output
output DataObject
subFeed
SubFeed with transformed DataFrame
returns
validated and updated SubFeed

Definition Classes
SparkActionImpl
def validateConfig(): Unit

put configuration validation checks here
put configuration validation checks here

Definition Classes
ActionSubFeedsImpl → Action
def validateDataFrameContainsCols(df: DataFrame, columns: Seq[String], debugName: String): Unit

Validate that DataFrame contains a given list of columns, throwing an exception otherwise.
Validate that DataFrame contains a given list of columns, throwing an exception otherwise.
df
DataFrame to validate
columns
Columns that must exist in DataFrame
debugName
name to mention in exception

Definition Classes
SparkActionImpl
def validatePartitionValuesExisting(dataObject: DataObject with CanHandlePartitions, subFeed: SubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

Attributes
protected
Definition Classes
ActionSubFeedsImpl
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
def writeOutputSubFeeds(subFeeds: Seq[SparkSubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Definition Classes
ActionSubFeedsImpl
def writeSubFeed(subFeed: SparkSubFeed, output: DataObject with CanWriteDataFrame, isRecursiveInput: Boolean = false)(implicit session: SparkSession, context: ActionPipelineContext): Option[Boolean]

writes subfeed to output respecting given execution mode
writes subfeed to output respecting given execution mode
returns
true if no data was transferred, otherwise false. None if unknown.

Definition Classes
SparkActionImpl
def writeSubFeed(subFeed: SparkSubFeed, isRecursive: Boolean)(implicit session: SparkSession, context: ActionPipelineContext): WriteSubFeedResult

Write subfeed data to output.
Write subfeed data to output. To be implemented by subclass.
isRecursive
If subfeed is recursive (input & output)
returns
false if there was no data to process, otherwise true.

Attributes
protected
Definition Classes
SparkActionImpl → ActionSubFeedsImpl

Deprecated Value Members

val additionalColumns: Option[Map[String, String]]

optional tuples of [column name, spark sql expression] to be added as additional columns to the dataframe.
optional tuples of [column name, spark sql expression] to be added as additional columns to the dataframe. The spark sql expressions are evaluated against an instance of DefaultExpressionData.

Annotations
@deprecated
Deprecated
(Since version 2.0.5) Use transformers instead.
val columnBlacklist: Option[Seq[String]]

Remove all columns on blacklist from dataframe
Remove all columns on blacklist from dataframe

Annotations
@deprecated
Deprecated
(Since version 2.0.5) Use transformers instead.
val columnWhitelist: Option[Seq[String]]

Keep only columns on whitelist in dataframe
Keep only columns on whitelist in dataframe

Annotations
@deprecated
Deprecated
(Since version 2.0.5) Use transformers instead.
val filterClause: Option[String]

Annotations
@deprecated
Deprecated
(Since version 2.0.5) Use transformers instead.
val standardizeDatatypes: Boolean

Annotations
@deprecated
Deprecated
(Since version 2.0.5) Use transformers instead.
val transformer: Option[CustomDfTransformerConfig]

optional custom transformation to apply.
optional custom transformation to apply.

Annotations
@deprecated
Deprecated
(Since version 2.0.5) Use transformers instead.

Related Docs: object CopyAction | package action

Instance Constructors

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: Any): Boolean

def addRuntimeEvent(executionId: ExecutionId, phase: ExecutionPhase, state: RuntimeEventState, msg: Option[String] = None, results: Seq[SubFeed] = Seq(), tstmp: LocalDateTime = LocalDateTime.now): Unit

def addRuntimeMetrics(executionId: Option[ExecutionId], dataObjectId: Option[DataObjectId], metric: ActionMetrics): Unit

def applyExecutionMode(mainInput: DataObject, mainOutput: DataObject, subFeed: SubFeed, partitionValuesTransform: (Seq[PartitionValues]) ⇒ Map[PartitionValues, PartitionValues])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def applyTransformers(transformers: Seq[DfTransformer], inputSubFeed: SparkSubFeed, outputSubFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

def applyTransformers(transformers: Seq[PartitionValueTransformer], partitionValues: Seq[PartitionValues])(implicit session: SparkSession, context: ActionPipelineContext): Map[PartitionValues, PartitionValues]

def applyTransformers(transformers: Seq[DfsTransformer], inputPartitionValues: Seq[PartitionValues], inputSubFeeds: Seq[SparkSubFeed], outputSubFeeds: Seq[SparkSubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SparkSubFeed]

final def asInstanceOf[T0]: T0

def atlasName: String

def atlasQualifiedName(prefix: String): String

val breakDataFrameLineage: Boolean

def clone(): AnyRef

def createEmptyDataFrame(dataObject: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): DataFrame

val deleteDataAfterRead: Boolean

def enrichSubFeedDataFrame(input: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed, phase: ExecutionPhase, isRecursive: Boolean = false)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

final def eq(arg0: AnyRef): Boolean

final def exec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

val executionCondition: Option[Condition]

var executionConditionResult: Option[(Boolean, Option[String])]

val executionMode: Option[ExecutionMode]

var executionModeResult: Option[Try[Option[ExecutionModeResult]]]

def factory: FromConfigFactory[Action]

def filterDataFrame(df: DataFrame, partitionValues: Seq[PartitionValues], genericFilter: Option[Column]): DataFrame

def finalize(): Unit

final def getClass(): Class[_]

def getDataObjectsState: Seq[DataObjectState]

def getInputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

def getLatestRuntimeEventState: Option[RuntimeEventState]

def getMainInput(inputSubFeeds: Seq[SubFeed])(implicit context: ActionPipelineContext): DataObject

def getMainPartitionValues(inputSubFeeds: Seq[SubFeed])(implicit context: ActionPipelineContext): Seq[PartitionValues]

def getOutputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

def getRuntimeDataImpl: RuntimeData

def getRuntimeInfo(executionId: Option[ExecutionId] = None): Option[RuntimeInfo]

def getRuntimeMetrics(executionId: Option[ExecutionId] = None): Map[DataObjectId, Option[ActionMetrics]]

val id: ActionId

final def init(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

val input: DataObject with CanCreateDataFrame

val inputId: DataObjectId

def inputIdsToIgnoreFilter: Seq[DataObjectId]

val inputs: Seq[DataObject with CanCreateDataFrame]

def isAsynchronous: Boolean

def isAsynchronousProcessStarted: Boolean

final def isInstanceOf[T0]: Boolean

def logWritingFinished(subFeed: SparkSubFeed, noData: Option[Boolean], duration: Duration)(implicit session: SparkSession, context: ActionPipelineContext): Unit

def logWritingStarted(subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

lazy val logger: Logger

def mainInputId: Option[DataObjectId]

lazy val mainOutput: DataObject

def mainOutputId: Option[DataObjectId]

val metadata: Option[ActionMetadata]

val metricsFailCondition: Option[String]

final def ne(arg0: AnyRef): Boolean

def nodeId: String

final def notify(): Unit

final def notifyAll(): Unit

val output: DataObject with CanWriteDataFrame

val outputId: DataObjectId

val outputs: Seq[DataObject with CanWriteDataFrame]

val persist: Boolean

final def postExec(inputSubFeeds: Seq[SubFeed], outputSubFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def postExecFailed(implicit session: SparkSession): Unit

def postExecSubFeed(inputSubFeed: SubFeed, outputSubFeed: SubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

def postprocessOutputSubFeedCustomized(subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

def postprocessOutputSubFeeds(subFeeds: Seq[SparkSubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SparkSubFeed]

def preExec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def preInit(subFeeds: Seq[SubFeed], dataObjectsState: Seq[DataObjectState])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def prepare(implicit session: SparkSession, context: ActionPipelineContext): Unit

def prepareInputSubFeed(input: DataObject with CanCreateDataFrame, subFeed: SparkSubFeed, ignoreFilters: Boolean = false)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

def prepareInputSubFeeds(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): (Seq[SparkSubFeed], Seq[SparkSubFeed])

def preprocessInputSubFeedCustomized(subFeed: SparkSubFeed, ignoreFilters: Boolean, isRecursive: Boolean)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

lazy val prioritizedMainInputCandidates: Seq[DataObject]

def recursiveInputs: Seq[DataObject with CanCreateDataFrame]

val saveModeOptions: Option[SaveModeOptions]

def setSparkJobMetadata(operation: Option[String] = None)(implicit session: SparkSession, context: ActionPipelineContext): Unit