DeduplicateAction

Instance Constructors

new DeduplicateAction(id: ActionObjectId, inputId: DataObjectId, outputId: DataObjectId, transformer: Option[CustomDfTransformerConfig] = None, columnBlacklist: Option[Seq[String]] = None, columnWhitelist: Option[Seq[String]] = None, filterClause: Option[String] = None, standardizeDatatypes: Boolean = false, ignoreOldDeletedColumns: Boolean = false, ignoreOldDeletedNestedColumns: Boolean = true, breakDataFrameLineage: Boolean = false, persist: Boolean = false, initExecutionMode: Option[ExecutionMode] = None, metadata: Option[ActionMetadata] = None)(implicit instanceRegistry: InstanceRegistry)

inputId
inputs DataObject
outputId
output DataObject
ignoreOldDeletedColumns
if true, remove no longer existing columns in Schema Evolution
ignoreOldDeletedNestedColumns
if true, remove no longer existing columns from nested data types in Schema Evolution. Keeping deleted columns in complex data types has performance impact as all new data in the future has to be converted by a complex function.
initExecutionMode
optional execution mode if this Action is a start node of a DAG run

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def addRuntimeEvent(phase: String, state: RuntimeEventState, msg: Option[String] = None, results: Seq[SubFeed] = Seq()): Unit

Adds an action event
Adds an action event

Definition Classes
Action
final def asInstanceOf[T0]: T0

Definition Classes
Any
val breakDataFrameLineage: Boolean

Stop propagating input DataFrame through action and instead get a new DataFrame from DataObject.
Stop propagating input DataFrame through action and instead get a new DataFrame from DataObject. This can help to save memory and performance if the input DataFrame includes many transformations from previous Actions. The new DataFrame will be initialized according to the SubFeed's partitionValues.

Definition Classes
DeduplicateAction → SparkSubFeedAction
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
val columnBlacklist: Option[Seq[String]]
val columnWhitelist: Option[Seq[String]]
def deduplicate(baseDf: DataFrame, newDf: DataFrame, keyColumns: Seq[String])(implicit session: SparkSession): DataFrame

deduplicate -> keep latest record per key
deduplicate -> keep latest record per key
baseDf
existing data
newDf
new data
returns
deduplicated data
def enableRuntimeMetrics(): Unit

Runtime metrics
Runtime metrics
Note: runtime metrics are disabled by default, because they are only collected when running Actions from an ActionDAG. This is not the case for Tests other use cases. If enabled exceptions are thrown if metrics are not found.

Definition Classes
Action
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def exec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

Action.exec implementation
Action.exec implementation
subFeeds
SparkSubFeed's to be processed
returns
processed SparkSubFeed's

Definition Classes
SparkSubFeedAction → Action
def factory: FromConfigFactory[Action]

Returns the factory that can parse this type (that is, type CO).
Returns the factory that can parse this type (that is, type CO).
Typically, implementations of this method should return the companion object of the implementing class. The companion object in turn should implement FromConfigFactory.
returns
the factory (object) for this class.

Definition Classes
DeduplicateAction → ParsableFromConfig
val filterClause: Option[String]
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
def getAllLatestMetrics: Map[DataObjectId, Option[ActionMetrics]]

Definition Classes
Action
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def getFinalMetrics(dataObjectId: DataObjectId): Option[ActionMetrics]

Definition Classes
Action
def getInputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

Attributes
protected
Definition Classes
Action
def getLatestMetrics(dataObjectId: DataObjectId): Option[ActionMetrics]

Definition Classes
Action
def getOutputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

Attributes
protected
Definition Classes
Action
def getRuntimeInfo: Option[RuntimeInfo]

get latest runtime information for this action
get latest runtime information for this action

Definition Classes
Action
val id: ActionObjectId

A unique identifier for this instance.
A unique identifier for this instance.

Definition Classes
DeduplicateAction → Action → SdlConfigObject
val ignoreOldDeletedColumns: Boolean

if true, remove no longer existing columns in Schema Evolution
val ignoreOldDeletedNestedColumns: Boolean

if true, remove no longer existing columns from nested data types in Schema Evolution.
if true, remove no longer existing columns from nested data types in Schema Evolution. Keeping deleted columns in complex data types has performance impact as all new data in the future has to be converted by a complex function.
final def init(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

Action.init implementation
Action.init implementation
subFeeds
SparkSubFeed's to be processed
returns
processed SparkSubFeed's

Definition Classes
SparkSubFeedAction → Action
val initExecutionMode: Option[ExecutionMode]

optional execution mode if this Action is a start node of a DAG run
optional execution mode if this Action is a start node of a DAG run

Definition Classes
DeduplicateAction → SparkSubFeedAction
val input: DataObject with CanCreateDataFrame

Input DataObject which can CanCreateDataFrame
Input DataObject which can CanCreateDataFrame

Definition Classes
DeduplicateAction → SparkSubFeedAction
val inputId: DataObjectId

inputs DataObject
val inputs: Seq[DataObject with CanCreateDataFrame]

Input DataObjects To be implemented by subclasses
Input DataObjects To be implemented by subclasses

Definition Classes
DeduplicateAction → Action
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
lazy val logger: Logger

Attributes
protected
Definition Classes
SmartDataLakeLogger
val metadata: Option[ActionMetadata]

Additional metadata for the Action
Additional metadata for the Action

Definition Classes
DeduplicateAction → Action
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def nodeId: String

provide an implementation of the DAG node id
provide an implementation of the DAG node id

Definition Classes
Action → DAGNode
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def onRuntimeMetrics(dataObjectId: Option[DataObjectId], metrics: ActionMetrics): Unit

Definition Classes
Action
val output: TransactionalSparkTableDataObject

Output DataObject which can CanWriteDataFrame
Output DataObject which can CanWriteDataFrame

Definition Classes
DeduplicateAction → SparkSubFeedAction
val outputId: DataObjectId

output DataObject
val outputs: Seq[TransactionalSparkTableDataObject]

Output DataObjects To be implemented by subclasses
Output DataObjects To be implemented by subclasses

Definition Classes
DeduplicateAction → Action
val persist: Boolean

Force persisting DataFrame on Disk.
Force persisting DataFrame on Disk. This helps to reduce memory needed for caching the DataFrame content and can serve as a recovery point in case an task get's lost.

Definition Classes
DeduplicateAction → SparkSubFeedAction
final def postExec(inputSubFeeds: Seq[SubFeed], outputSubFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed after executing an action.
Executes operations needed after executing an action. In this step any operation on Input- or Output-DataObjects needed after the main task is executed, e.g. JdbcTableDataObjects postSql or CopyActions deleteInputData.

Definition Classes
SparkSubFeedAction → Action
def postExecSubFeed(inputSubFeed: SubFeed, outputSubFeed: SubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

Definition Classes
SparkSubFeedAction
def preExec(implicit session: SparkSession, context: ActionPipelineContext): Unit

Executes operations needed before executing an action.
Executes operations needed before executing an action. In this step any operation on Input- or Output-DataObjects needed before the main task is executed, e.g. JdbcTableDataObjects preSql

Definition Classes
Action
def prepare(implicit session: SparkSession, context: ActionPipelineContext): Unit

Prepare DataObjects prerequisites.
Prepare DataObjects prerequisites. In this step preconditions are prepared & tested: - directories exists or can be created - connections can be created
This runs during the "prepare" operation of the DAG.

Definition Classes
Action
def setSparkJobMetadata(operation: Option[String] = None)(implicit session: SparkSession): Unit

Sets the util job description for better traceability in the Spark UI
Sets the util job description for better traceability in the Spark UI
Note: This sets Spark local properties, which are propagated to the respective executor tasks. We rely on this to match metrics back to Actions and DataObjects. As writing to a DataObject on the Driver happens uninterrupted in the same exclusive thread, this is suitable.
operation
operation description (be short...)

Definition Classes
Action
val standardizeDatatypes: Boolean
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
final def toString(): String

This is displayed in ascii graph visualization
This is displayed in ascii graph visualization

Definition Classes
Action → AnyRef → Any
def toStringMedium: String

Definition Classes
Action
def toStringShort: String

Definition Classes
Action
def transform(subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

Transform a SparkSubFeed.
Transform a SparkSubFeed. To be implemented by subclasses.
subFeed
SparkSubFeed to be transformed
returns
transformed SparkSubFeed

Definition Classes
DeduplicateAction → SparkSubFeedAction
val transformer: Option[CustomDfTransformerConfig]
object udfs extends Serializable
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )

Related Docs: object DeduplicateAction | package action

Instance Constructors

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: Any): Boolean

def addRuntimeEvent(phase: String, state: RuntimeEventState, msg: Option[String] = None, results: Seq[SubFeed] = Seq()): Unit

final def asInstanceOf[T0]: T0

val breakDataFrameLineage: Boolean

def clone(): AnyRef

val columnBlacklist: Option[Seq[String]]

val columnWhitelist: Option[Seq[String]]

def deduplicate(baseDf: DataFrame, newDf: DataFrame, keyColumns: Seq[String])(implicit session: SparkSession): DataFrame

def enableRuntimeMetrics(): Unit

final def eq(arg0: AnyRef): Boolean

final def exec(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

def factory: FromConfigFactory[Action]

val filterClause: Option[String]

def finalize(): Unit

def getAllLatestMetrics: Map[DataObjectId, Option[ActionMetrics]]

final def getClass(): Class[_]

def getFinalMetrics(dataObjectId: DataObjectId): Option[ActionMetrics]

def getInputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

def getLatestMetrics(dataObjectId: DataObjectId): Option[ActionMetrics]

def getOutputDataObject[T <: DataObject](id: DataObjectId)(implicit arg0: ClassTag[T], arg1: scala.reflect.api.JavaUniverse.TypeTag[T], registry: InstanceRegistry): T

def getRuntimeInfo: Option[RuntimeInfo]

val id: ActionObjectId

val ignoreOldDeletedColumns: Boolean

val ignoreOldDeletedNestedColumns: Boolean

final def init(subFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Seq[SubFeed]

val initExecutionMode: Option[ExecutionMode]

val input: DataObject with CanCreateDataFrame

val inputId: DataObjectId

val inputs: Seq[DataObject with CanCreateDataFrame]

final def isInstanceOf[T0]: Boolean

lazy val logger: Logger

val metadata: Option[ActionMetadata]

final def ne(arg0: AnyRef): Boolean

def nodeId: String

final def notify(): Unit

final def notifyAll(): Unit

def onRuntimeMetrics(dataObjectId: Option[DataObjectId], metrics: ActionMetrics): Unit

val output: TransactionalSparkTableDataObject

val outputId: DataObjectId

val outputs: Seq[TransactionalSparkTableDataObject]

val persist: Boolean

final def postExec(inputSubFeeds: Seq[SubFeed], outputSubFeeds: Seq[SubFeed])(implicit session: SparkSession, context: ActionPipelineContext): Unit

def postExecSubFeed(inputSubFeed: SubFeed, outputSubFeed: SubFeed)(implicit session: SparkSession, context: ActionPipelineContext): Unit

def preExec(implicit session: SparkSession, context: ActionPipelineContext): Unit

def prepare(implicit session: SparkSession, context: ActionPipelineContext): Unit

def setSparkJobMetadata(operation: Option[String] = None)(implicit session: SparkSession): Unit

val standardizeDatatypes: Boolean

final def synchronized[T0](arg0: ⇒ T0): T0

final def toString(): String

def toStringMedium: String

def toStringShort: String

def transform(subFeed: SparkSubFeed)(implicit session: SparkSession, context: ActionPipelineContext): SparkSubFeed

val transformer: Option[CustomDfTransformerConfig]

object udfs extends Serializable

final def wait(): Unit

final def wait(arg0: Long, arg1: Int): Unit

final def wait(arg0: Long): Unit

Inherited from Serializable

Inherited from Serializable

Inherited from Product

Inherited from Equals

Inherited from SparkSubFeedAction

Inherited from Action

Inherited from SmartDataLakeLogger

Inherited from DAGNode

Inherited from ParsableFromConfig[Action]

Inherited from SdlConfigObject

Inherited from AnyRef

Inherited from Any

Ungrouped