StandardContentExtractor

Value Members

final def !=(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def !=(arg0: Any): Boolean

Definition Classes
Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def ==(arg0: Any): Boolean

Definition Classes
Any
val ARROWS_SPLITTER: StringSplitter

Definition Classes
ContentExtractor
val A_REL_TAG_SELECTOR: String

Definition Classes
ContentExtractor
val COLON_SPLITTER: StringSplitter

Definition Classes
ContentExtractor
val DASH_SPLITTER: StringSplitter

Definition Classes
ContentExtractor
val ESCAPED_FRAGMENT_REPLACEMENT: StringReplacement

Definition Classes
ContentExtractor
val MOTLEY_REPLACEMENT: StringReplacement

Definition Classes
ContentExtractor
val NO_STRINGS: Set[String]

Definition Classes
ContentExtractor
val PIPE_SPLITTER: StringSplitter

Definition Classes
ContentExtractor
val SPACE_SPLITTER: StringSplitter

Definition Classes
ContentExtractor
val TITLE_REPLACEMENTS: ReplaceSequence

Definition Classes
ContentExtractor
val TOP_NODE_TAGS: TagsEvaluator

Definition Classes
ContentExtractor
final def asInstanceOf[T0]: T0

Definition Classes
Any
def calculateBestNodeBasedOnClustering(doc: Document): Option[Element]

we're going to start looking for where the clusters of paragraphs are.
we're going to start looking for where the clusters of paragraphs are. We'll score a cluster based on the number of stopwords and the number of consecutive paragraphs together, which should form the cluster of text that this node is around also store on how high up the paragraphs are, comments are usually at the bottom and should get a lower score
// todo refactor this long method
returns

Definition Classes
ContentExtractor
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def doTitleSplits(title: String, splitter: StringSplitter): String

based on a delimeter in the title take the longest piece or do some custom logic based on the site
based on a delimeter in the title take the longest piece or do some custom logic based on the site
title
splitter
returns

Definition Classes
ContentExtractor
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def extractTags(doc: Document): Set[String]

Definition Classes
ContentExtractor
def extractVideos(node: Element): List[Element]

pulls out videos we like
pulls out videos we like
returns

Definition Classes
ContentExtractor
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
def getCanonicalLink(doc: Document, finalUrl: String): String

if the article has meta canonical link set in the url
if the article has meta canonical link set in the url

Definition Classes
ContentExtractor
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def getDomain(url: String): String

Definition Classes
ContentExtractor
def getLogger(): Logger

Definition Classes
ContentExtractor
def getMetaDescription(doc: Document): String

if the article has meta description set in the source, use that
if the article has meta description set in the source, use that

Definition Classes
ContentExtractor
def getMetaKeywords(doc: Document): String

if the article has meta keywords set in the source, use that
if the article has meta keywords set in the source, use that

Definition Classes
ContentExtractor
def getShortText(e: String, max: Int): String

Definition Classes
ContentExtractor
def getSiblingContent(currentSibling: Element, baselineScoreForSiblingParagraphs: Int): Option[String]

adds any siblings that may have a decent score to this node
adds any siblings that may have a decent score to this node
currentSibling
returns

Definition Classes
ContentExtractor
def getTitle(doc: Document): String

Definition Classes
ContentExtractor
def hashCode(): Int

Definition Classes
AnyRef → Any
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def isNodeScoreThreshholdMet(node: Element, e: Element): Boolean

Definition Classes
ContentExtractor
def isTableTagAndNoParagraphsExist(e: Element): Boolean

Definition Classes
ContentExtractor
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def postExtractionCleanup(targetNode: Element): Element

remove any divs that looks like non-content, clusters of links, or paras with no gusto
remove any divs that looks like non-content, clusters of links, or paras with no gusto
targetNode
returns

Definition Classes
ContentExtractor
def printTraceLog(topNode: Element): Unit

Definition Classes
ContentExtractor
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def toString(): String

Definition Classes
AnyRef → Any
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
def walkSiblings[T](node: Element)(work: (Element) ⇒ T): Seq[T]

Definition Classes
ContentExtractor

object StandardContentExtractor extends ContentExtractor

Value Members

final def !=(arg0: AnyRef): Boolean

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: AnyRef): Boolean

final def ==(arg0: Any): Boolean

val ARROWS_SPLITTER: StringSplitter

val A_REL_TAG_SELECTOR: String

val COLON_SPLITTER: StringSplitter

val DASH_SPLITTER: StringSplitter

val ESCAPED_FRAGMENT_REPLACEMENT: StringReplacement

val MOTLEY_REPLACEMENT: StringReplacement

val NO_STRINGS: Set[String]

val PIPE_SPLITTER: StringSplitter

val SPACE_SPLITTER: StringSplitter

val TITLE_REPLACEMENTS: ReplaceSequence

val TOP_NODE_TAGS: TagsEvaluator

final def asInstanceOf[T0]: T0

def calculateBestNodeBasedOnClustering(doc: Document): Option[Element]

def clone(): AnyRef

def doTitleSplits(title: String, splitter: StringSplitter): String

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

def extractTags(doc: Document): Set[String]

def extractVideos(node: Element): List[Element]

def finalize(): Unit

def getCanonicalLink(doc: Document, finalUrl: String): String

final def getClass(): Class[_]

def getDomain(url: String): String

def getLogger(): Logger

def getMetaDescription(doc: Document): String

def getMetaKeywords(doc: Document): String

def getShortText(e: String, max: Int): String

def getSiblingContent(currentSibling: Element, baselineScoreForSiblingParagraphs: Int): Option[String]

def getTitle(doc: Document): String

def hashCode(): Int

final def isInstanceOf[T0]: Boolean

def isNodeScoreThreshholdMet(node: Element, e: Element): Boolean

def isTableTagAndNoParagraphsExist(e: Element): Boolean

final def ne(arg0: AnyRef): Boolean

final def notify(): Unit

final def notifyAll(): Unit

def postExtractionCleanup(targetNode: Element): Element

def printTraceLog(topNode: Element): Unit

final def synchronized[T0](arg0: ⇒ T0): T0

def toString(): String

final def wait(): Unit

final def wait(arg0: Long, arg1: Int): Unit

final def wait(arg0: Long): Unit

def walkSiblings[T](node: Element)(work: (Element) ⇒ T): Seq[T]

Inherited from ContentExtractor

Inherited from AnyRef

Inherited from Any

Ungrouped