Bucketizers

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def asInstanceOf[T0]: T0

Definition Classes
Any
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
val concatChar: String
def cutoffFilter(b: String, cutoffOption: Option[Int], highFreqs: Map[String, Int]): Boolean
val defaultAllowTruncated: Boolean
val defaultNameCutoffThreshold: Int
val defaultNameNgramLength: Int
val defaultTitleCutoffThreshold: Int
val defaultTitleNgramLength: Int
val defaultUpto: Int
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def hashCode(): Int

Definition Classes
AnyRef → Any
val highFreqNameNgramStream: InputStream
lazy val highFreqNameNgrams: Map[String, Int]
val highFreqTitleNgramStream: InputStream

This file contains 225 high-frequency n-grams from title prefixes.
This file contains 225 high-frequency n-grams from title prefixes. High means the S2 * Dblp bucket size is > 1M. (Early Sept. 2015) n is 2, 3, 4, 5.
lazy val highFreqTitleNgrams: Map[String, Int]
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def loadHighFreqs(is: InputStream): Map[String, Int]
def nameNgrams(name: String): Iterator[String]
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def ngramAux(chunks: Array[String], n: Int, cutoffOption: Option[Int], allowTruncated: Boolean, highFreqs: Map[String, Int], upto: Int): Iterator[String]
def ngrams(text: String, n: Int, cutoffOption: Option[Int], allowTruncated: Boolean = defaultAllowTruncated, highFreqs: Map[String, Int] = highFreqTitleNgrams, upto: Int = defaultUpto): Iterator[String]

Returns a list of ngrams.
Returns a list of ngrams. If cutoff is specified, continue to add more words until the result has frequency lower than the cutoff value. If allowTruncated is set to true, accept ngrams that have length less than n. For example, if the text is "local backbones" and n = 3, we will generate the ngram "local_backbones".
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def simple3TitlePrefix(text: String): List[String]

This is used in V1.
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def tailNgrams(text: String, n: Int, cutoffOption: Option[Int], allowTruncated: Boolean = defaultAllowTruncated, highFreqs: Map[String, Int] = highFreqTitleNgrams, upto: Int = defaultUpto): Iterator[String]
def titleNgrams(title: String, upto: Int, allowTruncated: Boolean = defaultAllowTruncated): Iterator[String]
def titleTailNgrams(title: String, upto: Int = 1, allowTruncated: Boolean = defaultAllowTruncated): Iterator[String]
def toBucket(s: String): String
def toBucket(words: Iterable[String]): String
def toString(): String

Definition Classes
AnyRef → Any
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
def words(text: String, maxCount: Int = 40): Array[String]

Return the array of tokens for the given input.
Return the array of tokens for the given input. Limit number of tokens to maxCount

Related Doc: package pipeline

object Bucketizers

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: Any): Boolean

final def asInstanceOf[T0]: T0

def clone(): AnyRef

val concatChar: String

def cutoffFilter(b: String, cutoffOption: Option[Int], highFreqs: Map[String, Int]): Boolean

val defaultAllowTruncated: Boolean

val defaultNameCutoffThreshold: Int

val defaultNameNgramLength: Int

val defaultTitleCutoffThreshold: Int

val defaultTitleNgramLength: Int

val defaultUpto: Int

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

def finalize(): Unit

final def getClass(): Class[_]

def hashCode(): Int

val highFreqNameNgramStream: InputStream

lazy val highFreqNameNgrams: Map[String, Int]

val highFreqTitleNgramStream: InputStream

lazy val highFreqTitleNgrams: Map[String, Int]

final def isInstanceOf[T0]: Boolean

def loadHighFreqs(is: InputStream): Map[String, Int]

def nameNgrams(name: String): Iterator[String]

final def ne(arg0: AnyRef): Boolean

def ngramAux(chunks: Array[String], n: Int, cutoffOption: Option[Int], allowTruncated: Boolean, highFreqs: Map[String, Int], upto: Int): Iterator[String]

def ngrams(text: String, n: Int, cutoffOption: Option[Int], allowTruncated: Boolean = defaultAllowTruncated, highFreqs: Map[String, Int] = highFreqTitleNgrams, upto: Int = defaultUpto): Iterator[String]

final def notify(): Unit

final def notifyAll(): Unit

def simple3TitlePrefix(text: String): List[String]

final def synchronized[T0](arg0: ⇒ T0): T0

def tailNgrams(text: String, n: Int, cutoffOption: Option[Int], allowTruncated: Boolean = defaultAllowTruncated, highFreqs: Map[String, Int] = highFreqTitleNgrams, upto: Int = defaultUpto): Iterator[String]

def titleNgrams(title: String, upto: Int, allowTruncated: Boolean = defaultAllowTruncated): Iterator[String]

def titleTailNgrams(title: String, upto: Int = 1, allowTruncated: Boolean = defaultAllowTruncated): Iterator[String]

def toBucket(s: String): String

def toBucket(words: Iterable[String]): String

def toString(): String

final def wait(): Unit

final def wait(arg0: Long, arg1: Int): Unit

final def wait(arg0: Long): Unit

def words(text: String, maxCount: Int = 40): Array[String]

Inherited from AnyRef

Inherited from Any

Ungrouped