Question concernant le TP6 la lemmatisation

Modérateur : Crucianu

Répondre
Min
Messages : 9
Inscription : 25 mars 2015 15:31

Question concernant le TP6 la lemmatisation

Message par Min » 01 avr. 2015 17:02

Bonjour,

Pour la lemmatisation, dans le TP, vous proposez:

Code : Tout sélectionner

scala> val lemmatized = plainText.mapPartitions(iter => {
           val pipeline = createNLPPipeline();
           iter.map{ case(title, contents) => (title, plainTextToLemmas(contents, stopWords, pipeline))};
       })
Pourquoi on ne fait pas directement map sans passer par mapPartitions? Voici:

Code : Tout sélectionner

val lemmatized = plainText.map({val pipeline = createNLPPipeline(); case(title, contents) => (title, plainTextToLemmas(contents, stopWords,pipeline=createNLPPipeline() ))})
Après exécution, les résultats de ces 2 méthodes restent identiques. J'ai même impression que la 2ème méthode est légèrement plus rapide.

Merci pour votre éclaircissement.

Crucianu
Messages : 17
Inscription : 21 janv. 2015 18:35

Re: Question concernant le TP6 la lemmatisation

Message par Crucianu » 02 avr. 2015 16:22

Bonjour,

Pour le RDD plainText, un élément est un document Wikipedia représenté comme une paire (K, V), K étant title (le titre de la page) et V étant contents (le contenu de la page). Une partition sera affectée à un noeud de calcul et contiendra en général de nombreux documents Wikipedia différents.

La seconde solution fonctionne également. D'ailleurs, vous devriez pouvoir utiliser mapValues plutôt que map, car dans la paire (K, V) seule la partie V vous intéresse.

L'avantage d'employer mapPartitions plutôt que map (ou mapValues) est d'avoir une seule instance de NLPPipeline par partition (donc par noeud de calcul) plutôt qu'une instance par document Wikipedia.

Bien cordialement,
Michel Crucianu

Min
Messages : 9
Inscription : 25 mars 2015 15:31

Re: Question concernant le TP6 la lemmatisation

Message par Min » 03 avr. 2015 0:24

Merci pour cette explication claire.

Répondre

Qui est en ligne ?

Utilisateurs parcourant ce forum : Aucun utilisateur inscrit et 1 invité