Bonjour à tous,
j'ai un premier RDD rdd1 de type [(String, scala.collection.immutable.Seq[String])]
et un deuxième RDD rdd2 de type [(String, Boolean)]
j'essaie d'utiliser la méthode substractByKey pour ne garder dans le premier RDD que les éléments qui ne sont pas dans le deuxième en appliquant : rdd1.substractByKey(rdd2)
j'ai le message d'erreur suivant : error: value substractByKey is not a member of org.apache.spark.rdd.RDD[(String, scala.collection.immutable.Seq[String])]
je ne comprends pas, quand je fais l'exemple suivant trouvé sur internet ça marche bien :
val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "spider", "eagle"), 2)
val b = a.keyBy(_.length)
val c = sc.parallelize(List("ant", "falcon", "squid"), 2)
val d = c.keyBy(_.length)
val d = c.keyBy(_.length)
b.subtractByKey(d).collect
res15: Array[(Int, String)] = Array((4,lion))[/i]
quand je crée rdd1 j'ai essayé pour la méthode paralellize d'utiser (ou non) ,2) en deuxieme argument mais le message d'erreur est le même.
rdd2 est obtenu en filtrant rdd1
merci d'avance
Odilon
substractByKey
Modérateur : Crucianu
Re: substractByKey
Bonjour,
Le nom de la méthode est subtract (avec un seul s) et non substract.
Dans l'exemple qui marche vous utilisez bien subtractByKey, mais dans le cas où vous obtenez un message d'erreur vous employez substractByKey (qui est inconnue).
Bien cordialement,
Michel Crucianu
Le nom de la méthode est subtract (avec un seul s) et non substract.
Dans l'exemple qui marche vous utilisez bien subtractByKey, mais dans le cas où vous obtenez un message d'erreur vous employez substractByKey (qui est inconnue).
Bien cordialement,
Michel Crucianu