Décidément, ce TP (fouille de données textuelles) me pose des soucis.
La première partie se passe correctement mais arrivé à la commande suivante, j'ai une erreur :
Code : Tout sélectionner
scala> val (termDocMatrix, termIds, docIds, idfs) = ParseWikipedia.termDocumentMatrix(filtered, stopWords, numTerms, sc)
java.lang.NoSuchMethodError: org.apache.spark.SparkContext$.rddToPairRDDFunctions(Lorg/apache/spark/rdd/RDD;Lscala/reflect/ClassTag;Lscala/reflect/ClassTag;Lscala/math/Ordering;)Lorg/apache/spark/rdd/PairRDDFunctions;
at com.cloudera.datascience.lsa.ParseWikipedia$.termDocumentMatrix(ParseWikipedia.scala:40)
... 56 elided
J'ai pu voir sur des forums que cette erreur pouvait être liée à des différences de versions entre la compilation et l'exécution.
J'ai donc essayé de corriger les pom.xml mais il contiennent beaucoup de référence à des plugins et outils dont je ne sais pas trop dans quelle version ils sont.
Quelqu'un a-t-il réussi à faire ce TP avec SPARK 2.2 (c'est la version que j'ai installée, notamment en raison de l'apparition des dataFrames, beaucoup plus riches que les RDD) ?
Je ne suis pas familier avec Maven, aussi je ne sais pas trop par quel bout je dois prendre ce problème.
Si quelqu'un pouvait m'éclairer ou m'indiquer une piste à creuser, cela me serait d'un grand secours.
Merci,
JC