[kmlShape] : Nouveau package

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Christophe Genolini
Messages : 698
Enregistré le : 12 Juin 2006, 21:37
Contact :

[kmlShape] : Nouveau package

Messagepar Christophe Genolini » 03 Juil 2016, 16:20

Bonjour

J'ai fait différents packages dans ma vie, mais je n'ai jamais trop fait de pub parce que je les trouvais pas vraiment révolutionnaires. Mais aujourd'hui, je suis très fier de vous présenter :
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ kmlShape ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~

kmlShape permet de partitionner les données longitudinales en prenant en compte la forme des trajectoires.

La majorité des méthodes de partitionnement classent deux individus ensemble si leurs trajectoires sont proches à chaque temps de mesure. Ce type de méthode prend en compte les ressemblances locales mais ne tient pas vraiment compte de la forme générale des trajectoires. Or, dans un certain nombre de situations, l’évolution d’un phénomène peut avoir plus d’importance que son moment d’apparition. On souhaite dans ces situations pouvoir partitionner en classant dans le même groupe des individus dont les trajectoires ont des formes similaires, indépendamment d’un décalage dans le temps.

kmlShape est un package permettant de partitionner des données longitudinales en fonction de leur forme, indépendament du moment précis de l’apparition d’un événement. Pour cela, il se base sur un k-means utilisant une "distance silhouette" (genre d’extension des distance DTW) et une "moyenne silhouette".

Comme la complexité de l'ensemble peut etre élevé, le package propose également deux méthodes de simplification des données, une pour réduire le nombre d'individu, l'autre pour réduire le nombre de mesures. La simplification ne change pas le résultat final, mais accélère considérablement les calculs.

kmlShape est sur le CRAN, l'article décrivant la méthode est publié chez plosOne :
http://journals.plos.org/plosone/articl ... ne.0150738

Christophe
--
Christophe
https://rplusplus.com

Yoan Russac
Messages : 33
Enregistré le : 30 Juin 2016, 09:43

Re: [kmlShape] : Nouveau package

Messagepar Yoan Russac » 04 Juil 2016, 14:58

Bonjour,
J'ai trouvé l'article très intéressant,
En plus de cela, j'ai l'impression que la vision de proximité des allures des courbes peut apporter de l'information. Je pense que je serai amené à utiliser un tel package.

Néanmoins j'ai quelques interrogations d'ordre théorique:
- Par rapport à la clusterisation, en prenant aléatoirement les k courbes qui seront les centres des clusters initiaux, à chaque fois que l'algorithme est relancé, la clusterisation finale obtenue peut être différente, est-ce que le package fait le test avec plusieurs initialisations différentes ?

- Ma seconde question est lié à la distance de Fréchet généralisée, je n'étais pas familier avec le concept de proximité d'allures de courbe mais toutefois, pour le calcul de d(P,Q) avec P et Q deux courbes, vous parlez de l'inf sur alpha, beta (avec alpha,beta des surjections continues et croissantes sur [0,s] et en faisant varier s entre 0 et t), mais je n'arrive pas à comprendre comment informatiquement on peut trouver les paramètres alpha et bêta qui minimisent la distance? ( L'ensemble des surjections continues et croissantes de [0,s]-> [0,s] a-t-il des propriétés particulières ?)

Je vais devoir pousser les recherches sur la distance de Fréchet.

Très bon package en tout cas

Yoan
Yoan Russac

Christophe Genolini
Messages : 698
Enregistré le : 12 Juin 2006, 21:37
Contact :

Re: [kmlShape] : Nouveau package

Messagepar Christophe Genolini » 04 Juil 2016, 20:55

Bonjour

Non, le package utilise un seul tirage. Il faudrait en faire plusieurs, je te l'accorde, et il faudrait aussi varier le nombre de clusters. C'est dans le to do.

Pour alpha et beta, on les essaye toutes... (Attention, on est dans le cas discret). C'est bourrin, mais on n'a pas mieux. C'est ce qui fait que la complexité en temps est aussi importante. La distance de frechet entre deux courbes de longueur t se calcule en O(t^2).
--
Christophe
https://rplusplus.com

Dominique Soudant
Messages : 758
Enregistré le : 23 Avr 2008, 11:12
Contact :

Re: [kmlShape] : Nouveau package

Messagepar Dominique Soudant » 05 Juil 2016, 06:49

Félicitation et bravo pour le package et la publi !

J'ai en tête de faire du clustering de séries temporelles à terme, faut-il encore que j'arrive à traiter de manière appropriée mes séries.

@+

Yoan Russac
Messages : 33
Enregistré le : 30 Juin 2016, 09:43

Re: [kmlShape] : Nouveau package

Messagepar Yoan Russac » 05 Juil 2016, 07:47

Du coup je dois encore mal comprendre, je ne comprends pas comment on peut toutes les essayer ? ( en quoi le cas est discret?)

Yoan
Yoan Russac

Christophe Genolini
Messages : 698
Enregistré le : 12 Juin 2006, 21:37
Contact :

Re: [kmlShape] : Nouveau package

Messagepar Christophe Genolini » 05 Juil 2016, 08:24

Je prends deux trajectoires a <- c(0,3,0,...,n) et b <- c(2,3,4,...,n).
Tu construis la matrice M={m_ij} tel que m_ij={dist(a[i],b[j])}

Ensuite, tu trouves dans cette matrice le chemin qui part du point (1,1), qui va en (n,n) et dont le max est le plus petit.
--
Christophe
https://rplusplus.com

Yoan Russac
Messages : 33
Enregistré le : 30 Juin 2016, 09:43

Re: [kmlShape] : Nouveau package

Messagepar Yoan Russac » 05 Juil 2016, 08:41

AHHHH je crois que je commences à comprendre, en fait les trajectoires sont discrétisées c'est bien ça ?
Yoan Russac

Nicolas Péru
Messages : 1408
Enregistré le : 07 Aoû 2006, 08:13

Re: [kmlShape] : Nouveau package

Messagepar Nicolas Péru » 05 Juil 2016, 08:48

Bonjour Christophe,

Merci pour ce nouveau package. J'avais pratiqué le package kml pour une étude et je l'avais trouvé intéressant pour les possibilités qu'il offrait.

Si tu as le temps (et si ça a un intérêt), peux-tu me dire les apports/différences/complémentarités éventuels entre ces deux packages.

Bonne journée,

Nicolas

Christophe Genolini
Messages : 698
Enregistré le : 12 Juin 2006, 21:37
Contact :

Re: [kmlShape] : Nouveau package

Messagepar Christophe Genolini » 05 Juil 2016, 11:27

@Yoan

Yeap

@Nicolas

Rien a voir. kml utilise un k-means classique. Les résultats obtenus sont proches de ce qu'on obtient avec un modèle de mélange ou avec Proc Traj sous SAS. kmlShape groupe des trajectoires qui sont considérées comme étant mathématiquement lointaines l'une de l'autre (en utilisant la classique distance euclidienne) mais qui ont des formes proches, à un décalage dans le temps près. La figure 1 de l'article sera plus claire qu'un long discourt. A gauche, la population (de 4 individus pour l'exemple), au milieu le partitionnement classique, a droite le partitionnement kmlShape. Et ca, a ma connaissance (également à la connaissance des reviewer), il n'y a que kmlShape qui sait faire.
--
Christophe
https://rplusplus.com


Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité