problème d'interprétation pour un très petit jeu de données

Postez ici vos questions, réponses, commentaires ou suggestions - Les sujets seront ultérieurement répartis dans les archives par les modérateurs

Modérateur : Groupe des modérateurs

Baptiste LAPORTE
Messages : 17
Enregistré le : 11 Avr 2008, 09:52

problème d'interprétation pour un très petit jeu de données

Messagepar Baptiste LAPORTE » 18 Aoû 2008, 08:10

Bonjour,
pendant mon stage, je suis amené à trité des jeux de données issues de protéomiques.
J'explique le jeu de données:
il y a trois groupes : infecté par maladie A, infecté par maladie B et groupe contrôle.
Pour chaque groupe, il y a entre deux et quatre réplicats.
Il y a environ 3000 spots par réplicats
Le jeu de donnée se présente alors sous la forme d'intensité normalisée de spots protéiques.
On suppose chaque spot indépendant entre eux, et les réplicats de chaque spots sont sensé suivre une loi normale(...)

Le but du jeu est alors de trouver quels sont les spots qui varient d'un groupe à l'autre.
Il y a deux approches possibles:
-statistique inférentielle par les tests de moyenne (t-test, test de Wicoxon, test de permutations)
-analyse de données : clustering, discrimination

Le problème majeur étant le faible nombre d'individus (si on considère les réplicats des différents groupes comme les individus et les spots comme les variables), une question se pose alors : y a-t'il un moyen d'augmenter le nombre d'individus? (les techniques genre bootstrap, jackknife ne serve en théorie qu'à améliorer la robustesse des estimateurs, mais peut-on s'en servir pour augmenter le nombre d'individus en concanténant les k matrices obtenues?)
Pour pouvoir construire des arbres de décision avec la fonction tree(), outre le faible nombre de données, les données manquantes posent un problème : peut-on les substituer par une donné arbitraire (ex la moyenne) même si cela change le jeu de données (je n'y crois pas trop car cela change les données originales)? Existe t'il une option permettant de faire autre chose que ignorer les NA ?

Enfin peut-on appliquer une régression? Cela ne me semble pas une bonne idée : une régression spot par spot et groupe par groupe n'aurait pas d'intérêt vu le faible nombre de réplicats par spot, une régression de tous les spots groupe par groupe ne semble pas non plus une bonne idée, vue le grand nombre de variables explicatives( mais je n'ai essayé la régression que sur les moyennes des intensités des spots), et le lien non linéaire entre les spots. De plus en me servant de

Code : Tout sélectionner

lm(groupe~spot1*spot2*...*spot3000)
il y a un problème de mémoire.

Voici un exemple de la forme des jeux de données traités :

Code : Tout sélectionner

                         
spot  groupe  intensité1  intensité2  intensité3  intensité4
1         A         1.2        0.52      0.78        0.1
2         A        -1.52      -0.52      0.13       -1.1
3         A         1.75       NA       -0.58        0.33
1         B        -1.28      -0.8        NA         0.01
2         B        -1.92      -0.99     -1.23       -1.21
3         B         1.88       0.52     -0.28        0.97
1         C         2          0.68      0.78        0.1
2         C        -1.92       NA       -1.73         NA
3         C         1.99       1.1       0.5         0.73
     ....



Je récapitule donc les questions qu'entraîne mon jeu de données:

-peut-on augmenter le nombre d'invidus par des méthodes valables (qui améliore la qualité des estimateurs de la vrai population)
-comment peut-on traiter les données manquantes pour les passer ensuite à la fonction de R tree() ou carrément les traiter dans cette fonction
-pour pouvoir réaliser une régression avec lm() dans le cas où les spots sont les varibles explicatives des groupes, il est impossible au niveau des calculs de sélectionner le meilleur modèle linéaire pour cause du nombre de calcul. Y at-il une solution faible en calcul pour pouvoir trouver les variable explicative de la régression (sans essayer toutes les combinaisons de modèles possibles et de voir trouver le meilleur selon un critère)?

Je sais que ce n'est pas des questions qui ont un lien direct avec R, mais dans le cas de très petits jeux de données même les analyses les plus simples donnent des résultats peu fiable. Je me demande comment améliorer la fiabilité de mes résultats, dans les test de comparaison de moyenne mais aussi dans le cas de classification.

En espérant que vous pourrez répondre à ces questions, je vous remercie d'avance.
Et je vous remercie aussi tout ceux qui participe à ce forum qui m'a déjà énormément servi.

Bien cordialement,
Baptiste Laporte

Retourner vers « Questions en cours »

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 1 invité