% de similarité

Marine Dupont · Messagepar **Marine Dupont** » 21 Jan 2019, 09:16

Bonjour,

Je débute sur R. J'examine plusieurs séquences et j'aimerai savoir leur pourcentage de similarité. Je m'explique avec un exemple.

ex :
séquence 1 --> AZERTTYUIO
séquence 2 --> AZEFRTYUIO

Dans ces deux séquences il y a 8 lettres à la même position, donc une similarité de 80%.

Merci d'avance pour vos conseils.

Pierre-Yves Berrard · Messagepar **Pierre-Yves Berrard** » 21 Jan 2019, 10:35

Bonjour,

Une solution en éclatant chaque chaîne en vecteur des lettres le composant :

Code : Tout sélectionner

sequence1 <- "AZERTTYUIO"
sequence2 <- "AZEFRTYUIO"

split_seq <-
  strsplit(
    c(sequence1, sequence2),
    split = ""
  )
mean(split_seq[[1]] == split_seq[[2]])

Si vous voulez faire quelque chose de moins basique, vous pouvez chercher du côté des distances entre chaînes de caractères, par exemple la fonction adist (distance de Levenshtein) ou le package stringdist.

Michaël Delorme · Messagepar **Michaël Delorme** » 21 Jan 2019, 10:52

Il s'agit de distance de Hamming dans ce cas particulier (chaînes de même longueur).

Code : Tout sélectionner

library(stringdist)

a <- "AZERTTYUIO"
b <- "AZEFRTYUIO"
dist <- stringdist(a, b, method = "hamming")

(nchar(a) - dist) / nchar(a) * 100

https://fr.wikipedia.org/wiki/Distance_de_Hamming
http://www.markvanderloo.eu/yaRb/2013/02/26/the-stringdist-package/

--

Marine Dupont · Messagepar **Marine Dupont** » 01 Fév 2019, 16:18

Bonjour,

Je suis désolée pour ma réponse tardive.
Merci à vous deux pour vos réponses. Je vais utiliser le package que vous m'avez suggéré.

Bonne journée.
Marine

Groupe des utilisateurs du logiciel R

% de similarité

% de similarité

Re: % de similarité

Re: % de similarité

Re: % de similarité

Qui est en ligne