exercice outliers
DownloadTélécharger
Actions
Vote :
ScreenshotAperçu

Informations
Catégorie :Category: nCreator TI-Nspire
Auteur Author: yayah
Type : Classeur 3.0.1
Page(s) : 1
Taille Size: 2.22 Ko KB
Mis en ligne Uploaded: 19/12/2024 - 17:34:03
Uploadeur Uploader: yayah (Profil)
Téléchargements Downloads: 2
Visibilité Visibility: Archive publique
Shortlink : http://ti-pla.net/a4424711
Type : Classeur 3.0.1
Page(s) : 1
Taille Size: 2.22 Ko KB
Mis en ligne Uploaded: 19/12/2024 - 17:34:03
Uploadeur Uploader: yayah (Profil)
Téléchargements Downloads: 2
Visibilité Visibility: Archive publique
Shortlink : http://ti-pla.net/a4424711
Description
Fichier Nspire généré sur TI-Planet.org.
Compatible OS 3.0 et ultérieurs.
<<
Loutlier score dun enregistrement est donné par sa distance avec son k-plus proche voisin. Des variantesconsidèrent la moyenne des k plus proches voisins. Un enregistrement est considéré outlier si son scoreest supérieur à un seuil, ou si son score est parmi les r-plus grand. Les avantages : Les données avec beaucoup de bruit nont pas de grands outliers scores selon ce modèle, sauf lesvrais outliers. Lanalyse est plus fine que celle utilisant le clustering. La méthode est applicable pour nimporte quel type de donnée si la distance entre deux enregistrements est définie. Linconvénient de cette méthode est sa complexité : déterminer la distance dun enregistrement à sonk-plus proche voisin nécessite un temps O(n), soit O(n2) pour lensemble des données.35. La distance euclidienne est-elle généralement bien adaptée pour détecter des données aberrantes ? Justifiezet donnez un exemple.Page 21 Non, la distance euclidienne nest pas adaptée, car elle ne prend pas en compte la distribution des données. Une meilleure alternative est la distance de Mahalanobis M aha(X, µ, £) = p(X µ)£1(X µ)T .Exemple : la droite de O à A est alignée avec unedirection de variance élevée, et statistiquement, ilest plus probable que les points soient plus éloignésdans cette direction. Dautre part, le segment de Oà B est faiblement peuplé. Statistiquement, il estbeaucoup moins probable que B soit aussi loin de Odans cette direction. Par conséquent, la distance de Oà A devrait être inférieure à celle de O à B.Source : Aggarwal, 2015Cela est aussi vrai pour les méthodes basées sur les distances (tel que le k-plus proche voisin). Il est alorspossible de définir la distance de Mahalanobis pour une paire de points. Exemple : la distance euclidienne entre A et son plusproche voisin est plus grande que celle de B avec sonplus proche voisin. Loutlier score de A est donc plusélevé. Pourtant, B semble plus aberrant que A. Idemlorsque le deuxième plus proche voisin est considéré Made with nCreator - tiplanet.org
>>
Compatible OS 3.0 et ultérieurs.
<<
Loutlier score dun enregistrement est donné par sa distance avec son k-plus proche voisin. Des variantesconsidèrent la moyenne des k plus proches voisins. Un enregistrement est considéré outlier si son scoreest supérieur à un seuil, ou si son score est parmi les r-plus grand. Les avantages : Les données avec beaucoup de bruit nont pas de grands outliers scores selon ce modèle, sauf lesvrais outliers. Lanalyse est plus fine que celle utilisant le clustering. La méthode est applicable pour nimporte quel type de donnée si la distance entre deux enregistrements est définie. Linconvénient de cette méthode est sa complexité : déterminer la distance dun enregistrement à sonk-plus proche voisin nécessite un temps O(n), soit O(n2) pour lensemble des données.35. La distance euclidienne est-elle généralement bien adaptée pour détecter des données aberrantes ? Justifiezet donnez un exemple.Page 21 Non, la distance euclidienne nest pas adaptée, car elle ne prend pas en compte la distribution des données. Une meilleure alternative est la distance de Mahalanobis M aha(X, µ, £) = p(X µ)£1(X µ)T .Exemple : la droite de O à A est alignée avec unedirection de variance élevée, et statistiquement, ilest plus probable que les points soient plus éloignésdans cette direction. Dautre part, le segment de Oà B est faiblement peuplé. Statistiquement, il estbeaucoup moins probable que B soit aussi loin de Odans cette direction. Par conséquent, la distance de Oà A devrait être inférieure à celle de O à B.Source : Aggarwal, 2015Cela est aussi vrai pour les méthodes basées sur les distances (tel que le k-plus proche voisin). Il est alorspossible de définir la distance de Mahalanobis pour une paire de points. Exemple : la distance euclidienne entre A et son plusproche voisin est plus grande que celle de B avec sonplus proche voisin. Loutlier score de A est donc plusélevé. Pourtant, B semble plus aberrant que A. Idemlorsque le deuxième plus proche voisin est considéré Made with nCreator - tiplanet.org
>>