Clustering
DownloadTélécharger
Actions
Vote :
ScreenshotAperçu
Informations
Catégorie :Category: nCreator TI-Nspire
Auteur Author: yayah
Type : Classeur 3.0.1
Page(s) : 1
Taille Size: 3.14 Ko KB
Mis en ligne Uploaded: 21/10/2024 - 05:36:41
Uploadeur Uploader: yayah (Profil)
Téléchargements Downloads: 1
Visibilité Visibility: Archive publique
Shortlink : http://ti-pla.net/a4264887
Type : Classeur 3.0.1
Page(s) : 1
Taille Size: 3.14 Ko KB
Mis en ligne Uploaded: 21/10/2024 - 05:36:41
Uploadeur Uploader: yayah (Profil)
Téléchargements Downloads: 1
Visibilité Visibility: Archive publique
Shortlink : http://ti-pla.net/a4264887
Description
Fichier Nspire généré sur TI-Planet.org.
Compatible OS 3.0 et ultérieurs.
<<
Apprentissage non supervisé " Lapprentissage non supervisé vise à caractériser la distribution des données, et les relations (distances) entre les enregistrements. " Il ny a pas de connaissances a priori, pas densemble dentraînement. " On va explorer aujourdhui le type le plus populaire dapprentissage non supervisé : classification automatique - clustering Classification automatique " Étant donné un ensemble dobjets, la classification automatique a pour but de trouver des sous-ensembles (clusters) dobjets homogènes. Ingrédients " Une collection X = {X1, . . . , Xn} de n enregistrements de dimension d à classifier. " Une matrice de dissimilarité D = (dij) entre les enregistrements de X est calculée, tel que dij pour i, j = 1, . . . , n satisfait : " dij = dji e 0 ; " dii = 0. " Ces valeurs nont pas besoin de satisfaire les inégalités triangulaires, cest-à-dire, dêtre des distances ! dij + djk dik Distances euclidiennes " La métrique de distance euclidienne traditionnelle pèse toutes les dimensions de la même manière : On peut utiliser des coefficients pour donner des poids différents à chaque dimension. " Noubliez pas de normaliser pour rendre les dimensions comparables. Jaccard distance Jaccard index J(Xi , Xj) = |Xi ) Xj | |Xi * Xj | [0, 1] Jaccard distance djacc (Xi , Xj) = 1 J(Xi , Xj) Dans ce cas, lunion est le nombre de positions où soit Xi soit Xj est égal à 1, et lintersection est le nombre de positions où les deux sont égaux à 1. Le type des données influence directement le choix de la métrique de distance ! Critères de clustering " Un critère de clustering exprime lhomogénéité et/ou la séparation des clusters trouvées. " Lhomogénéité dun cluster Cl est souvent mesurée par les : Etoile diametre clique " La séparation de Cl peut être exprimée par les : " Deux familles de critères : " maximisation de mesures de séparation " minimisation de mesures dhomogénéité Types de clustering " Les types les plus couramment utilisés sont la partition et la hiérarchie de partitions : (i) Partition Pk = {C1, C2, . . . , Ck } de X en k clusters : (i a) Ci 6= i = 1, 2, . . . , k ; (i b) Ci ) Cj = i, j = 1, 2, . . . , k et i 6= j ; (i c) S k j=1 Cj = O ; (ii) Hiérarchie : ensemble imbriqué de partitions de X Partition Le nombre de Stirling de deuxième ordre est une formule mathématique qui aide à déterminer combien de façons il est possible de diviser un ensemble d'objets en plusieurs sous-ensembles ou clusters. En clustering, cela peut donner un aperçu des possibles divisions d'un jeu de données en groupes significatifs. La complexité dun problème de classification automatiquedépend du critère utilisé : " maximiser le split peut être résolu en temps polynomial " minimiser le diamètre est NP-difficile" Malédiction de la dimensionnalité :enregistrements ayant une grandequantité de attributs ont tendanceà être également dissimilaires entreeux Made with nCreator - tiplanet.org
>>
Compatible OS 3.0 et ultérieurs.
<<
Apprentissage non supervisé " Lapprentissage non supervisé vise à caractériser la distribution des données, et les relations (distances) entre les enregistrements. " Il ny a pas de connaissances a priori, pas densemble dentraînement. " On va explorer aujourdhui le type le plus populaire dapprentissage non supervisé : classification automatique - clustering Classification automatique " Étant donné un ensemble dobjets, la classification automatique a pour but de trouver des sous-ensembles (clusters) dobjets homogènes. Ingrédients " Une collection X = {X1, . . . , Xn} de n enregistrements de dimension d à classifier. " Une matrice de dissimilarité D = (dij) entre les enregistrements de X est calculée, tel que dij pour i, j = 1, . . . , n satisfait : " dij = dji e 0 ; " dii = 0. " Ces valeurs nont pas besoin de satisfaire les inégalités triangulaires, cest-à-dire, dêtre des distances ! dij + djk dik Distances euclidiennes " La métrique de distance euclidienne traditionnelle pèse toutes les dimensions de la même manière : On peut utiliser des coefficients pour donner des poids différents à chaque dimension. " Noubliez pas de normaliser pour rendre les dimensions comparables. Jaccard distance Jaccard index J(Xi , Xj) = |Xi ) Xj | |Xi * Xj | [0, 1] Jaccard distance djacc (Xi , Xj) = 1 J(Xi , Xj) Dans ce cas, lunion est le nombre de positions où soit Xi soit Xj est égal à 1, et lintersection est le nombre de positions où les deux sont égaux à 1. Le type des données influence directement le choix de la métrique de distance ! Critères de clustering " Un critère de clustering exprime lhomogénéité et/ou la séparation des clusters trouvées. " Lhomogénéité dun cluster Cl est souvent mesurée par les : Etoile diametre clique " La séparation de Cl peut être exprimée par les : " Deux familles de critères : " maximisation de mesures de séparation " minimisation de mesures dhomogénéité Types de clustering " Les types les plus couramment utilisés sont la partition et la hiérarchie de partitions : (i) Partition Pk = {C1, C2, . . . , Ck } de X en k clusters : (i a) Ci 6= i = 1, 2, . . . , k ; (i b) Ci ) Cj = i, j = 1, 2, . . . , k et i 6= j ; (i c) S k j=1 Cj = O ; (ii) Hiérarchie : ensemble imbriqué de partitions de X Partition Le nombre de Stirling de deuxième ordre est une formule mathématique qui aide à déterminer combien de façons il est possible de diviser un ensemble d'objets en plusieurs sous-ensembles ou clusters. En clustering, cela peut donner un aperçu des possibles divisions d'un jeu de données en groupes significatifs. La complexité dun problème de classification automatiquedépend du critère utilisé : " maximiser le split peut être résolu en temps polynomial " minimiser le diamètre est NP-difficile" Malédiction de la dimensionnalité :enregistrements ayant une grandequantité de attributs ont tendanceà être également dissimilaires entreeux Made with nCreator - tiplanet.org
>>