Amusons-nous avec la loi de Benford !
Posted: 28 Nov 2017, 21:07
Salut !
Il a quelques jours, à la fin d'un cours de modélisation du hasard (cours sur les modèles univariés si je me souviens bien ), le professeur nous a présenté une loi stupéfiante: la loi de Benford.
Cette loi est très simple à comprendre.
Prenez un échantillon de nombres mesurés, de taille suffisante et de grande amplitude (aka la différence entre la valeur min et max de l'échantillon)
Prenez vraiment n'importe quoi. Par exemple, je vous propose le nombre de personnes possédant une calculatrice Texas Instruments par commune sur un département.
A priori, vous pensez que les valeurs sont totalement "aléatoires" et non corrélées.
Et bien, Benford nous dit que si vous prenez le premier chiffre significatif de tous les nombres de votre échantillon, la fréquence d'apparition du chiffre 1 est de 30,1%, celle du chiffre 2 est de 17,6%, et ainsi de suite!
C'est dingue non ?
C'est loi est tellement universelle, qu'elle sert pour détecter de la fraude dans de nombreux domaines faisant intervenir de grandes séries de nombres (domaine scientifique, fiscal..)
Et oui! Il suffit d'effectuer un test statistique (comme le X2, prononcez "Khi2") à 95% (par exemple !) et de vérifier si on s'éloigne ou pas de Benford.
Dans le cas où l'hypothèse H0 serait rejetée (trop loin de Benford), il y a une fraude potentielle!
Mais cette loi fonctionne-t-elle vraiment partout?
Figurez-vous que je me suis aussi posé la question.
Sur mon site, j'ai calculé la fréquence d'apparition du premier chiffre significatif sur plusieurs séries de données (de grande taille, environ 32000 données par échantillon !) provenant de l'INSEE.
Et le résultat est bluffant!
Je vous laisse regarder: https://wistaro.fr/projets/proba/benford/
Maintenant je vous pose une question: que voudriez-vous que je teste comme données? Auriez-vous des séries de nombres à soumettre au redoutable Benford ?
N'hésitez pas à donnez votre avis!
Wistaro
Il a quelques jours, à la fin d'un cours de modélisation du hasard (cours sur les modèles univariés si je me souviens bien ), le professeur nous a présenté une loi stupéfiante: la loi de Benford.
Cette loi est très simple à comprendre.
Prenez un échantillon de nombres mesurés, de taille suffisante et de grande amplitude (aka la différence entre la valeur min et max de l'échantillon)
Prenez vraiment n'importe quoi. Par exemple, je vous propose le nombre de personnes possédant une calculatrice Texas Instruments par commune sur un département.
A priori, vous pensez que les valeurs sont totalement "aléatoires" et non corrélées.
Et bien, Benford nous dit que si vous prenez le premier chiffre significatif de tous les nombres de votre échantillon, la fréquence d'apparition du chiffre 1 est de 30,1%, celle du chiffre 2 est de 17,6%, et ainsi de suite!
C'est dingue non ?
C'est loi est tellement universelle, qu'elle sert pour détecter de la fraude dans de nombreux domaines faisant intervenir de grandes séries de nombres (domaine scientifique, fiscal..)
Et oui! Il suffit d'effectuer un test statistique (comme le X2, prononcez "Khi2") à 95% (par exemple !) et de vérifier si on s'éloigne ou pas de Benford.
Dans le cas où l'hypothèse H0 serait rejetée (trop loin de Benford), il y a une fraude potentielle!
Mais cette loi fonctionne-t-elle vraiment partout?
Figurez-vous que je me suis aussi posé la question.
Sur mon site, j'ai calculé la fréquence d'apparition du premier chiffre significatif sur plusieurs séries de données (de grande taille, environ 32000 données par échantillon !) provenant de l'INSEE.
Et le résultat est bluffant!
Je vous laisse regarder: https://wistaro.fr/projets/proba/benford/
Maintenant je vous pose une question: que voudriez-vous que je teste comme données? Auriez-vous des séries de nombres à soumettre au redoutable Benford ?
N'hésitez pas à donnez votre avis!
Wistaro