Une explication simple du théorème de Bayes. Formules de Bayes

Lors de la dérivation de la formule pleine probabilité on a supposé que les probabilités des hypothèses étaient connues avant l'expérience. La formule de Bayes permet de réévaluer les hypothèses initiales à la lumière d'informations nouvelles qu'un événement passé. Par conséquent, la formule de Bayes est appelée formule de raffinement d'hypothèse.

Théorème (formule de Bayes). Si l'événement ne peut se produire qu'avec l'une des hypothèses
, qui forment groupe completévénements, puis la probabilité des hypothèses, à condition que l'événement s'est produit, est calculé par la formule

,
.

Preuve.

La formule de Bayes ou l'approche bayésienne de l'évaluation des hypothèses joue rôle important dans l'économie, car permet de corriger des décisions managériales, des estimations de paramètres inconnus de la distribution des caractéristiques étudiées en analyse statistique, etc.

Exemple. Les lampes électriques sont fabriquées dans deux usines. La première usine produit 60% du nombre total de lampes électriques, la seconde - 40%. Les produits de la première usine contiennent 70% de lampes standard, la seconde - 80%. Le magasin reçoit des produits des deux usines. L'ampoule achetée dans le magasin s'est avérée être standard. Trouvez la probabilité que la lampe ait été fabriquée dans la première usine.

Écrivons la condition du problème en introduisant la notation appropriée.

Donné: un événement c'est que la lampe est standard.

Hypothèse
est que la lampe est fabriquée à la première usine

Hypothèse
c'est que la lampe est fabriquée dans la deuxième usine

Trouver
.

La solution.

5. Tests indépendants répétés. Formule de Bernoulli

Considérez le circuit tests indépendants ou Schéma de Bernoulli, qui a une valeur scientifique importante et diverses applications pratiques.

Qu'il soit produit tests indépendants, dans chacun desquels un événement peut se produire .

Définition. Essais appeléindépendant , si dans chacun d'eux l'événement

, que l'événement soit apparu ou non
dans d'autres épreuves.

Exemple. 20 lampes à incandescence ont été posées sur le banc d'essai, qui sont testées en charge pendant 1000 heures. La probabilité qu'une lampe réussisse le test est de 0,8 et ne dépend pas de ce qui est arrivé aux autres lampes.

Dans cet exemple, le test se réfère à la vérification de la capacité de la lampe à supporter une charge pendant 1000 heures. Le nombre d'essais est donc
. Dans chaque essai individuel, seuls deux résultats sont possibles :


Définition. Une série de tests indépendants répétés, dans chacun desquels un événement
se produit avec la même probabilité
, quel que soit le numéro du test, s'appelle
Schéma de Bernoulli.

Probabilité de l'événement inverse désigner
, et, comme indiqué ci-dessus,

Théorème. Dans les conditions du schéma de Bernoulli, la probabilité qu'à événement test indépendant apparaîtra
fois, est déterminé par la formule


nombre de tests indépendants effectués ;

nombre d'occurrences de l'événement
;

la probabilité qu'un événement se produise
dans un procès séparé;

probabilité qu'un événement ne se produise pas
dans un procès séparé;

Brève théorie

Si un événement ne se produit que si l'un des événements formant un groupe complet d'événements incompatibles se produit, alors il est égal à la somme des produits des probabilités de chacun des événements et du portefeuille de probabilités conditionnelles correspondant.

Dans ce cas, les événements sont appelés hypothèses et les probabilités sont appelées a priori. Cette formule s'appelle la formule de probabilité totale.

La formule de Bayes est utilisée pour résoudre des problèmes pratiques, lorsqu'un événement qui apparaît avec l'un des événements formant un groupe complet d'événements s'est produit et qu'il est nécessaire de procéder à une réévaluation quantitative des probabilités des hypothèses. Les probabilités a priori (avant l'expérience) sont connues. Il est nécessaire de calculer des probabilités a posteriori (après expérience), c'est-à-dire Essentiellement, vous devez trouver les probabilités conditionnelles. La formule de Bayes ressemble à ceci :

La page suivante traite du problème sur .

Exemple de solution de problème

Condition de la tâche 1

Dans l'usine, les machines 1, 2 et 3 produisent respectivement 20 %, 35 % et 45 % de toutes les pièces. Dans leurs produits, le défaut est respectivement de 6%, 4%, 2%. Quelle est la probabilité qu'un article choisi au hasard soit défectueux ? Quelle est la probabilité qu'il ait été produit : a) par la machine 1 ; b) appareil 2 ; c) machine 3 ?

Solution du problème 1

Désigner par l'événement que le produit standard s'est avéré défectueux.

Un événement ne peut se produire que si l'un des trois événements suivants se produit :

Le produit est fabriqué sur la machine 1 ;

Le produit est fabriqué sur la machine 2 ;

Le produit est fabriqué sur la machine 3 ;

Écrivons les probabilités conditionnelles :

Formule de probabilité totale

Si un événement ne peut se produire que lorsque l'un des événements qui forment un groupe complet d'événements incompatibles se produit, alors la probabilité de l'événement est calculée par la formule

En utilisant la formule de probabilité totale, nous trouvons la probabilité d'un événement :

Formule de Bayes

La formule de Bayes vous permet de "réorganiser la cause et l'effet": selon fait connuévénement pour calculer la probabilité qu'il ait été causé par une cause donnée.

Probabilité qu'un article défectueux ait été produit sur la machine 1 :

Probabilité qu'un article défectueux ait été produit sur la machine 2 :

Probabilité qu'un article défectueux ait été produit sur la machine 3 :

Condition de la tâche 2

Le groupe est composé de 1 excellent élève, 5 bons élèves et 14 élèves médiocres. Un excellent élève répond 5 et 4 avec une probabilité égale, un bon élève répond 5, 4 et 3 avec une probabilité égale, et un élève médiocre répond 4, 3 et 2 avec une probabilité égale. Un élève sélectionné au hasard a répondu 4. Quelle est la probabilité qu'un élève médiocre ait été appelé ?

Solution du problème 2

Hypothèses et probabilités conditionnelles

Les hypothèses suivantes sont possibles :

L'excellent étudiant a répondu;

Bonne réponse ;

– élève médiocre répondu;

Soit event -student obtenir 4.

Probabilités conditionnelles :

Réponse:

Moyen coût des solutions travail de contrôle 700 - 1200 roubles (mais pas moins de 300 roubles pour l'ensemble de la commande). Le prix est fortement influencé par l'urgence de la décision (de quelques jours à plusieurs heures). Le coût de l'aide en ligne à l'examen / test - à partir de 1000 roubles. pour la solution de billetterie.

L'application peut être laissée directement dans le chat, après avoir préalablement rejeté l'état des tâches et vous informer des délais pour la résoudre. Le temps de réponse est de plusieurs minutes.

Formule de Bayes

Théorème de Bayes- l'un des principaux théorèmes de la théorie élémentaire des probabilités, qui détermine la probabilité qu'un événement se produise dans des conditions où seules certaines informations partielles sur les événements sont connues sur la base d'observations. Selon la formule de Bayes, vous pouvez recalculer plus précisément la probabilité, en tenant compte comme précédemment informations connues, ainsi que de nouvelles observations.

"Signification physique" et terminologie

La formule de Bayes vous permet de "réorganiser la cause et l'effet": étant donné le fait connu d'un événement, calculez la probabilité qu'il ait été causé par une cause donnée.

Les événements reflétant l'action des "causes" dans ce cas sont généralement appelés hypothèses, parce qu'ils sont censé les événements qui l'ont précédé. La probabilité inconditionnelle de la validité d'une hypothèse est appelée a priori(Quelle est la probabilité de la cause ? en général), et conditionnelle - en tenant compte du fait de l'événement - a postériori(Quelle est la probabilité de la cause ? s'est avéré prendre en compte les données d'événement).

Conséquence

Une conséquence importante de la formule de Bayes est la formule de la probabilité totale d'un événement en fonction de plusieurs hypothèses incohérentes ( et seulement d'eux !).

- la probabilité que l'événement se produise B, en fonction de plusieurs hypothèses UN je si les degrés de fiabilité de ces hypothèses sont connus (par exemple, mesurés expérimentalement) ;

Dérivation de formule

Si un événement ne dépend que de causes UN je, alors si cela s'est produit, cela signifie que certaines des raisons se sont nécessairement produites, c'est-à-dire

Par formule de Bayes

transférer P(B) à droite, on obtient l'expression recherchée.

Méthode de filtrage des spams

Une méthode basée sur le théorème de Bayes a été appliquée avec succès dans le filtrage du spam.

La description

Lors de la formation du filtre, pour chaque mot rencontré dans les lettres, son "poids" est calculé et stocké - la probabilité qu'une lettre avec ce mot soit un spam (dans le cas le plus simple, selon la définition classique de la probabilité : "apparitions dans le spam / apparences de tout »).

Lors de la vérification d'une lettre nouvellement arrivée, la probabilité qu'il s'agisse d'un spam est calculée selon la formule ci-dessus pour un ensemble d'hypothèses. Dans ce cas, les "hypothèses" sont des mots, et pour chaque mot "fiabilité de l'hypothèse" -% de ce mot dans la lettre, et "dépendance de l'événement à l'hypothèse" P(B | UN je) - "poids" précédemment calculé du mot. Autrement dit, le "poids" de la lettre dans ce cas n'est rien d'autre que le "poids" moyen de tous ses mots.

Une lettre est classée comme « spam » ou « non-spam » selon que son « poids » dépasse une certaine barre fixée par l'utilisateur (généralement, ils prennent 60 à 80 %). Une fois qu'une décision sur une lettre est prise, les "pondérations" des mots qu'elle contient sont mises à jour dans la base de données.

Caractéristique

Cette méthode est simple (les algorithmes sont élémentaires), pratique (vous permet de vous passer des "listes noires" et astuces artificielles similaires), efficace (après un entraînement sur un échantillon suffisamment important, elle coupe jusqu'à 95-97% des spams, et en cas d'erreurs, il peut être formé plus avant). En général, tout indique son utilisation généralisée, ce qui se produit dans la pratique - presque tous les filtres anti-spam modernes sont construits sur sa base.

Cependant, la méthode présente également un inconvénient fondamental : elle sur la base de l'hypothèse, Quel certains mots sont plus fréquents dans les spams, tandis que d'autres sont plus fréquents dans lettres ordinaires , et est inefficace si cette hypothèse est fausse. Cependant, comme le montre la pratique, même une personne n'est pas en mesure de déterminer un tel spam "à l'œil nu" - seulement après avoir lu la lettre et compris sa signification.

Un autre inconvénient, non fondamental, associé à la mise en œuvre - la méthode ne fonctionne qu'avec du texte. Connaissant cette limitation, les spammeurs ont commencé à mettre des informations publicitaires dans l'image, alors que le texte de la lettre est absent ou n'a pas de sens. Contre cela, il faut utiliser soit des outils de reconnaissance de texte (une procédure "coûteuse", utilisée uniquement en cas d'absolue nécessité), soit d'anciennes méthodes de filtrage - "listes noires" et expressions régulières (puisque ces lettres ont souvent une forme stéréotypée).

voir également

Remarques

Liens

Littérature

  • Byrd Kiwi. Théorème du révérend Bayes. // Revue Computerra, 24 août 2001
  • Paul Graham. Un plan contre les spams. // Site personnel de Paul Graham.

Fondation Wikimédia. 2010 .

Voyez ce qu'est la "formule de Bayes" dans d'autres dictionnaires :

    Une formule qui ressemble à : où a1, A2, ..., An sont des événements incompatibles, Le schéma général d'application de F. in. ex. : si l'événement B peut se produire en décomp. conditions dans lesquelles n hypothèses A1, A2, ..., An sont faites avec des probabilités P (A1), ... connues avant l'expérience, ... ... Encyclopédie géologique

    Permet de calculer la probabilité d'un événement d'intérêt à travers les probabilités conditionnelles de cet événement, en supposant certaines hypothèses, ainsi que les probabilités de ces hypothèses. Formulation Soit un espace de probabilité donné, et un groupe complet par paires ... ... Wikipedia

    Permet de calculer la probabilité d'un événement d'intérêt à travers les probabilités conditionnelles de cet événement, en supposant certaines hypothèses, ainsi que les probabilités de ces hypothèses. Formulation Soit un espace de probabilité donné, et un groupe complet d'événements, tels que ... ... Wikipedia

    - (ou formule de Bayes) est l'un des principaux théorèmes de la théorie des probabilités, qui permet de déterminer la probabilité qu'un événement (hypothèse) se soit produit en présence uniquement de preuves indirectes (données) qui peuvent être inexactes... Wikipedia

    Le théorème de Bayes est l'un des principaux théorèmes de la théorie élémentaire des probabilités, qui détermine la probabilité qu'un événement se produise dans des conditions où seules certaines informations partielles sur les événements sont connues sur la base d'observations. Selon la formule de Bayes, vous pouvez ... ... Wikipedia

    Bayes, Thomas Thomas Bayes Révérend Thomas Bayes Date de naissance : 1702 (1702) Lieu de naissance ... Wikipedia

    Thomas Bayes Révérend Thomas Bayes Date de naissance : 1702 (1702) Lieu de naissance : Londres ... Wikipedia

    L'inférence bayésienne est l'une des méthodes d'inférence statistique, dans laquelle la formule de Bayes est utilisée pour affiner les estimations probabilistes de la vérité des hypothèses lorsque des preuves arrivent. L'utilisation de la mise à jour bayésienne est particulièrement importante dans ... ... Wikipedia

    Souhaitez-vous améliorer cet article ? : recherchez et fournissez des notes de bas de page pour les références à des sources faisant autorité qui confirment ce qui a été écrit. En mettant des notes de bas de page, faites des indications plus précises sur les sources. Père ... Wikipédia

    Les prisonniers se trahiront-ils, suivant leurs propres intérêts égoïstes, ou resteront-ils silencieux, minimisant ainsi la durée totale ? Le dilemme du prisonnier (Eng. Le dilemme du prisonnier, le nom "dilemme" est moins couramment utilisé ... Wikipedia

Livres

  • Théorie des probabilités et statistiques mathématiques dans les tâches : plus de 360 ​​tâches et exercices, Borzykh D.. Le manuel proposé contient des tâches différents niveaux des difficultés. Cependant, l'accent est mis sur les tâches de complexité moyenne. Ceci est intentionnellement fait pour encourager les étudiants à…

Lors de la dérivation de la formule de probabilité totale, on a supposé que l'événement MAIS, dont la probabilité était à déterminer, pourrait arriver à l'un des événements H 1 , N 2 , ... , H n, formant un groupe complet d'événements incompatibles par paires. Les probabilités de ces événements (hypothèses) étaient connues à l'avance. Supposons qu'une expérience a été réalisée, à la suite de laquelle l'événement MAIS est venu. Cette Informations Complémentaires permet de réévaluer les probabilités des hypothèses Salut , avoir calculé P(H je /A).

ou, en utilisant la formule de probabilité totale, nous obtenons

Cette formule est appelée formule de Bayes ou théorème d'hypothèse. La formule de Bayes vous permet de "réviser" les probabilités des hypothèses après qu'elles deviennent résultat connu l'expérience qui a abouti à l'événement MAIS.

Probabilités Ð(Ý i) sont les probabilités a priori des hypothèses (elles ont été calculées avant l'expérience). Les probabilités P(H je /A) sont les probabilités a posteriori des hypothèses (elles sont calculées après l'expérience). La formule de Bayes permet de calculer les probabilités postérieures à partir de leurs probabilités a priori et des probabilités conditionnelles de l'événement MAIS.

Exemple. On sait que 5% de tous les hommes et 0,25% de toutes les femmes sont daltoniens. Une personne choisie au hasard par le numéro de la carte médicale souffre de daltonisme. Quelle est la probabilité que ce soit un homme ?

La solution. Événement MAIS La personne est daltonienne. L'espace des événements élémentaires pour l'expérience - une personne est sélectionnée par le numéro de la carte médicale - Ω = ( H 1 , N 2 ) se compose de 2 événements :

H 1 - un homme est sélectionné,

H 2 - une femme est sélectionnée.

Ces événements peuvent être choisis comme hypothèses.

Selon la condition du problème (choix aléatoire), les probabilités de ces événements sont les mêmes et égales à P(H 1 ) = 0.5; P(H 2 ) = 0.5.

Dans ce cas, les probabilités conditionnelles qu'une personne souffre de daltonisme sont égales, respectivement :

POÊLE 1 ) = 0.05 = 1/20; POÊLE 2 ) = 0.0025 = 1/400.

Puisqu'il est connu que la personne sélectionnée est daltonienne, c'est-à-dire que l'événement s'est produit, nous utilisons la formule de Bayes pour réévaluer la première hypothèse :

Exemple. Il y a trois boîtes identiques. La première boîte contient 20 boules blanches, la deuxième boîte contient 10 boules blanches et 10 boules noires, et la troisième boîte contient 20 boules noires. Une boule blanche est tirée d'une case choisie au hasard. Calculez la probabilité que la balle soit tirée de la première case.

La solution. Dénoter par MAISévénement - l'apparition d'une boule blanche. Trois hypothèses (hypothèses) peuvent être faites sur le choix de la boîte : H 1 ,H 2 , H 3 - sélection des première, deuxième et troisième cases, respectivement.

Le choix de n'importe laquelle des cases étant également possible, les probabilités des hypothèses sont les mêmes :

P(H 1 )=P(H 2 )=P(H 3 )= 1/3.

Selon la condition du problème, la probabilité de tirer une boule blanche de la première case

Probabilité de tirer une boule blanche de la deuxième case



Probabilité de tirer une boule blanche de la troisième case

Nous trouvons la probabilité souhaitée en utilisant la formule de Bayes :

Répétition des tests. Formule de Bernoulli.

Il y a n essais, dans chacun desquels l'événement A peut ou non se produire, et la probabilité de l'événement A dans chaque essai individuel est constante, c'est-à-dire ne change pas d'expérience en expérience. Nous savons déjà comment trouver la probabilité d'un événement A dans une expérience.

La probabilité d'occurrence d'un certain nombre de fois (m fois) de l'événement A dans n expériences est particulièrement intéressante. de tels problèmes sont facilement résolus si les tests sont indépendants.

Déf. Plusieurs tests sont appelés indépendant par rapport à l'événement A si la probabilité de l'événement A dans chacune d'elles ne dépend pas des résultats d'autres expériences.

La probabilité P n (m) d'occurrence de l'événement A exactement m fois (non-occurrence n-m fois, événement ) dans ces n essais. L'événement A apparaît dans une variété de séquences m fois).

- La formule de Bernoulli.

Les formules suivantes sont évidentes :

P n (m moins k fois en n essais.

P n (m>k) = P n (k+1) + P n (k+2) +…+ P n (n) - probabilité d'occurrence de l'événement A Suite k fois en n essais.

Qui est Bayes ? Et qu'est-ce que cela a à voir avec la gestion? – peut être suivie d'une question assez juste. Pour l'instant, croyez-moi sur parole : c'est très important ! .. et intéressant (selon au moins, tome).

Dans quel paradigme opèrent la plupart des managers : si j'observe quelque chose, quelles conclusions puis-je en tirer ? Qu'enseigne Bayes : qu'est-ce qui doit être en réalité pour que j'observe ce quelque chose ? C'est ainsi que se développent toutes les sciences, et il écrit à ce sujet (je cite de mémoire): une personne qui n'a pas de théorie en tête hésitera d'une idée à l'autre sous l'influence de divers événements (observations). Ce n'est pas pour rien qu'ils disent : il n'y a rien de plus pratique qu'une bonne théorie.

Un exemple tiré de la pratique. Mon subordonné commet une erreur, et mon collègue (le chef d'un autre département) dit qu'il serait nécessaire d'exercer une influence managériale sur l'employé négligent (en d'autres termes, punir / réprimander). Et je sais que cet employé fait 4 à 5 000 opérations du même type par mois, et pendant ce temps, il ne fait pas plus de 10 erreurs. Sentez-vous la différence dans le paradigme? Mon collègue réagit à l'observation, et j'ai une connaissance a priori qu'un employé fait un certain nombre d'erreurs, alors qu'une de plus n'a pas affecté cette connaissance... Maintenant, si à la fin du mois il s'avère qu'il y en a, par exemple, 15 erreurs de ce genre!.. Cela deviendra déjà une raison pour enquêter sur les causes du non-respect des normes.

Convaincu de l'importance de l'approche bayésienne ? Intrigué? J'espère". Et maintenant une mouche dans la pommade. Malheureusement, les idées bayésiennes sont rarement données du premier coup. J'ai été franchement malchanceux, car j'ai pris connaissance de ces idées par le biais de la littérature populaire, après avoir lu de nombreuses questions qui restaient. Lors de la planification d'écrire une note, j'ai rassemblé tout ce que j'avais précédemment décrit selon Bayes, et j'ai également étudié ce qu'ils écrivent sur Internet. Je vous présente ma meilleure estimation sur le sujet. Introduction à la probabilité bayésienne.

Dérivation du théorème de Bayes

Considérons l'expérience suivante : on nomme n'importe quel nombre se trouvant sur le segment et on fixe quand ce nombre est, par exemple, compris entre 0,1 et 0,4 (Fig. 1a). La probabilité de cet événement est égale au rapport de la longueur du segment à la longueur totale du segment, à condition que l'apparition de nombres sur le segment équiprobable. Mathématiquement, cela peut s'écrire p(0,1 <= X <= 0,4) = 0,3, или кратко R(X) = 0,3, où R- probabilité, X est une variable aléatoire dans l'intervalle , X est une variable aléatoire dans l'intervalle . C'est-à-dire que la probabilité de toucher le segment est de 30 %.

Riz. 1. Interprétation graphique des probabilités

Considérons maintenant le carré x (Fig. 1b). Disons que nous devons nommer des paires de nombres ( X, y), dont chacun est supérieur à zéro et inférieur à un. La probabilité que X(premier chiffre) sera dans le segment (zone bleue 1), égal au rapport de la surface de la zone bleue à la surface du carré entier, c'est-à-dire (0,4 - 0,1 ) * (1 - 0) / (1 * 1) \u003d 0, 3, c'est-à-dire les mêmes 30%. La probabilité que y est à l'intérieur du segment (zone verte 2) est égal au rapport de l'aire de la zone verte à l'aire du carré entier p(0,5 <= y <= 0,7) = 0,2, или кратко R(Oui) = 0,2.

Que peut-on apprendre sur les valeurs en même temps X et y. Par exemple, quelle est la probabilité que les deux X et y sont dans les segments donnés correspondants ? Pour ce faire, vous devez calculer le rapport de l'aire du domaine 3 (l'intersection des bandes vertes et bleues) à l'aire du carré entier: p(X, Oui) = (0,4 – 0,1) * (0,7 – 0,5) / (1 * 1) = 0,06.

Supposons maintenant que nous voulions savoir quelle est la probabilité que y est dans l'intervalle si X est déjà dans la gamme. Autrement dit, en fait, nous avons un filtre et lorsque nous appelons des paires ( X, y), puis nous éliminons immédiatement les paires qui ne satisfont pas la condition pour trouver X dans un intervalle donné, puis à partir des paires filtrées on compte celles pour lesquelles y satisfait notre condition et considérons la probabilité comme le rapport du nombre de paires pour lesquelles y se trouve dans le segment ci-dessus au nombre total de paires filtrées (c'est-à-dire pour lesquelles X se trouve dans le segment). On peut écrire cette probabilité comme p(Oui|X à X touché dans la gamme." Évidemment, cette probabilité est égale au rapport de l'aire de la zone 3 à l'aire de la zone bleue 1. L'aire de la zone 3 est (0,4 - 0,1) * (0,7 - 0,5) = 0,06, et la zone de la zone bleue 1 ( 0,4 - 0,1) * (1 - 0) = 0,3, alors leur rapport est de 0,06 / 0,3 = 0,2. Autrement dit, la probabilité de trouver y sur le segment, à condition que X appartient au segment p(Oui|X) = 0,2.

Dans le paragraphe précédent, nous avons en fait formulé l'identité : p(Oui|X) = p(X, Oui) /p( X). Il se lit comme suit : "probabilité de toucher à dans la gamme, à condition que X hit dans la plage est égal au rapport de la probabilité de hit simultané Xà portée et à dans la plage, à la probabilité de toucher X dans la gamme."

Par analogie, considérons la probabilité p(X|Oui). Nous appelons les couples X, y) et filtrer celles pour lesquelles y est compris entre 0,5 et 0,7, alors la probabilité que X est dans le segment à condition que y appartient au segment est égal au rapport de la surface de la zone 3 à la surface de la zone verte 2 : p(X|Oui) = p(X, Oui) / p(Oui).

A noter que les probabilités p(X, Oui) et p(Oui, X) sont égaux, et les deux sont égaux au rapport de l'aire de la zone 3 à l'aire du carré entier, mais les probabilités p(Oui|X) et p(X|Oui) inégal; tandis que la probabilité p(Oui|X) est égal au rapport de la surface de la zone 3 à la zone 1, et p(X|Oui) – domaine 3 vers domaine 2. Notez également que p(X, Oui) est souvent noté p(X&Oui).

Nous avons donc deux définitions : p(Oui|X) = p(X, Oui) /p( X) et p(X|Oui) = p(X, Oui) / p(Oui)

Réécrivons ces égalités sous la forme : p(X, Oui) = p(Oui|X)*p( X) et p(X, Oui) = p(X|Oui) * p(Oui)

Puisque les côtés gauches sont égaux, les côtés droits le sont aussi : p(Oui|X)*p( X) = p(X|Oui) * p(Oui)

Ou nous pouvons réécrire la dernière égalité comme suit :

C'est le théorème de Bayes !

Est-il possible que des transformations aussi simples (presque tautologiques) donnent lieu à un grand théorème ! ? Ne vous précipitez pas sur les conclusions. Parlons encore de ce que nous avons. Il y avait une probabilité initiale (a priori) R(X) que la variable aléatoire X uniformément répartie sur le segment se situe dans la fourchette X. Un événement s'est produit Oui, à la suite de quoi nous avons obtenu la probabilité a posteriori de la même variable aléatoire X: R(X|Y), et cette probabilité diffère de R(X) par le coefficient . Événement Oui appelé preuve, plus ou moins confirmant ou infirmant X. Ce coefficient est parfois appelé force de preuve. Plus la preuve est puissante, plus le fait de l'observation Y modifie la probabilité a priori, plus la probabilité a posteriori diffère de la probabilité a priori. Si la preuve est faible, le postérieur est presque égal au précédent.

Formule de Bayes pour les variables aléatoires discrètes

Dans la section précédente, nous avons dérivé la formule de Bayes pour les variables aléatoires continues x et y définies sur l'intervalle . Prenons un exemple avec des variables aléatoires discrètes, chacune prenant deux valeurs possibles. Au cours d'examens médicaux de routine, il a été constaté qu'à l'âge de quarante ans, 1 % des femmes souffrent d'un cancer du sein. 80 % des femmes atteintes de cancer obtiennent des résultats positifs à la mammographie. 9,6 % des femmes en bonne santé obtiennent également des résultats positifs à la mammographie. Lors de l'examen, une femme de ce groupe d'âge a reçu un résultat de mammographie positif. Quelle est la probabilité qu'elle ait réellement un cancer du sein ?

Le déroulement des raisonnements/calculs est le suivant. Sur les 1 % de patients atteints de cancer, la mammographie donnera 80 % de résultats positifs = 1 % * 80 % = 0,8 %. Sur 99 % des femmes en bonne santé, la mammographie donnera 9,6 % de résultats positifs = 99 % * 9,6 % = 9,504 %. Au total, sur 10,304 % (9,504 % + 0,8 %) avec des résultats de mammographie positifs, seuls 0,8 % sont malades et les 9,504 % restants sont en bonne santé. Ainsi, la probabilité qu'une femme avec une mammographie positive ait un cancer est de 0,8 % / 10,304 % = 7,764 %. Avez-vous pensé à 80% ou plus?

Dans notre exemple, la formule de Bayes prend la forme suivante :

Parlons encore une fois de la signification "physique" de cette formule. X est une variable aléatoire (diagnostic), qui prend les valeurs suivantes : X 1- malade et X2- en bonne santé; Oui– variable aléatoire (résultat de mesure - mammographie), qui prend les valeurs : Oui 1- un résultat positif et Y2- résultat négatif ; p(X 1)- la probabilité de maladie avant mammographie (probabilité a priori), égale à 1 % ; R(Oui 1 |X 1 ) - la probabilité d'un résultat positif si le patient est malade (probabilité conditionnelle, puisqu'elle doit être précisée dans les conditions du problème), égale à 80 % ; R(Oui 1 |X 2 ) – la probabilité d'un résultat positif si le patient est en bonne santé (probabilité également conditionnelle), égale à 9,6 % ; p(X 2)- la probabilité que la patiente soit en bonne santé avant la mammographie (probabilité a priori), égale à 99 % ; p(X 1|Oui 1 ) – la probabilité que la patiente soit malade, compte tenu d'un résultat positif à la mammographie (probabilité postérieure).

On peut voir que la probabilité a posteriori (ce que l'on recherche) est proportionnelle à la probabilité a priori (initiale) avec un coefficient un peu plus complexe . Je soulignerai à nouveau. À mon avis, c'est un aspect fondamental de l'approche bayésienne. Dimension ( Oui) a ajouté un certain nombre d'informations à celles initialement disponibles (a priori), ce qui a précisé nos connaissances sur l'objet.

Exemples

Pour consolider la matière abordée, essayez de résoudre plusieurs problèmes.

Exemple 1 Il y a 3 urnes; dans le premier 3 boules blanches et 1 noire ; dans le second - 2 boules blanches et 3 noires; dans le troisième - 3 boules blanches. Quelqu'un s'approche au hasard d'une des urnes et en tire 1 boule. Cette boule est blanche. Trouvez les probabilités postérieures que la balle soit tirée de la 1ère, 2ème, 3ème urne.

La solution. Nous avons trois hypothèses : H 1 = (première urne sélectionnée), H 2 = (deuxième urne sélectionnée), H 3 = (troisième urne sélectionnée). L'urne étant choisie au hasard, les probabilités a priori des hypothèses sont : Р(Н 1) = Р(Н 2) = Р(Н 3) = 1/3.

À la suite de l'expérience, l'événement A = est apparu (une boule blanche a été retirée de l'urne sélectionnée). Probabilités conditionnelles de l'événement A sous les hypothèses H 1, H 2, H 3 : P(A|H 1) = 3/4, P(A|H 2) = 2/5, P(A|H 3) = 1. Par exemple, la première égalité se lit comme ceci : "la probabilité de tirer une boule blanche si la première urne est choisie est de 3/4 (puisqu'il y a 4 boules dans la première urne, et 3 d'entre elles sont blanches)".

En appliquant la formule de Bayes, on trouve les probabilités a posteriori des hypothèses :

Ainsi, à la lumière des informations sur la survenance de l'événement A, les probabilités des hypothèses ont changé : la plus probable est devenue l'hypothèse H 3 , la moins probable - l'hypothèse H 2 .

Exemple 2 Deux tireurs tirent indépendamment sur la même cible, chacun tirant un coup. La probabilité d'atteindre la cible pour le premier tireur est de 0,8, pour le second - 0,4. Après le tir, un trou a été trouvé dans la cible. Trouvez la probabilité que ce trou appartienne au premier tireur (nous rejetons le résultat (les deux trous coïncident) comme étant négligeable).

La solution. Avant l'expérience, les hypothèses suivantes sont possibles : H 1 = (ni la première ni la deuxième flèche ne toucheront), H 2 = (les deux flèches toucheront), H 3 - (le premier tireur touchera, et le second ne touchera pas ), H 4 = (le premier tireur ne touchera pas, et le second touchera). Probabilités a priori des hypothèses :

P (H 1) \u003d 0,2 * 0,6 \u003d 0,12; P (H 2) \u003d 0,8 * 0,4 \u003d 0,32; P (H 3) \u003d 0,8 * 0,6 \u003d 0,48; P (H 4) \u003d 0,2 * 0,4 \u003d 0,08.

Les probabilités conditionnelles de l'événement observé A = (il y a un trou dans la cible) sous ces hypothèses sont : P(A|H 1) = P(A|H 2) = 0 ; P(A|H 3) = P(A|H 4) = 1

Après expérience, les hypothèses H 1 et H 2 deviennent impossibles, et les probabilités a posteriori des hypothèses H 3 et H 4 selon la formule de Bayes seront :

Bayes contre le spam

La formule de Bayes a trouvé une large application dans le développement de filtres anti-spam. Supposons que vous souhaitiez former un ordinateur pour déterminer quels e-mails sont des spams. Nous partirons du dictionnaire et des combinaisons de mots en utilisant des estimations bayésiennes. Créons d'abord un espace d'hypothèses. Faisons 2 hypothèses concernant toute lettre : H A est un spam, H B n'est pas un spam, mais une lettre normale et nécessaire.

Tout d'abord, "entraînons" notre futur système anti-spam. Prenons toutes les lettres que nous avons et divisons-les en deux "tas" de 10 lettres. Nous mettons des lettres de spam dans l'un et l'appelons le tas H A, dans l'autre nous mettons la correspondance nécessaire et l'appelons le tas H B. Voyons maintenant : quels mots et expressions se trouvent dans les spams et les e-mails nécessaires et à quelle fréquence ? Ces mots et phrases seront appelés preuves et désignés par E 1 , E 2 ... Il s'avère que les mots couramment utilisés (par exemple, les mots "comme", "votre") dans les tas H A et H B se produisent avec environ le même fréquence. Ainsi, la présence de ces mots dans une lettre ne nous dit rien sur le tas auquel elle appartient (preuve faible). Attribuons à ces mots une valeur neutre de l'estimation de la probabilité de "spam", disons 0,5.

Laissez l'expression "anglais conversationnel" apparaître en seulement 10 lettres, et plus souvent dans les spams (par exemple, dans 7 spams sur 10) que dans les bonnes (3 sur 10). Donnons à cette expression un score plus élevé de 7/10 pour le spam et un score inférieur pour les e-mails normaux : 3/10. A l'inverse, il s'est avéré que le mot "copain" était plus courant en lettres normales (6 sur 10). Et nous avons donc reçu une courte lettre : « Ami ! Comment est votre anglais parlé ?. Essayons d'évaluer son "spamness". Nous mettrons les estimations générales P(H A), P(H B) d'appartenance à chaque tas en utilisant une formule de Bayes quelque peu simplifiée et nos estimations approximatives :

P(H A) = A/(A+B), A \u003d p a1 * p a2 * ... * casserole, B \u003d p b1 * p b2 * ... * p b n \u003d (1 - p a1) * (1 - p a2) * ... * ( 1 - p an).

Tableau 1. Évaluation bayésienne simplifiée (et incomplète) de l'écriture

Ainsi, notre lettre hypothétique a reçu une évaluation de la probabilité d'appartenance avec un accent dans le sens du "spam". Pouvons-nous décider de jeter la lettre dans l'une des piles? Fixons les seuils de décision :

  • On supposera que la lettre appartient au tas H i si P(H i) ≥ T.
  • La lettre n'appartient pas au tas si P(H i) ≤ L.
  • Si L ≤ P(H i) ≤ T, alors aucune décision ne peut être prise.

Vous pouvez prendre T = 0,95 et L = 0,05. Puisque pour la lettre en question et 0,05< P(H A) < 0,95, и 0,05 < P(H В) < 0,95, то мы не сможем принять решение, куда отнести данное письмо: к спаму (H A) или к нужным письмам (H B). Можно ли улучшить оценку, используя больше информации?

Oui. Calculons le score pour chaque élément de preuve d'une manière différente, tout comme Bayes l'a suggéré. Laisser:

F a est le nombre total de spams ;

F ai est le nombre de lettres avec un certificat je dans une pile de spam ;

F b est le nombre total de lettres nécessaires ;

F bi est le nombre de lettres avec un certificat je dans une pile de lettres nécessaires (pertinentes).

Alors : p ai = F ai /F a , p bi = F bi /F b . P(H A) = A/(A+B), P(H B) = B/(A+B), À = p a1 *p a2 *…*p an , B = p b1 *p b2 *…*p b n

Veuillez noter que les scores des mots de preuve p ai et p bi sont devenus objectifs et peuvent être calculés sans intervention humaine.

Tableau 2. Une estimation bayésienne plus précise (mais incomplète) des caractéristiques disponibles d'une lettre

Nous avons obtenu un résultat assez précis - avec une grande marge de probabilité, la lettre peut être attribuée aux lettres nécessaires, puisque P(H B) = 0,997 > T = 0,95. Pourquoi le résultat a-t-il changé ? Parce que nous avons utilisé plus d'informations - nous avons pris en compte le nombre de lettres dans chacun des tas et, soit dit en passant, déterminé les estimations p ai et p bi beaucoup plus correctement. Ils ont été déterminés de la même manière que Bayes lui-même, en calculant les probabilités conditionnelles. En d'autres termes, p a3 est la probabilité que le mot "buddy" apparaisse dans l'e-mail, étant donné que l'e-mail appartient déjà au tas de spam H A . Le résultat n'a pas tardé à venir - il semble que nous puissions prendre une décision avec plus de certitude.

Bayes contre la fraude d'entreprise

Une application intéressante de l'approche bayésienne a été décrite par MAGNUS8.

Mon projet actuel (SI de détection de fraude dans une entreprise manufacturière) utilise la formule de Bayes pour déterminer la probabilité de fraude (fraude) en présence/absence de plusieurs faits indirectement en faveur de l'hypothèse de possibilité de fraude. L'algorithme est auto-apprenant (avec rétroaction), c'est-à-dire recalcule ses coefficients (probabilités conditionnelles) lors de la confirmation ou de la non-confirmation effective de la fraude lors de la vérification par le service de sécurité économique.

Il vaut probablement la peine de dire que de telles méthodes lors de la conception d'algorithmes nécessitent une culture mathématique assez élevée du développeur, car la moindre erreur dans la dérivation et/ou la mise en œuvre des formules de calcul annulera et discréditera l'ensemble de la méthode. Les méthodes probabilistes en sont particulièrement coupables, car la pensée humaine n'est pas adaptée pour travailler avec des catégories probabilistes et, par conséquent, il n'y a pas de «visibilité» et de compréhension de la «signification physique» des paramètres probabilistes intermédiaires et finaux. Une telle compréhension n'existe que pour les concepts de base de la théorie des probabilités, et il vous suffit ensuite de combiner et de dériver très soigneusement des choses complexes selon les lois de la théorie des probabilités - le bon sens n'aidera plus pour les objets composites. Ceci, en particulier, est associé à des batailles méthodologiques assez sérieuses qui se déroulent sur les pages de livres modernes sur la philosophie des probabilités, ainsi qu'à un grand nombre de sophismes, paradoxes et curiosités sur ce sujet.

Une autre nuance à laquelle j'ai dû faire face est que, malheureusement, presque tout ce qui est plus ou moins UTILE EN PRATIQUE sur ce sujet est écrit en anglais. Dans les sources en langue russe, il n'y a fondamentalement qu'une théorie bien connue avec des exemples de démonstration uniquement pour les cas les plus primitifs.

Je suis entièrement d'accord avec le dernier commentaire. Par exemple, Google, en essayant de trouver quelque chose comme le livre "Bayesian Probability", n'a rien donné d'intelligible. Certes, il a dit qu'un livre contenant des statistiques bayésiennes était interdit en Chine. (Le professeur de statistiques Andrew Gelman a rapporté sur un blog de l'Université Columbia que son livre, Data Analysis with Regression and Multilevel/Hierarchical Models, a été interdit de publication en Chine. texte.") Je me demande si une raison similaire a conduit à l'absence de livres sur Bayesian probabilité en Russie?

Conservatisme dans le processus de traitement de l'information humaine

Les probabilités déterminent le degré d'incertitude. La probabilité, à la fois selon Bayes et selon notre intuition, est simplement un nombre compris entre zéro et ce qui représente le degré auquel une personne quelque peu idéalisée croit que l'énoncé est vrai. La raison pour laquelle une personne est quelque peu idéalisée est que la somme de ses probabilités pour deux événements mutuellement exclusifs doit être égale à sa probabilité que l'un ou l'autre de ces événements se produise. La propriété d'additivité a de telles implications que peu de personnes réelles peuvent toutes les égaler.

Le théorème de Bayes est une conséquence triviale de la propriété d'additivité, indéniable et acceptée par tous les probabilistes, bayésiens et autres. Une façon de l'écrire est la suivante. Si P(H A |D) est la probabilité subséquente que l'hypothèse A soit après que la valeur donnée D a été observée, P(H A) est sa probabilité a priori avant que la valeur donnée D ne soit observée, P(D|H A ) est la probabilité qu'une une valeur donnée D sera observée, si H A est vrai, et P(D) est la probabilité inconditionnelle d'une valeur donnée D, alors

(1) P(H A |D) = P(D|H A) * P(H A) / P(D)

P (D) est mieux considéré comme une constante de normalisation, ce qui fait que les probabilités a posteriori s'additionnent à un sur l'ensemble exhaustif d'hypothèses mutuellement exclusives qui sont envisagées. S'il doit être calculé, cela peut être comme ceci:

Mais le plus souvent, P(D) est éliminé plutôt que compté. Une façon pratique de l'éliminer est de transformer le théorème de Bayes sous la forme d'une relation probabilité-cote.

Considérez une autre hypothèse, H B , mutuellement exclusive à H A, et changez d'avis à ce sujet en vous basant sur la même quantité donnée qui a changé d'avis à propos de H A. Le théorème de Bayes dit que

(2) P(H B |D) = P(D|H B) * P(H B) / P(D)

Maintenant, nous divisons l'équation 1 par l'équation 2 ; le résultat sera comme ceci:

où Ω 1 sont les cotes a posteriori en faveur de H A en termes de H B , Ω 0 sont les cotes a priori et L est un nombre familier aux statisticiens en tant que rapport de probabilités. L'équation 3 est la même version pertinente du théorème de Bayes que l'équation 1, et est souvent beaucoup plus utile, en particulier pour les expériences impliquant des hypothèses. Les partisans bayésiens soutiennent que le théorème de Bayes est une règle formellement optimale sur la façon de réviser les opinions à la lumière de nouvelles données.

Nous nous intéressons à comparer le comportement idéal défini par le théorème de Bayes avec le comportement réel des personnes. Pour vous donner une idée de ce que cela signifie, essayons une expérience avec vous comme sujet. Ce sac contient 1000 jetons de poker. J'ai deux de ces sacs, un avec 700 jetons rouges et 300 bleus, et l'autre avec 300 rouges et 700 bleus. J'ai lancé une pièce pour déterminer laquelle utiliser. Ainsi, si nos avis sont les mêmes, votre probabilité actuelle de tirer un sac avec plus de jetons rouges est de 0,5. Maintenant, vous échantillonnez au hasard, en revenant après chaque jeton. En 12 jetons, vous obtenez 8 rouges et 4 bleus. Maintenant, d'après tout ce que vous savez, quelle est la probabilité qu'un sac contienne plus de rouges ? Il est clair qu'il est supérieur à 0,5. Veuillez ne pas continuer à lire tant que vous n'avez pas enregistré votre évaluation.

Si vous ressemblez à un sujet typique, votre score se situe entre 0,7 et 0,8. Si nous faisions le calcul correspondant, cependant, la réponse serait 0,97. En effet, il est très rare qu'une personne à qui l'influence du conservatisme n'a pas été démontrée auparavant propose une estimation aussi élevée, même si elle connaissait le théorème de Bayes.

Si la proportion de jetons rouges dans le sac est R, alors la probabilité d'obtenir r chips rouges et ( n-r) bleu dans néchantillons avec retour - p r (1–p)n–r. Ainsi, dans une expérience typique de sac et de jeton de poker, si HUN signifie que la proportion de jetons rouges est r un et HB signifie que la part est RB, alors le rapport de probabilité :

Lors de l'application de la formule de Bayes, il faut prendre en compte uniquement la probabilité de l'observation réelle, et non les probabilités d'autres observations qu'il aurait pu faire mais ne l'a pas fait. Ce principe a de larges implications pour toutes les applications statistiques et non statistiques du théorème de Bayes ; c'est l'outil technique le plus important de la pensée bayésienne.

Révolution bayésienne

Vos amis et collègues parlent de quelque chose qui s'appelle le « théorème de Bayes » ou la « règle bayésienne » ou quelque chose qui s'appelle la pensée bayésienne. Ils sont vraiment dedans, alors vous allez en ligne et vous trouvez une page sur le théorème de Bayes et... C'est une équation. Et c'est tout... Pourquoi un concept mathématique suscite-t-il un tel enthousiasme dans les esprits ? Quelle sorte de « révolution bayésienne » est en train de se produire parmi les scientifiques, et l'on soutient que même l'approche expérimentale elle-même peut être décrite comme son cas particulier ? Quel est le secret que connaissent les partisans de Bayes ? Quel type de lumière voient-ils ?

La révolution bayésienne dans la science n'a pas eu lieu parce que de plus en plus de scientifiques cognitifs ont soudainement commencé à remarquer que les phénomènes mentaux ont une structure bayésienne ; non pas parce que les scientifiques de tous les domaines ont commencé à utiliser la méthode bayésienne ; mais parce que la science elle-même est un cas particulier du théorème de Bayes ; la preuve expérimentale est une preuve bayésienne. Les révolutionnaires bayésiens soutiennent que lorsque vous faites une expérience et que vous obtenez des preuves qui "soutiennent" ou "réfutent" votre théorie, cette confirmation ou réfutation se produit selon les règles bayésiennes. Par exemple, vous devez prendre en compte non seulement que votre théorie peut expliquer le phénomène, mais aussi qu'il existe d'autres explications possibles qui peuvent également prédire ce phénomène.

Auparavant, la philosophie des sciences la plus populaire était l'ancienne philosophie qui a été déplacée par la révolution bayésienne. L'idée de Karl Popper selon laquelle les théories peuvent être complètement falsifiées, mais jamais complètement confirmées, est un autre cas particulier des règles bayésiennes ; si p(X|A) ≈ 1 - si la théorie fait des prédictions correctes, alors l'observation de ~X fausse très fortement A. Par contre, si p(X|A) ≈ 1 et qu'on observe X, cela ne signifie pas soutenir la théorie beaucoup; une autre condition B est possible, telle que p(X|B) ≈ 1, et sous laquelle l'observation de X ne prouve pas A mais la preuve de B. Pour observer X confirmant définitivement A, nous ne devrions pas savoir que p( X|A) ≈ 1 et que p(X|~A) ≈ 0, ce que nous ne pouvons pas savoir car nous ne pouvons pas considérer toutes les explications alternatives possibles. Par exemple, lorsque la théorie de la relativité générale d'Einstein a dépassé la théorie hautement vérifiable de la gravité de Newton, elle a fait de toutes les prédictions de la théorie de Newton un cas particulier d'Einstein.

De même, l'affirmation de Popper selon laquelle une idée doit être falsifiable peut être interprétée comme une manifestation de la règle bayésienne sur la conservation de la probabilité ; si le résultat X est une preuve positive de la théorie, alors le résultat ~X doit falsifier la théorie dans une certaine mesure. Si vous essayez d'interpréter à la fois X et ~X comme "supportant" une théorie, les règles bayésiennes disent que c'est impossible ! Pour augmenter la vraisemblance d'une théorie, vous devez la soumettre à des tests qui peuvent potentiellement réduire sa vraisemblance ; ce n'est pas seulement une règle pour détecter les charlatans en science, mais une conséquence du théorème de probabilité bayésien. D'un autre côté, l'idée de Popper selon laquelle seule la falsification est nécessaire et aucune confirmation n'est nécessaire est fausse. Le théorème de Bayes montre que la falsification est une preuve très solide par rapport à la confirmation, mais la falsification est toujours de nature probabiliste; elle n'est pas régie par des règles fondamentalement différentes et ne diffère pas en cela de la confirmation, comme le soutient Popper.

Ainsi, nous constatons que de nombreux phénomènes dans les sciences cognitives, plus les méthodes statistiques utilisées par les scientifiques, plus la méthode scientifique elle-même, sont tous des cas particuliers du théorème de Bayes. C'est de cela qu'il s'agit dans la révolution bayésienne.

Bienvenue dans la conspiration bayésienne !

Littérature sur les probabilités bayésiennes

2. Le lauréat du prix Nobel d'économie Kahneman (et al.) décrit de nombreuses applications différentes de Bayes dans un livre merveilleux. Rien que dans mon résumé de ce très gros livre, j'ai compté 27 références au nom d'un ministre presbytérien. Formules minimales. (.. J'ai vraiment aimé. Certes, c'est compliqué, beaucoup de mathématiques (et où sans), mais des chapitres individuels (par exemple, chapitre 4. Information), clairement sur le sujet. Je conseille à tout le monde. Même si les mathématiques sont difficile pour vous, lisez la ligne, sautez les calculs et pêchez les grains utiles ...

14. (supplément du 15 janvier 2017), un chapitre du livre de Tony Crilly. 50 idées à connaître. Mathématiques.

Le physicien Richard Feynman, lauréat du prix Nobel, parlant d'un philosophe avec une vanité particulièrement grande, a dit un jour : « Ce n'est pas la philosophie en tant que science qui m'irrite du tout, mais la pompe qui a été créée autour d'elle. Si seulement les philosophes pouvaient rire d'eux-mêmes ! Si seulement ils pouvaient dire: "Je dis que c'est comme ça, mais Von Leipzig pensait que c'était différent, et il en sait aussi quelque chose." Si seulement ils se souvenaient de préciser que ce n'était que leur .