Yksinkertainen selitys Bayesin lauseelle. Bayesin kaavat

Kokonaistodennäköisyyden kaavaa johdettaessa oletettiin, että hypoteesien todennäköisyydet olivat tiedossa ennen koetta. Bayesin kaava mahdollistaa alkuperäisten hypoteesien uudelleenarvioinnin uuden tiedon valossa, nimittäin sen, että tapahtuma tapahtui. Siksi Bayesin kaavaa kutsutaan hypoteesin tarkennuskaavaksi.

Lause (Bayesin kaava). Jos tapahtuma voi tapahtua vain yhdellä hypoteeseista
, jotka muodostavat täydellisen ryhmän tapahtumia, sitten hypoteesien todennäköisyys edellyttäen, että tapahtuma tapahtui, laskettuna kaavalla

,
.

Todiste.

Bayesin kaava eli Bayesin lähestymistapa hypoteesien arviointiin on tärkeä rooli taloustieteessä, koska mahdollistaa johtamispäätösten korjaamisen, tilastollisessa analyysissä tutkittavien ominaisuuksien tuntemattomien jakautumisparametrien arvioiden jne.

Esimerkki. Sähkölamppuja valmistetaan kahdessa tehtaassa. Ensimmäinen tehdas tuottaa 60% sähkölamppujen kokonaismäärästä, toinen - 40%. Ensimmäisen tehtaan tuotteet sisältävät 70% vakiolampuista, toisen - 80%. Myymälä vastaanottaa tuotteita molemmilta tehtailta. Kaupasta ostettu hehkulamppu osoittautui vakioksi. Laske todennäköisyys, että lamppu on valmistettu ensimmäisessä tehtaassa.

Kirjataan ylös tehtävän tila ja esitellään sopiva merkintä.

Annettu: tapahtuma että lamppu on vakio.

Hypoteesi
että lamppu valmistettiin ensimmäisessä tehtaassa

Hypoteesi
että lamppu on valmistettu toisessa tehtaassa

Löytää
.

Ratkaisu.

5. Toistetut riippumattomat testit. Bernoullin kaava

Katsotaanpa kaaviota riippumattomat testit tai Bernoullin kaava, jolla on tärkeä tieteellinen merkitys ja monenlaisia ​​käytännön sovelluksia.

Anna sen tuottaa riippumattomia kokeita, joissa jokaisessa voi tapahtua jokin tapahtuma .

Määritelmä. Testit kutsutaanriippumaton , jos jokaisessa niistä on tapahtuma

, riippumatta siitä, ilmestyikö tapahtuma vai ei
muissa testeissä.

Esimerkki. Testipenkille asetettiin 20 hehkulamppua, joita testattiin kuormitettuna 1000 tuntia. Todennäköisyys, että lamppu läpäisee testin, on 0,8 ja se on riippumaton siitä, mitä muille lampuille tapahtui.

Tässä esimerkissä testaus tarkoittaa lampun kykyä kestää kuormitusta 1000 tunnin ajan. Siksi testien määrä on yhtä suuri
. Jokaisessa yksittäisessä kokeessa vain kaksi tulosta on mahdollista:


Määritelmä. Sarja toistuvia riippumattomia kokeita, joista jokaisessa on tapahtuma
tapahtuu samalla todennäköisyydellä
, testinumerosta riippumatta, kutsutaan
Bernoullin kaava.

Päinvastaisen tapahtuman todennäköisyys merkitse
ja kuten edellä on todistettu,

Lause. Bernoullin kaavion olosuhteissa todennäköisyys, että klo riippumaton testaustapahtuma tulee näkyviin
kertaa kaavan mukaan

Jossa
suoritettujen riippumattomien testien määrä;

tapahtuman esiintymisten määrä
;

tapahtuman todennäköisyys
erillisessä kokeessa;

todennäköisyys, että tapahtuma ei toteudu
erillisessä kokeessa;

Lyhyt teoria

Jos tapahtuma tapahtuu vain sillä ehdolla, että sattuu yksi tapahtumista, jotka muodostavat täydellisen ryhmän yhteensopimattomia tapahtumia, niin se on yhtä suuri kuin kunkin tapahtuman todennäköisyyksien tulojen summa vastaavalla ehdollisen todennäköisyyden lompakon avulla.

Tässä tapauksessa tapahtumia kutsutaan hypoteeseiksi ja todennäköisyyksiksi a priori. Tätä kaavaa kutsutaan kokonaistodennäköisyyskaavaksi.

Bayesin kaavaa käytetään käytännön ongelmien ratkaisemiseen, kun tapahtuma, joka esiintyy yhdessä jonkin kokonaisen tapahtumaryhmän muodostavan tapahtuman kanssa, on tapahtunut ja on tarpeen suorittaa hypoteesien todennäköisyyksien kvantitatiivinen uudelleenestimointi. A priori (ennen koetta) todennäköisyydet tunnetaan. On laskettava posteriorit (kokeen jälkeen) todennäköisyydet, ts. pohjimmiltaan sinun on löydettävä ehdolliset todennäköisyydet. Bayesin kaava näyttää tältä:

Seuraavalla sivulla käsitellään ongelmaa .

Esimerkki ongelman ratkaisusta

Tehtävän ehto 1

Tehtaassa koneet 1, 2 ja 3 tuottavat 20 %, 35 % ja 45 % kaikista osista. Heidän tuotteissaan virheitä on vastaavasti 6 %, 4 % ja 2 %. Millä todennäköisyydellä satunnaisesti valittu tuote on viallinen? Millä todennäköisyydellä se on valmistettu: a) koneella 1; b) kone 2; c) kone 3?

Ratkaisu ongelmaan 1

Merkitään tapauksella, että vakiotuote osoittautuu vialliseksi.

Tapahtuma voi tapahtua vain, jos tapahtuu yksi kolmesta tapahtumasta:

Tuote valmistettiin koneella 1;

Tuote valmistetaan koneella 2;

Tuote valmistetaan koneella 3;

Kirjataan ehdolliset todennäköisyydet muistiin:

Kokonaistodennäköisyyskaava

Jos tapahtuma voi tapahtua vain, jos jokin tapahtumista, jotka muodostavat täydellisen yhteensopimattomien tapahtumien ryhmän, tapahtuu, tapahtuman todennäköisyys lasketaan kaavalla

Kokonaistodennäköisyyskaavaa käyttämällä löydämme tapahtuman todennäköisyyden:

Bayesin kaava

Bayesin kaavan avulla voit "järjestää syyn ja seurauksen uudelleen": kun otetaan huomioon tapahtuman tunnettu tosiasia, laske todennäköisyys, että se johtui tietystä syystä.

Todennäköisyys, että viallinen tuote valmistetaan koneessa 1:

Todennäköisyys, että viallinen tuote on valmistettu koneessa 2:

Todennäköisyys, että koneessa 3 on valmistettu viallinen tuote:

Ongelmatila 2

Ryhmään kuuluu 1 erinomainen opiskelija, 5 hyvin suoriutunutta opiskelijaa ja 14 keskinkertaista opiskelijaa. Erinomainen opiskelija vastaa 5 ja 4 yhtä suurella todennäköisyydellä, erinomainen opiskelija vastaa 5, 4 ja 3 samalla todennäköisyydellä ja keskinkertainen opiskelija vastaa 4, 3 ja 2 samalla todennäköisyydellä. Satunnaisesti valittu opiskelija vastasi 4. Millä todennäköisyydellä kutsuttiin keskinkertainen suoritus?

Ratkaisu ongelmaan 2

Hypoteesit ja ehdolliset todennäköisyydet

Seuraavat hypoteesit ovat mahdollisia:

Erinomainen opiskelija vastasi;

Hyvä kaveri vastasi;

- vastasi keskinkertainen opiskelija;

Anna tapahtuman -opiskelija saada 4.

Ehdolliset todennäköisyydet:

Vastaus:

Keskimäärin testin ratkaisemisen hinta on 700 - 1200 ruplaa (mutta vähintään 300 ruplaa koko tilauksesta). Hintaan vaikuttaa suuresti päätöksen kiireellisyys (vuorokaudesta useaan tuntiin). Tentin/testin online-avun hinta on alkaen 1000 ruplaa. lipun ratkaisemiseksi.

Voit jättää pyynnön suoraan chatiin lähettämällä etukäteen tehtäväehdot ja ilmoittamalla tarvitsemasi ratkaisun aikataulun. Vastausaika on muutama minuutti.

Bayesin kaava

Bayesin lause- yksi alkeellisen todennäköisyysteorian pääteoreemoista, joka määrittää tapahtuman todennäköisyyden olosuhteissa, joissa tapahtumista tiedetään havaintojen perusteella vain osittaista tietoa. Bayesin kaavan avulla on mahdollista laskea todennäköisyys uudelleen tarkemmin, kun otetaan huomioon sekä aiemmin tiedossa oleva tieto että uusien havaintojen tiedot.

"Fyysinen merkitys" ja terminologia

Bayesin kaavan avulla voit "järjestää syyn ja seurauksen uudelleen": kun otetaan huomioon tapahtuman tunnettu tosiasia, laske todennäköisyys, että se johtui tietystä syystä.

Tapahtumia, jotka heijastavat "syiden" toimintaa tässä tapauksessa, kutsutaan yleensä hypoteeseja, koska ne ovat väitetty tapahtumiin, jotka johtivat tähän. Hypoteesin ehdoton todennäköisyys on ns a priori(kuinka todennäköinen syy on lainkaan), ja ehdollinen - tapahtuman tosiasia huomioon ottaen - a posteriori(kuinka todennäköinen syy on osoittautui ottavan huomioon tapahtumatiedot).

Seuraus

Tärkeä seuraus Bayesin kaavasta on kaava tapahtuman kokonaistodennäköisyydestä riippuen useita ristiriitaiset hypoteesit ( ja vain heiltä!).

- tapahtuman todennäköisyys B, riippuen useista hypoteeseista A i, jos näiden hypoteesien luotettavuusaste tiedetään (esimerkiksi kokeellisesti mitattuna);

Kaavan johtaminen

Jos tapahtuma riippuu vain syistä A i, jos niin tapahtui, se tarkoittaa, että yksi syistä on täytynyt tapahtua, ts.

Bayesin kaavan mukaan

Siirron kautta P(B) oikealla saadaan haluttu lauseke.

Roskapostin suodatusmenetelmä

Bayesin lauseeseen perustuva menetelmä on löytänyt onnistuneen sovelluksen roskapostin suodatuksessa.

Kuvaus

Suodatinta opetettaessa lasketaan ja tallennetaan jokaiselle kirjaimissa havaittavalle sanalle sen "paino" - todennäköisyys, että tällä sanalla oleva kirjain on roskapostia (yksinkertaisimmassa tapauksessa - klassisen todennäköisyysmääritelmän mukaan: "ilmiöitä roskapostissa / esiintymiset yhteensä”).

Kun tarkistetaan juuri saapunut kirje, sen todennäköisyys, että se on roskapostia, lasketaan käyttämällä yllä olevaa kaavaa useille hypoteeseille. Tässä tapauksessa "hypoteesit" ovat sanoja, ja jokaiselle sanalle "hypoteesin luotettavuus" on tämän sanan % kirjaimessa ja "tapahtuman riippuvuus hypoteesista" P(B | A i) - sanan aiemmin laskettu "paino". Eli kirjaimen "paino" tässä tapauksessa ei ole muuta kuin kaikkien sen sanojen keskimääräinen "paino".

Kirje luokitellaan "roskapostiksi" tai "ei-roskapostiksi" sen perusteella, ylittääkö sen "paino" käyttäjän määrittämän tietyn tason (yleensä 60-80 %). Kun kirjaimesta on tehty päätös, sen sisältämien sanojen ”painot” päivitetään tietokantaan.

Ominaista

Tämä menetelmä on yksinkertainen (algoritmit ovat alkeellisia), kätevä (voit olla ilman "mustia listoja" ja vastaavia keinotekoisia tekniikoita), tehokas (riittävän suuren näytteen harjoittamisen jälkeen se leikkaa jopa 95-97% roskapostista, ja virheiden sattuessa se voidaan kouluttaa uudelleen). Yleisesti ottaen on kaikki viitteitä sen laajasta käytöstä, mitä käytännössä tapahtuu - melkein kaikki nykyaikaiset roskapostisuodattimet on rakennettu sen pohjalle.

Menetelmällä on kuitenkin myös perustavanlaatuinen haittapuoli: se oletuksen perusteella, Mitä jotkut sanat ovat yleisempiä roskapostissa, kun taas toiset ovat yleisempiä tavallisissa sähköpostiviesteissä, ja se on tehoton, jos tämä oletus on virheellinen. Kuten käytäntö osoittaa, edes henkilö ei voi havaita tällaista roskapostia "silmällä" - vain lukemalla kirjeen ja ymmärtämällä sen merkityksen.

Toinen, ei perustavanlaatuinen toteutukseen liittyvä haittapuoli on, että menetelmä toimii vain tekstin kanssa. Tietäen tämän rajoituksen roskapostittajat alkoivat lisätä mainostietoja kuvaan, mutta kirjeen teksti joko puuttui tai oli merkityksetöntä. Tämän torjumiseksi sinun on käytettävä joko tekstintunnistustyökaluja ("kallis" menettely, jota käytetään vain, kun se on ehdottoman välttämätöntä) tai vanhoja suodatusmenetelmiä - "mustia listoja" ja säännöllisiä lausekkeita (koska tällaisilla kirjaimilla on usein stereotyyppinen muoto).

Katso myös

Huomautuksia

Linkit

Kirjallisuus

  • Kiwi lintu. Pastori Bayesin lause. // Computerra-lehti, 24. elokuuta 2001.
  • Paul Graham. Roskapostisuunnitelma (englanniksi). // Paul Grahamin henkilökohtainen verkkosivusto.

Wikimedia Foundation.

2010.

    Katso, mitä "Bayes Formula" on muissa sanakirjoissa: Kaava, jolla on muoto: missä a1, A2,..., An ovat yhteensopimattomia tapahtumia, f.v:n yleinen soveltamiskaavio. esim.: jos tapahtuma B voi tapahtua eri ehtoja, joille tehtiin n hypoteesia A1, A2, ..., An todennäköisyyksillä P(A1), ... ennen koetta tunnetuilla.

    Geologinen tietosanakirja

    Voit laskea kiinnostavan tapahtuman todennäköisyyden tämän tapahtuman ehdollisten todennäköisyyksien avulla tiettyjen hypoteesien olettaen sekä näiden hypoteesien todennäköisyydet. Muotoilu Annetaan todennäköisyysavaruus ja koko ryhmä pareittain... ... Wikipedia

    Voit laskea kiinnostavan tapahtuman todennäköisyyden tämän tapahtuman ehdollisten todennäköisyyksien avulla tiettyjen hypoteesien olettaen sekä näiden hypoteesien todennäköisyydet. Muotoilu Olkoon annettu todennäköisyysavaruus ja täydellinen joukko tapahtumia, kuten... ... Wikipedia

    - (tai Bayesin kaava) yksi todennäköisyysteorian pääteoreemoista, jonka avulla voit määrittää jonkin tapahtuman todennäköisyyden (hypoteesi) vain epäsuorien todisteiden (datan) läsnä ollessa, jotka voivat olla epätarkkoja... Wikipedia

    Bayesin lause on yksi elementaarisen todennäköisyysteorian päälauseista, joka määrittää tapahtuman todennäköisyyden olosuhteissa, joissa tapahtumista tiedetään havaintojen perusteella vain osittaista tietoa. Bayesin kaavalla voit... ... Wikipedia

    Bayes, Thomas Thomas Bayes Pastori Thomas Bayes Syntymäaika: 1702 (1702) Syntymäpaikka ... Wikipedia

    Thomas Bayes Pastori Thomas Bayes Syntymäaika: 1702 Syntymäpaikka: Lontoo ... Wikipedia

    Bayesin päättely on yksi tilastollisen päättelyn menetelmistä, jossa Bayesin kaavaa käytetään tarkentamaan todennäköisyysarvioita hypoteesien totuudesta, kun todisteita saadaan. Bayesilaisen päivityksen käyttö on erityisen tärkeää... ... Wikipediassa

    Tämän artikkelin parantamiseksi on toivottavaa?: Etsi ja järjestä alaviitteiden muodossa linkkejä arvovaltaisiin lähteisiin, jotka vahvistavat kirjoitetun. Kun olet lisännyt alaviitteet, anna tarkemmat tiedot lähteistä. Pere... Wikipedia

Pettävätkö vangit toisensa itsekkäiden etujensa mukaisesti vai vaikenevatko he minimoiden siten kokonaisrangaistuksen? Vangin dilemma (englanniksi: Prisoner's dilemma, harvemmin käytetty on nimi "dilemma ... Wikipedia

  • Todennäköisyysteoria ja matemaattiset tilastot tehtävissä: Yli 360 tehtävää ja harjoitusta, D. Borzykh Ehdotettu käsikirja sisältää vaihtelevan monimutkaisuuden ongelmia. Pääpaino on kuitenkin keskikokoisissa tehtävissä. Tämä tehdään tarkoituksella kannustaakseen opiskelijoita...

Kokonaistodennäköisyyskaavaa johdettaessa oletettiin, että tapahtuma A, jonka todennäköisyys oli määritettävä, voi tapahtua jollekin tapahtumasta N 1 , N 2 , ... , N n muodostaen täydellisen ryhmän pareittain yhteensopimattomia tapahtumia. Lisäksi näiden tapahtumien todennäköisyydet (hypoteesit) tiedettiin etukäteen. Oletetaan, että on suoritettu koe, jonka tuloksena tapahtuma A se on saapunut. Näiden lisätietojen avulla voimme arvioida uudelleen hypoteesien todennäköisyydet. N i, laskettuaan P(Hi/A).

tai kokonaistodennäköisyyskaavaa käyttäen saamme

Tätä kaavaa kutsutaan Bayesin kaavaksi tai hypoteesilauseeksi. Bayesin kaavan avulla voit "tarkistaa" hypoteesien todennäköisyyksiä sen jälkeen kun tapahtumaan johtaneen kokeen tulos on tullut tunnetuksi A.

Todennäköisyydet Р(Н i)− nämä ovat hypoteesien a priori todennäköisyydet (ne lasketaan ennen koetta). Todennäköisyydet P(H i /A)− nämä ovat hypoteesien posterioritodennäköisyydet (ne lasketaan kokeen jälkeen). Bayesin kaavan avulla voit laskea posteriorit todennäköisyydet niiden aiemmista todennäköisyyksistä ja tapahtuman ehdollisista todennäköisyyksistä A.

Esimerkki. Tiedetään, että 5 % kaikista miehistä ja 0,25 % naisista on värisokeita. Satunnaisesti valittu henkilö sairaskorttinumeronsa perusteella kärsii värisokeudesta. Millä todennäköisyydellä se on mies?

Ratkaisu. Tapahtuma A– henkilö kärsii värisokeudesta. Kokeen alkeistapahtumien tila - henkilö valitaan lääketieteellisen kortin numerolla - Ω = ( N 1 , N 2 ) koostuu kahdesta tapahtumasta:

N 1 - mies on valittu,

N 2 − valitaan nainen.

Nämä tapahtumat voidaan valita hypoteesiksi.

Ongelman ehtojen mukaan (satunnainen valinta) näiden tapahtumien todennäköisyydet ovat samat ja yhtä suuret P(N 1 ) = 0.5; P(N 2 ) = 0.5.

Tässä tapauksessa ehdolliset todennäköisyydet, että henkilö kärsii värisokeudesta, ovat samat:

R(A/N 1 ) = 0.05 = 1/20; R(A/N 2 ) = 0.0025 = 1/400.

Koska tiedetään, että valittu henkilö on värisokea, eli tapahtuma sattui, arvioimme ensimmäisen hypoteesin uudelleen Bayesin kaavalla:

Esimerkki. Siinä on kolme samannäköistä laatikkoa. Ensimmäinen laatikko sisältää 20 valkoista palloa, toinen laatikko sisältää 10 valkoista ja 10 mustaa palloa ja kolmas laatikko sisältää 20 mustaa palloa. Valkoinen pallo otetaan satunnaisesti valitusta laatikosta. Laske todennäköisyys, että pallo vedetään ensimmäisestä laatikosta.

Ratkaisu. Merkitään A tapahtuma - valkoisen pallon ilmestyminen. Laatikon valinnasta voidaan tehdä kolme oletusta (hypoteesia): N 1 ,N 2 , N 3 – ensimmäisen, toisen ja kolmannen laatikon valinta.

Koska minkä tahansa laatikon valinta on yhtä mahdollista, hypoteesien todennäköisyydet ovat samat:

P(N 1 )=P(N 2 )=P(N 3 )= 1/3.

Tehtävän mukaan todennäköisyys vetää valkoinen pallo ensimmäisestä laatikosta on

Todennäköisyys vetää valkoinen pallo toisesta laatikosta



Todennäköisyys vetää valkoinen pallo kolmannesta laatikosta

Löydämme halutun todennäköisyyden Bayesin kaavalla:

Testien toistaminen. Bernoullin kaava.

Suoritetaan N koetta, joissa kussakin tapahtuma A voi tapahtua tai ei, ja tapahtuman A todennäköisyys kussakin yksittäisessä kokeessa on vakio, ts. ei muutu kokemuksesta kokemukseen. Tiedämme jo kuinka löytää tapahtuman A todennäköisyys yhdessä kokeessa.

Erityisen kiinnostava on todennäköisyys, että tapahtuma A esiintyy tietyn määrän kertoja (m kertaa) n kokeessa. Tällaiset ongelmat voidaan ratkaista helposti, jos testit ovat riippumattomia.

Def. Useita testejä kutsutaan riippumaton tapahtuman A suhteen , jos tapahtuman A todennäköisyys kussakin niistä ei riipu muiden kokeiden tuloksista.

Todennäköisyys P n (m) tapahtuman A esiintymiselle täsmälleen m kertaa (ei-tapahtuminen n-m kertaa, tapahtuma ) näissä n kokeessa. Tapahtuma A esiintyy useissa sarjoissa m kertaa).

- Bernoullin kaava.

Seuraavat kaavat ovat ilmeisiä:

Р n (m Vähemmän k kertaa n kokeessa.

P n (m>k) = P n (k+1) + P n (k+2) +…+ P n (n) - tapahtuman A esiintymistodennäköisyys lisää k kertaa n kokeessa.

Kuka on Bayes? ja mitä tekemistä sillä on johtamisen kanssa? - Tästä voi seurata täysin oikeudenmukainen kysymys. Toistaiseksi ota sanani: tämä on erittäin tärkeää!... ja kiinnostavaa (ainakin minulle).

Mikä on paradigma, jossa useimmat johtajat toimivat: Jos havaitsen jotain, mitä johtopäätöksiä voin tehdä siitä? Mitä Bayes opettaa: mitä todella täytyy olla, jotta voin havaita tämän jotain? Juuri näin kaikki tieteet kehittyvät, ja hän kirjoittaa tästä (lainaan muistista): henkilö, jolla ei ole teoriaa päässään, karkaa ajatuksesta toiseen erilaisten tapahtumien (havaintojen) vaikutuksesta. Ei turhaan sanota: ei ole mitään käytännöllisempää kuin hyvä teoria.

Esimerkki käytännössä. Alaiseni tekee virheen, ja kollegani (toisen osaston päällikkö) sanoo, että laiminlyönniseen työntekijään olisi tarpeen kohdistaa esimiesvaikutusta (toisin sanoen rankaista/huidata). Ja tiedän, että tämä työntekijä tekee 4–5 tuhatta samantyyppistä toimenpidettä kuukaudessa, ja tänä aikana ei tee enempää kuin 10 virhettä. Tunnetko paradigman eron? Kollegani reagoi havaintoon, ja minulla on etukäteen tieto, että työntekijä tekee tietyn määrän virheitä, joten yksi lisää ei vaikuttanut tähän tietoon... Jos nyt kuun lopussa käy ilmi, että on, esimerkiksi 15 tällaista virhettä!.. Tämä on jo syy tutkia syitä standardien noudattamatta jättämiseen.

Oletko vakuuttunut bayesilaisen lähestymistavan tärkeydestä? Kiinnostaako? Toivottavasti kyllä. Ja nyt kärpänen. Valitettavasti Bayesin ideat annetaan harvoin heti. Olin suoraan sanottuna epäonninen, sillä tutustuin näihin ajatuksiin populaarikirjallisuuden kautta, jonka lukemisen jälkeen jäi monia kysymyksiä. Kun suunnittelin muistiinpanon kirjoittamista, keräsin kaiken, mitä olin aiemmin tehnyt muistiinpanoja Bayesista, ja tutkin myös Internetissä kirjoitettua. Esitän huomionne parhaan arvaukseni aiheesta. Johdatus Bayesin todennäköisyyteen.

Bayesin lauseen johtaminen

Tarkastellaan seuraavaa koetta: soitetaan mitä tahansa segmentillä olevaa numeroa ja kirjataan, kun tämä luku on esimerkiksi välillä 0,1 - 0,4 (kuva 1a). Tämän tapahtuman todennäköisyys on yhtä suuri kuin segmentin pituuden suhde segmentin kokonaispituuteen edellyttäen, että segmentissä esiintyy numeroita yhtä todennäköistä. Matemaattisesti tämä voidaan kirjoittaa s(0,1 <= x <= 0,4) = 0,3, или кратко r(X) = 0,3, missä r- todennäköisyys, X– satunnaismuuttuja alueella , X– satunnaismuuttuja alueella . Eli segmenttiin osumisen todennäköisyys on 30 %.

Riisi. 1. Todennäköisyyksien graafinen tulkinta

Tarkastellaan nyt neliötä x (kuva 1b). Oletetaan, että meidän on nimettävä lukuparit ( x, y), joista jokainen on suurempi kuin nolla ja pienempi kuin yksi. Todennäköisyys, että x(ensimmäinen numero) on segmentin sisällä (sininen alue 1), joka on yhtä suuri kuin sinisen alueen pinta-alan suhde koko neliön pinta-alaan, eli (0,4 - 0,1) * (1 - 0) ) / (1 * 1) = 0, 3, eli sama 30 %. Todennäköisyys, että y segmentin sisällä (vihreä alue 2) on yhtä suuri kuin viheralueen pinta-alan suhde koko neliön pinta-alaan s(0,5 <= y <= 0,7) = 0,2, или кратко r(Y) = 0,2.

Mitä arvoista voi samalla oppia? x Ja y. Esimerkiksi mikä on todennäköisyys, että samaan aikaan x Ja y ovat vastaavissa annetuissa segmenteissä? Tätä varten sinun on laskettava alueen 3 (vihreän ja sinisen raidan leikkauspiste) pinta-alan suhde koko neliön pinta-alaan: s(X, Y) = (0,4 – 0,1) * (0,7 – 0,5) / (1 * 1) = 0,06.

Oletetaan nyt, että haluamme tietää, mikä on sen todennäköisyys y on välissä if x on jo alueella . Eli itse asiassa meillä on suodatin ja kun kutsumme pareja ( x, y), hylkäämme välittömästi ne parit, jotka eivät täytä löytämisen ehtoa x tietyllä aikavälillä, ja sitten lasketaan suodatetuista pareista ne, joille y täyttää ehtomme ja pitää todennäköisyyttä niiden parien lukumäärän suhteena, joille y sijaitsee yllä olevassa segmentissä suodatettujen parien kokonaismäärään (eli jolle x sijaitsee segmentissä). Voimme kirjoittaa tämän todennäköisyyden muodossa s(Y|X klo X osuu kantamaan." Ilmeisesti tämä todennäköisyys on yhtä suuri kuin alueen 3 alueen suhde sinisen alueen 1 pinta-alaan. Alueen 3 pinta-ala on (0,4 – 0,1) * (0,7 – 0,5) = 0,06, ja sinisen alueen pinta-ala 1 ( 0,4 - 0,1) * (1 - 0) = 0,3, niin niiden suhde on 0,06 / 0,3 = 0,2. Toisin sanoen löytämisen todennäköisyys y segmentillä edellyttäen, että x kuuluu segmenttiin s(Y|X) = 0,2.

Edellisessä kappaleessa muotoilimme identiteetin: s(Y|X) = s(X, Y) / p( X). Siinä lukee: "iskun todennäköisyys klo alueella, edellyttäen että X osuma-alue, joka on yhtä suuri kuin samanaikaisen osuman todennäköisyyden suhde X alueelle ja klo alueeseen, osumistodennäköisyyteen X alueelle."

Analogisesti harkitse todennäköisyyttä s(X|Y). Soitamme pariskunnille ( x, y) ja suodata ne, joille y on välillä 0,5 ja 0,7, niin todennäköisyys, että x on siinä välissä edellyttäen, että y kuuluu segmenttiin on yhtä suuri kuin alueen 3 alueen suhde vihreän alueen 2 pinta-alaan: s(X|Y) = s(X, Y) / s(Y).

Huomaa, että todennäköisyydet s(X, Y) Ja s(Y, X) ovat yhtä suuret, ja molemmat ovat yhtä suuria kuin vyöhykkeen 3 alueen suhde koko neliön pinta-alaan, mutta todennäköisyydet s(Y|X) Ja s(X|Y) eivät ole samanarvoisia; kun taas todennäköisyys s(Y|X) on yhtä suuri kuin alueen 3 alueen suhde alueeseen 1, ja s(X|Y) – alue 3 alue 2. Huomaa myös, että s(X, Y) merkitään usein nimellä s(X&Y).

Joten otimme käyttöön kaksi määritelmää: s(Y|X) = s(X, Y) / p( X) Ja s(X|Y) = s(X, Y) / s(Y)

Kirjoitetaan nämä yhtäläisyydet muotoon: s(X, Y) = s(Y|X) * p( X) Ja s(X, Y) = s(X|Y) * s(Y)

Koska vasemmat puolet ovat yhtä suuret, oikeat puolet ovat yhtä suuret: s(Y|X) * p( X) = s(X|Y) * s(Y)

Tai voimme kirjoittaa viimeisen yhtälön uudelleen seuraavasti:

Tämä on Bayesin lause!

Antavatko tällaiset yksinkertaiset (melkein tautologiset) muunnokset todella suuren lauseen!? Älä kiirehdi tekemään johtopäätöksiä. Puhutaanpa taas siitä, mitä meillä on. Alkuperäinen (a priori) todennäköisyys oli olemassa r(X), että satunnaismuuttuja X segmentille tasaisesti jakautunut kuuluu alueelle X. Tapahtui tapahtuma Y, jonka seurauksena saimme saman satunnaismuuttujan posterioritodennäköisyyden X: r(X|Y), ja tämä todennäköisyys eroaa r(X) kertoimella. Tapahtuma Y todisteiksi, jotka enemmän tai vähemmän vahvistavat tai kumoavat X. Tätä kerrointa kutsutaan joskus todisteiden voima. Mitä vahvempi todiste on, sitä enemmän Y:n havainnoinnin tosiasia muuttaa priori-todennäköisyyttä, sitä enemmän posteriori todennäköisyys eroaa priorista. Jos todisteet ovat heikkoja, posteriori todennäköisyys on melkein sama kuin aiempi.

Bayesin kaava diskreeteille satunnaismuuttujille

Edellisessä osiossa johdimme Bayesin kaavan välille määritetyille jatkuville satunnaismuuttujille x ja y. Tarkastellaan esimerkkiä, jossa on diskreetit satunnaismuuttujat, joista jokaisella on kaksi mahdollista arvoa. Rutiininomaisissa lääketieteellisissä tutkimuksissa todettiin, että 40-vuotiaina naisista 1 % sairastaa rintasyöpää. 80 % syöpää sairastavista naisista saa positiivisia mammografiatuloksia. 9,6 % terveistä naisista saa myös positiivisia mammografiatuloksia. Tämän ikäryhmän nainen sai tutkimuksessa positiivisen mammografiatuloksen. Mikä on todennäköisyys, että hänellä todella on rintasyöpä?

Päättely/laskelma on seuraava. Yhdestä prosentista syöpäpotilaista mammografia antaa 80 % positiivisen tuloksen = 1 % * 80 % = 0,8 %. 99 % terveistä naisista mammografia antaa 9,6 % positiivisia tuloksia = 99 % * 9,6 % = 9,504 %. Yhteensä 10,304 % (9,504 % + 0,8 %), joilla on positiivinen mammografiatulos, vain 0,8 % on sairaita ja loput 9,504 % terveitä. Näin ollen todennäköisyys, että naisella, jolla on positiivinen mammografiatulos, on syöpä, on 0,8 % / 10,304 % = 7,764 %. Luulitko 80% vai niin?

Esimerkissämme Bayesin kaava on seuraavanlainen:

Puhutaanpa vielä kerran tämän kaavan "fyysisestä" merkityksestä. X– satunnaismuuttuja (diagnoosi), ottaa arvot: X 1- sairas ja X 2- terve; Y– satunnaismuuttuja (mittaustulos – mammografia), ottamalla arvot: Y 1- positiivinen tulos ja Y2– negatiivinen tulos; p(X 1)– sairauden todennäköisyys ennen mammografiaa (a priori todennäköisyys) on 1 %; p(Y 1 |X 1 ) – positiivisen tuloksen todennäköisyys, jos potilas on sairas (ehdollinen todennäköisyys, koska se on määriteltävä tehtävän ehdoissa), on 80 %; p(Y 1 |X 2 ) – positiivisen tuloksen todennäköisyys, jos potilas on terve (myös ehdollinen todennäköisyys) on 9,6 %; p(X 2)– todennäköisyys, että potilas on terve ennen mammografiaa (a priori todennäköisyys) on 99 %; p(X 1|Y 1 ) – todennäköisyys, että potilas on sairas, kun mammografiatulos on positiivinen (posterior todennäköisyys).

Voidaan nähdä, että posteriori todennäköisyys (mitä etsimme) on verrannollinen aiempaan todennäköisyyteen (alkuperäiseen) hieman monimutkaisemmalla kertoimella . Korostan vielä. Mielestäni tämä on bayesilaisen lähestymistavan perustavanlaatuinen näkökohta. Mittaus ( Y) lisäsi tietyn määrän tietoa alun perin saatavilla olevaan tietoon (a priori), mikä selvensi tietoamme kohteesta.

Esimerkkejä

Yhdistääksesi käsittelemääsi materiaalia, yritä ratkaista useita ongelmia.

Esimerkki 1. On 3 uurnia; ensimmäisessä on 3 valkoista palloa ja 1 musta; toisessa - 2 valkoista palloa ja 3 mustaa; kolmannessa on 3 valkoista palloa. Joku lähestyy yhtä uurnaa sattumanvaraisesti ja ottaa siitä yhden pallon. Tämä pallo osoittautui valkoiseksi. Selvitä posterioriset todennäköisyydet, että pallo vedetään 1., 2., 3. uurnasta.

Ratkaisu. Meillä on kolme hypoteesia: H 1 = (ensimmäinen uurna valitaan), H 2 = (toinen uurna valitaan), H 3 = (kolmas uurna valitaan). Koska uurna valitaan sattumanvaraisesti, hypoteesien a priori todennäköisyydet ovat yhtä suuret: P(H 1) = P(H 2) = P(H 3) = 1/3.

Kokeen tuloksena ilmeni tapahtuma A = (valitusta uurnasta vedettiin valkoinen pallo). Tapahtuman A ehdolliset todennäköisyydet hypoteeseissa H 1, H 2, H 3: P(A|H 1) = 3/4, P(A|H 2) = 2/5, P(A|H 3) = 1. Esimerkiksi ensimmäinen yhtälö kuuluu näin: "Valkoisen pallon piirtämisen todennäköisyys, jos valitaan ensimmäinen uurna, on 3/4 (koska ensimmäisessä uurnassa on 4 palloa, joista 3 on valkoisia)."

Bayesin kaavaa käyttämällä löydämme hypoteesien posterioritodennäköisyydet:

Näin ollen tapahtuman A tapahtumista koskevien tietojen valossa hypoteesien todennäköisyydet muuttuivat: hypoteesi H 3 tuli todennäköisimpänä, hypoteesi H 2 vähiten todennäköisin.

Esimerkki 2. Kaksi ampujaa ampuu itsenäisesti samaan maaliin, kukin yhden laukauksen. Ensimmäisen ampujan maaliin osumisen todennäköisyys on 0,8, toisen - 0,4. Ammuntamisen jälkeen maalitaulusta löytyi yksi reikä. Selvitä todennäköisyys, että tämä reikä kuuluu ensimmäiselle ampujalle (tulos (molemmat reiät osuivat samaan) hylätään mitättömän epätodennäköisenä).

Ratkaisu. Ennen koetta ovat mahdollisia seuraavat hypoteesit: H 1 = (ensimmäinen tai toinen nuoli ei osu), H 2 = (molemmat nuolet osuvat), H 3 - (ensimmäinen ampuja osuu, mutta toinen ei osu ), H 4 = (ensimmäinen ampuja ei osu, ja toinen ampuu). Hypoteesien aiemmat todennäköisyydet:

P(H1) = 0,2 x 0,6 = 0,12; P(H2) = 0,8*0,4 = 0,32; P (H3) = 0,8 * 0,6 = 0,48; P(H4) = 0,2 x 0,4 = 0,08.

Havaitun tapahtuman A = (kohteessa on yksi reikä) ehdolliset todennäköisyydet näissä hypoteeseissa ovat yhtä suuret: P(A|H 1) = P(A|H 2) = 0; P(A|H3) = P(A|H4) = 1

Kokeen jälkeen hypoteesit H 1 ja H 2 muuttuvat mahdottomaksi, ja hypoteesien H 3 ja H 4 posterioritodennäköisyydet Bayesin kaavan mukaan ovat:

Bayes roskapostia vastaan

Bayesin kaava on löytänyt laajan sovelluksen roskapostisuodattimien kehittämisessä. Oletetaan, että haluat kouluttaa tietokoneen määrittämään, mitkä sähköpostit ovat roskapostia. Jatkamme sanakirjasta ja lauseista Bayesin arvioiden avulla. Luokaamme ensin hypoteesien tila. Olkaamme kaksi hypoteesia mistä tahansa kirjaimesta: H A on roskapostia, H B ei ole roskapostia, vaan normaali, välttämätön kirjain.

Ensin "koulutetaan" tulevaa roskapostintorjuntajärjestelmäämme. Otetaan kaikki kirjaimet ja jaetaan ne kahteen 10 kirjaimen "pinoon". Laitetaan roskapostit yhteen ja kutsutaan sitä H A -kekoksi, toiseen laitetaan tarvittava kirjeenvaihto ja kutsutaan sitä H B -kekoksi. Katsotaan nyt: mitä sanoja ja lauseita löytyy roskapostista ja tarpeellisista kirjaimista ja millä tiheydellä? Kutsumme näitä sanoja ja lauseita todisteiksi ja merkitsemme niitä E 1 , E 2 ... On käynyt ilmi, että yleisesti käytetyt sanat (esimerkiksi sanat "tykkää", "sinu" kasoissa H A ja H B esiintyvät suunnilleen sama taajuus. Siten näiden sanojen läsnäolo kirjeessä ei kerro meille mitään siitä, mihin pinoon se pitäisi liittää (heikko todiste). Annetaan näille sanoille neutraali "roskapostin" todennäköisyyspisteet, vaikkapa 0,5.

Olkoon ilmaus "puhuttu englanti" vain 10 kirjaimessa ja useammin roskapostikirjeissä (esimerkiksi 7 roskapostikirjeessä kaikista 10:stä) kuin välttämättömissä (3:ssa 10:stä). Annetaan tälle lauseelle korkeampi arvosana roskapostille: 7/10 ja tavallisille sähköpostiviesteille pienempi arvosana: 3/10. Päinvastoin kävi ilmi, että sana "kaveri" esiintyi useammin tavallisilla kirjaimilla (6/10). Ja sitten saimme lyhyen kirjeen: "Ystäväni! Miten puhut englantia?". Yritetään arvioida sen "spammyys". Annamme yleiset arviot P(H A), P(H B) kuhunkin kasaan kuuluvasta kirjaimesta käyttämällä hieman yksinkertaistettua Bayes-kaavaa ja likimääräisiä arvioidemme:

P(H A) = A/(A+B), Jossa A = p a1 *p a2 *…*p an, B = p b1 *p b2 *…*p b n = (1 – p a1)*(1 – p a2)*… *(1 – p an).

Taulukko 1. Yksinkertaistettu (ja epätäydellinen) Bayes-estimaatti kirjoittamisesta.

Näin ollen hypoteettinen kirjeemme sai todennäköisyydellä kuulumispistemäärän painottaen "roskapostia". Voimmeko päättää heittää kirjeen johonkin pinoista? Asetetaan päätöskynnykset:

  • Oletetaan, että kirjain kuuluu kasaan H i, jos P(H i) ≥ T.
  • Kirjain ei kuulu kasaan, jos P(H i) ≤ L.
  • Jos L ≤ P(H i) ≤ T, päätöstä ei voida tehdä.

Voit ottaa T = 0,95 ja L = 0,05. Koska kyseiselle kirjeelle ja 0,05< P(H A) < 0,95, и 0,05 < P(H В) < 0,95, то мы не сможем принять решение, куда отнести данное письмо: к спаму (H A) или к нужным письмам (H B). Можно ли улучшить оценку, используя больше информации?

Kyllä. Lasketaan pisteet jokaiselle todisteelle eri tavalla, aivan kuten Bayes itse asiassa ehdotti. Anna:

F a on roskapostiviestien kokonaismäärä;

F ai on sertifikaatin sisältävien kirjainten lukumäärä i roskapostipinossa;

F b on tarvittavien kirjainten kokonaismäärä;

F bi on sertifikaatin sisältävien kirjainten lukumäärä i joukossa tarpeellisia (oleellisia) kirjeitä.

Sitten: p ai = F ai /F a, p bi = F bi /F b. P(H A) = A/(A+B), P(H B) = B/(A+B), Jossa A = p a1 *p a2 *…*p an, B = p b1 *p b2 *…*p b n

Huomaa, että todisteiden sanojen p ai ja p bi arvioinnista on tullut objektiivisia ja ne voidaan laskea ilman ihmisen puuttumista.

Taulukko 2. Tarkempi (mutta epätäydellinen) Bayes-arvio, joka perustuu kirjeestä saatavilla oleviin ominaisuuksiin

Saimme erittäin varman tuloksen - suurella edulla kirjain voidaan luokitella halutuksi kirjaimeksi, koska P(H B) = 0,997 > T = 0,95. Miksi tulos muuttui? Koska käytimme enemmän tietoa - otimme huomioon kirjainten lukumäärän kussakin pinossa ja muuten määritimme arviot p ai ja p bi paljon oikein. Määritimme ne samalla tavalla kuin Bayes itse, laskemalla ehdolliset todennäköisyydet. Toisin sanoen p a3 on sanan "kaveri" esiintymisen todennäköisyys kirjaimessa, mikäli tämä kirjain kuuluu jo roskapostikasaan H A . Tulosta ei odotettu kauaa - näyttää siltä, ​​että voimme tehdä päätöksen suuremmalla varmuudella.

Bayes yrityspetoksia vastaan

MAGNUS8 kuvasi mielenkiintoisen Bayes-lähestymistavan sovelluksen.

Nykyinen projektini (IS valmistavan yrityksen petosten havaitsemiseen) käyttää Bayesin kaavaa petoksen (petoksen) todennäköisyyden määrittämiseen useiden tosiseikkojen läsnä ollessa/puuttuessa, jotka epäsuorasti todistavat petoksen mahdollisuutta koskevan hypoteesin puolesta. Algoritmi on itseoppiva (palautteella), ts. laskee kertoimet (ehdolliset todennäköisyydet) uudelleen, kun petos on tosiasiallisesti vahvistettu tai ei ole vahvistettu taloudellisen turvapalvelun tarkastuksen aikana.

On luultavasti syytä sanoa, että tällaiset menetelmät algoritmien suunnittelussa edellyttävät kehittäjältä melko korkeaa matemaattista kulttuuria, koska Pieninkin virhe laskennallisten kaavojen johtamisessa ja/tai toteutuksessa mitätöi ja huonontaa koko menetelmän. Todennäköisyyspohjaiset menetelmät ovat erityisen alttiita tälle, koska ihmisen ajattelu ei ole sopeutunut toimimaan todennäköisyyskategorioiden kanssa, ja näin ollen väli- ja lopullisten todennäköisyysparametrien "fyysisen merkityksen" "näkyvyys" ja ymmärrys puuttuvat. Tämä ymmärrys on olemassa vain todennäköisyysteorian peruskäsitteiden kohdalla, ja sitten sinun on vain yhdistettävä ja johdettava monimutkaisia ​​asioita erittäin huolellisesti todennäköisyysteorian lakien mukaan - terve järki ei enää auta yhdistelmäobjekteihin. Tämä liittyy erityisesti varsin vakaviin metodologisiin taisteluihin, joita käydään nykyaikaisten todennäköisyysfilosofiaa käsittelevien kirjojen sivuilla, sekä lukuisiin tämän aiheen sofismiin, paradokseihin ja uteliaisiin pulmiin.

Toinen vivahde, jonka jouduin kohtaamaan, on se, että valitettavasti melkein kaikki, jopa enemmän tai vähemmän KÄYTÄNNÖSSÄ Hyödyllinen tästä aiheesta, on kirjoitettu englanniksi. Venäjänkielisissä lähteissä on pääosin vain hyvin tunnettu teoria, jossa on esimerkkejä vain alkeellisimmista tapauksista.

Olen täysin samaa mieltä viimeisestä huomautuksesta. Esimerkiksi Google ei tuottanut mitään ymmärrettävää, kun se yritti löytää jotain "Bayesian Probability -kirjaa". Totta, hän kertoi, että Bayesin tilastoja sisältävä kirja kiellettiin Kiinassa. (Tilastoprofessori Andrew Gelman raportoi Columbia Universityn blogissa, että hänen kirjansa Data Analysis with Regression and Multilevel/Hierarchical Models kiellettiin julkaisusta Kiinassa. Siellä oleva kustantaja ilmoitti, että "viranomaiset eivät hyväksyneet kirjaa useiden poliittisesti arkaluonteisten seikkojen vuoksi materiaalia tekstissä.") Ihmettelen, johtiko samanlainen syy Bayesin todennäköisyyttä käsittelevien kirjojen puuttumiseen Venäjällä?

Konservatiivisuus ihmisen tiedonkäsittelyssä

Todennäköisyydet määräävät epävarmuuden asteen. Todennäköisyys, sekä Bayesin että intuitioidemme mukaan, on yksinkertaisesti luku nollan ja sen välillä, joka edustaa sitä, missä määrin jokseenkin idealisoitu henkilö uskoo väitteen olevan totta. Syy, miksi henkilö on jossain määrin idealisoitunut, on se, että hänen todennäköisyyksiensä summan kahdelle toisensa poissulkevalle tapahtumalle on oltava yhtä suuri kuin hänen todennäköisyytensä jommankumman tapahtuman toteutumiselle. Additiivisuudella on sellaiset seuraukset, että harvat oikeat ihmiset voivat kohdata ne kaikki.

Bayesin lause on triviaali seuraus additiivisuuden ominaisuudesta, kiistaton ja kaikkien todennäköisyyksien hyväksymä, Bayesin ja muutkin. Yksi tapa kirjoittaa tämä on seuraava. Jos P(H A |D) on myöhempi todennäköisyys, että hypoteesi A oli tietyn arvon D havaitsemisen jälkeen, P(H A) on sen aikaisempi todennäköisyys ennen tietyn arvon D havaitsemista, P(D|H A ) on todennäköisyys, että annettu arvo D havaitaan, jos H A on tosi, ja P(D) on tietyn arvon D ehdoton todennäköisyys,

(1) P(H A |D) = P(D|H A) * P(H A) / P(D)

P(D) on parasta ajatella normalisoivana vakiona, joka saa posterioriset todennäköisyydet summautumaan ykseyteen tarkasteltavina olevien toisensa poissulkevien hypoteesien tyhjentävässä joukossa. Jos se on laskettava, se voisi olla seuraava:

Mutta useammin P(D) eliminoidaan laskemisen sijaan. Kätevä tapa poistaa tämä on muuntaa Bayesin lause todennäköisyys-kertoimen suhteen muotoon.

Harkitse toista hypoteesia, H B , joka on toisensa poissulkeva H A :n kanssa, ja muuta mieltäsi sen suhteen saman annetun suuren perusteella, joka muutti mieltäsi H A:sta. Bayesin lause sanoo sen

(2) P(H B |D) = P(D|H B) * P(H B) / P(D)

Jaetaan nyt yhtälö 1 yhtälöllä 2; lopputulos tulee olemaan tällainen:

missä Ω 1 ovat posteriorikertoimet H A - H B:n hyväksi, Ω 0 ovat aiemmat kertoimet ja L on tilastotieteilijöille todennäköisyyssuhteena tuttu suure. Yhtälö 3 on sama relevantti versio Bayesin lauseesta kuin yhtälö 1, ja se on usein huomattavasti hyödyllisempi erityisesti hypoteeseihin liittyvissä kokeissa. Bayesilaiset väittävät, että Bayesin lause on muodollisesti optimaalinen sääntö siitä, kuinka mielipiteitä tarkistetaan uusien todisteiden valossa.

Olemme kiinnostuneita vertaamaan Bayesin lauseen määrittelemää ideaalista käyttäytymistä ihmisten todelliseen käyttäytymiseen. Jotta saisit jonkinlaisen käsityksen siitä, mitä tämä tarkoittaa, kokeillaan kokeilua, jossa olet koehenkilönä. Tämä pussi sisältää 1000 pelimerkkiä. Minulla on kaksi tällaista pussia, joista toisessa on 700 punaista ja 300 blue chipiä ja toisessa 300 punaista ja 700 sinistä. Heitin kolikon päättääkseni kumpaa käytän. Joten jos mielipiteemme ovat samat, nykyinen todennäköisyytesi saada pussi, jossa on enemmän punaisia ​​siruja, on 0,5. Nyt teet satunnaisen näytteen, joka palauttaa jokaisen sirun jälkeen. 12 pelimerkillä saat 8 punaista ja 4 sinistä. Nyt, kaiken tietämäsi perusteella, mikä on todennäköisyys saada pussiin eniten punaisia? On selvää, että se on suurempi kuin 0,5. Älä jatka lukemista ennen kuin olet kirjannut pisteytesi.

Jos olet kuin tyypillinen kokeen tekijä, pisteesi putosi välillä 0,7-0,8. Jos tekisimme vastaavan laskelman, vastaus olisi kuitenkin 0,97. On todellakin hyvin harvinaista, että henkilö, jolle ei ole aiemmin osoitettu konservatiivisuuden vaikutusta, päätyy näin korkeaan arvioon, vaikka hän olisi perehtynyt Bayesin lauseeseen.

Jos punaisten lastujen osuus pussissa on r, sitten vastaanottamisen todennäköisyys r punaisia ​​siruja ja ( n –r) sininen sisällä n näytteet palautuksella - p r (1–p)n–r. Joten tyypillisessä kokeessa pussin ja pelimerkkien kanssa, jos NA tarkoittaa, että punaisten pelimerkkien osuus on r A Ja NB– tarkoittaa, että osake on rB, sitten todennäköisyyssuhde:

Bayesin kaavaa sovellettaessa on otettava huomioon vain varsinaisen havainnon todennäköisyys, ei muiden havaintojen todennäköisyydet, joita hän olisi voinut tehdä, mutta ei tehnyt. Tällä periaatteella on laaja vaikutus kaikkiin Bayesin lauseen tilastollisiin ja ei-tilastollisiin sovelluksiin; se on tärkein tekninen työkalu bayesialaiselle päättelylle.

Bayesilainen vallankumous

Ystäväsi ja kollegasi puhuvat jostain nimeltä "Bayesin lause" tai "Bayesin sääntö" tai jostakin nimeltä Bayesin päättely. He ovat todella kiinnostuneita tästä, joten mene verkkoon ja etsi sivu Bayesin lauseesta ja... Se on yhtälö. Ja siinä se... Miksi matemaattinen käsite herättää niin innostusta mielissä? Millainen "bayesilainen vallankumous" on meneillään tiedemiesten keskuudessa, ja väitetään, että jopa itse kokeellista lähestymistapaa voidaan kuvata sen erikoistapaukseksi? Mikä on se salaisuus, jonka bayesilaiset tietävät? Millaista valoa he näkevät?

Bayesilaista vallankumousta tieteessä ei tapahtunut, koska yhä useammat kognitiiviset tiedemiehet alkoivat yhtäkkiä huomata, että henkisillä ilmiöillä oli Bayesin rakenne; ei siksi, että tutkijat kaikilla aloilla ovat alkaneet käyttää Bayesin menetelmää; vaan koska tiede itsessään on Bayesin lauseen erikoistapaus; kokeellinen todiste on Bayesin todiste. Bayesilaiset vallankumoukselliset väittävät, että kun suoritat kokeen ja hankit todisteita, jotka "vahvistavat" tai "kiistävät" teoriasi, tämä vahvistus tai kumoaminen tapahtuu Bayesin sääntöjen mukaan. Sinun on esimerkiksi otettava huomioon paitsi se, että teoriasi voi selittää ilmiön, myös se, että on olemassa muita mahdollisia selityksiä, jotka voivat myös ennustaa tämän ilmiön.

Aikaisemmin suosituin tieteenfilosofia oli vanha filosofia, jonka Bayesin vallankumous syrjäytti. Karl Popperin ajatus siitä, että teoriat voidaan täysin väärentää, mutta ei koskaan täysin todentaa, on toinen Bayesin sääntöjen erikoistapaus; jos p(X|A) ≈ 1 – jos teoria tekee oikeita ennusteita, niin ~X:n havainnointi falsifioi A:n erittäin voimakkaasti. Toisaalta, jos p(X|A) ≈ 1 ja havaitsemme X, tämä ei vahvista vahvasti. teoria; ehkä jokin muu ehto B on mahdollinen, niin että p(X|B) ≈ 1, ja jossa havainto X ei todista A:n puolesta, mutta todistaa B:n puolesta. Jotta havainto X varmasti vahvistaisi A:n, meillä olisi olla tietämättä, että p(X|A) ≈ 1 ja että p(X|~A) ≈ 0, jota emme voi tietää, koska emme voi ottaa huomioon kaikkia mahdollisia vaihtoehtoisia selityksiä. Esimerkiksi kun Einsteinin yleinen suhteellisuusteoria ohitti Newtonin hyvin tukeman painovoimateorian, se teki kaikista Newtonin teorian ennusteista Einsteinin ennusteiden erikoistapauksen.

Samalla tavalla Popperin väite, jonka mukaan idean on oltava falsifioitavissa, voidaan tulkita bayesilaisen todennäköisyyden säilymisen säännön ilmentymäksi; jos tulos X on positiivinen todiste teorialle, niin tuloksen ~X on kumottava teoria jossain määrin. Jos yrität tulkita sekä X:n että ~X:n teorian "vahvistavina", Bayesin säännöt sanovat, että se on mahdotonta! Teorian todennäköisyyden lisäämiseksi sinun on tehtävä sille testejä, jotka voivat mahdollisesti vähentää sen todennäköisyyttä; Tämä ei ole vain sääntö tieteen sarlataanien tunnistamiseksi, vaan se on seuraus Bayesin todennäköisyyslauseesta. Toisaalta Popperin ajatus, että tarvitaan vain väärentämistä eikä vahvistusta, on virheellinen. Bayesin lause osoittaa, että väärentäminen on erittäin vahva todiste vahvistukseen verrattuna, mutta väärentäminen on silti luonteeltaan todennäköistä; sitä ei säännellä perustavanlaatuisesti erilaisilla säännöillä, eikä se eroa tällä tavalla vahvistuksesta, kuten Popper väittää.

Siten huomaamme, että monet kognitiivisten tieteiden ilmiöt sekä tutkijoiden käyttämät tilastolliset menetelmät sekä itse tieteellinen menetelmä ovat kaikki Bayesin lauseen erikoistapauksia. Tämä on Bayesin vallankumous.

Tervetuloa Bayesin salaliittoon!

Bayesin todennäköisyyttä käsittelevää kirjallisuutta

2. Taloustieteen Nobel-palkittu Kahneman (ja hänen toverinsa) kuvailee paljon erilaisia ​​Bayesin sovelluksia upeassa kirjassa. Pelkästään lyhyessä yhteenvedossani tästä erittäin suuresta kirjasta laskin 27 mainintaa presbyteriläisen pastorin nimestä. Vähimmäiskaavat. (.. pidin siitä todella. Totta, se on vähän monimutkaista, matematiikkaa on paljon (ja missä olisimme ilman sitä), mutta yksittäiset luvut (esim. luku 4. Tiedot) ovat selkeästi aiheeseen liittyviä. Suosittelen. kaikille, vaikka matematiikka on sinulle vaikeaa, lue joka toinen rivi, ohita matematiikka ja kalasta hyödyllisiä jyviä...

14. (lisäys 15.1.2017), luku Tony Crillyn kirjasta. 50 ideaa, joista sinun tulee tietää. Matematiikka.

Nobel-palkittu fyysikko Richard Feynman, puhuessaan yhdestä erityisen tärkeästä filosofista, sanoi kerran: "Minua ei ärsytä filosofia tieteenä, vaan sen ympärille luotu mahtipontisuus. Kunpa filosofit voisivat nauraa itselleen! Kunpa he voisivat sanoa: "Minä sanon, että se on näin, mutta Von Leipzig ajatteli sen olevan erilaista, ja hän myös tietää siitä jotain." Kunpa he muistaisivat selventää, että se on vain heidän .