whuber

2010-09-06 22:27:02 UTC

view on stackexchange narkive permalink

isoon kysymykseen tulisi liittyä tilastomenetelmien avainkysymyksiä, tai koska tilastot koskevat yksinomaan sovelluksia, sen tulisi koskea sitä, miten tilastoja käytetään yhteiskunnalle tärkeiden ongelmien kanssa.

Tämä luonnehdinta ehdottaa, että seuraavia tulisi sisällyttää suurten ongelmien huomioimiseen:

Kuinka parhaiten suorittaa huumekokeita . Tällä hetkellä klassinen hypoteesitestaus vaatii monia virallisia tutkimuksen vaiheita. Myöhemmissä (vahvistavissa) vaiheissa taloudelliset ja eettiset kysymykset nousevat suuriksi. Voimmeko tehdä paremmin? Pitääkö meidän laittaa satoja tai tuhansia sairaita ihmisiä kontrolliryhmiin ja pitää heidät siellä esimerkiksi tutkimuksen loppuun saakka, vai löydämmekö parempia tapoja tunnistaa todella toimivat hoidot ja toimittaa ne tutkimuksen jäsenille (ja muut) ennemmin?
Selviytyminen tieteellisten julkaisujen puolueellisuudesta . Negatiivisia tuloksia julkaistaan paljon vähemmän yksinkertaisesti siksi, että ne eivät vain saavuta maagista p-arvoa. Kaikkien tieteenalojen on löydettävä parempia tapoja tuoda tieteellisesti tärkeitä eikä vain tilastollisesti merkittäviä tuloksia. (Usean vertailun ongelma ja selviytyminen korkean ulottuvuuden tiedoista ovat tämän ongelman alaluokkia.)
Tilastomenetelmien rajojen tutkiminen ja niiden rajapinnat koneoppimiseen ja koneentunnistukseen . Tietotekniikan väistämätön kehitys tekee aidosta tekoälystä saatavan elämässämme. Kuinka aiomme ohjelmoida keinotekoiset aivot? Mikä rooli tilastollisella ajattelulla ja tilastollisella oppimisella voi olla näiden edistysaskeleiden luomisessa? Kuinka tilastotieteilijät voivat auttaa ajattelemaan keinotekoista kognitiota, keinotekoista oppimista, tutkimaan rajoituksiaan ja edistymään?
Parempien tapojen kehittäminen paikkatietojen analysoimiseksi . Usein väitetään, että suurin osa tai valtaosa tietokannoista sisältää sijaintiviittauksia. Pian monet ihmiset ja laitteet löytyvät reaaliajassa GPS- ja matkapuhelintekniikoiden avulla. Tilastomenetelmät paikkatietojen analysoimiseksi ja hyödyntämiseksi ovat oikeastaan vasta lapsenkengissään (ja ne näyttävät siirtyvän paikkatietojärjestelmiin ja paikkatietojärjestelmiin, joita tyypillisesti käyttävät ei-tilastotieteilijät).

Millä tavoin ihmiset yrittävät ratkaista nämä ongelmat?

@grautur: Se on neljä erinomaista kysymystä (ja paljon muuta, koska vastauksesi koskee jokaista tämän säikeen vastausta). Ne kaikki ansaitsevat monimutkaisia vastauksia, mutta tässä ei tietenkään ole tilaa: yksi kysymys kerrallaan, kiitos!

Ensimmäisestä luotista (lääkekokeet): Jopa ihmisten, jotka muuten eivät ehkä ole kiinnostuneita lääketieteellisistä kokeista, tulisi lukea NYTimes-artikkeli * Uusi huumeiden sekoitus keskustelu kliinisten tutkimusten perussäännöistä * (http://www.nytimes.com/2010/ 09/19 / terveys / tutkimus / 19trial.html? Pagewanted = 1 & _r = 1 & th & emc = th). Tilastollisesti lukutaitoinen lukija näkee välittömästi merkitsemättömät vaikutukset kokeelliseen suunnitteluun ja p-arvojen käyttöön päätöksenteossa. Tässä artikkelissa kuvattu elämän ja kuoleman hämmennys on jossain määrin tilastollinen ratkaisu.

raegtin

2011-07-03 03:03:50 UTC

view on stackexchange narkive permalink

Michael Jordanilla on lyhyt artikkeli nimeltä Mitkä ovat Bayesin tilastojen avoimet ongelmat?, jossa hän kysyi joukkoa tilastotieteilijöitä näkemyksistään tilastojen avoimista ongelmista. Yhteenveto (alias, kopioi ja liitä) hieman täällä, mutta on luultavasti parasta vain lukea alkuperäinen.

Ei-parametrit ja puoliparametrit

Mihin ongelmiin onko Bayesin ei-parametri hyödyllinen ja vaivan arvoinen?
David Dunson: "Ei-parametrisissa Bayes-malleissa on äärettömän monia parametreja ja priorit valitaan tyypillisesti mukavuuden vuoksi hyperparametreillä, jotka on asetettu näennäisesti kohtuullisiksi arvoiksi ilman asianmukaista objektiivista tai subjektiivista perustelua."
"Useat ihmiset panivat merkille, että yksi usein esiintyvän ei-parametrien houkuttelevista sovelluksista on puoliparametrinen päättely, jossa mallin ei-parametrinen komponentti on haitallinen parametri. Nämä ihmiset kokivat, että olisi toivottavaa lihoittaa esiin Bayesin semiparametrian (usein) teoria. "

Priors

" Esittely on edelleen merkittävä avoimien ongelmien lähde. "
'Aad van der Vaart käänsi objektiivisen Bayesin päähänsä ja viittasi teorian puutteeseen tilanteissa, joissa joku haluaa, että priori tulee läpi takaosan "toisin kuin" vain Bayesin lähestymistavan tarjoaminen tasoittamiseen ".

Bayesilaiset / frekvencistiset suhteet

"Monet vastaajat ilmaisivat haluavansa kaataa edelleen Bayesin / frekvenssisuhteita. Tämä kävi yleisimmin esille korkea-ulotteisten mallien ja tietojen yhteydessä, joissa subjektiivisia lähestymistapoja priorien määrittelyyn on vaikea toteuttaa, mutta mukavuuspriorit voivat olla (erittäin) harhaanjohtavia. "
'Jotkut vastaajat käyttivät asymptoottista teoriaa, joka saattaisi paljastaa täydellisemmin Bayesin menetelmien oletetut edut; esim. David Dunson: "Usein taajuusmuuttajan optimaalinen nopeus saadaan menetelmillä, joilla on selvästi paljon huonompi äärellisissä näytteissä kuin Bayesin lähestymistavoissa." / li>

Laskenta ja tilastot

Alan Gelfand: "Jos MCMC ei ole enää elinkelpoinen ihmisten haluamien ongelmien kannalta, mikä on INLA: n, variaatiomenetelmien rooli, ABC-lähestymistapojen käytöstä? "
" Useat vastaajat pyysivät laskennallisen tieteen ja tilastotieteen perusteellisempaa integrointia huomauttamalla, että johtopäätökset, jotka voidaan saavuttaa missä tahansa tilanteessa, ovat yhdessä mallin funktio, Aikaisemmat, tiedot ja laskennalliset resurssit ja toivoen, että näiden määrien välisiä kompromisseja hallitaan selkeämmin. Rob Kass toi esiin mahdollisuuden käsittää "pääteltävä ratkaisukyky", jos joidenkin ongelmien ymmärretään olevan toivottomia (esim. , mallin valinta regressiossa, jossa "vaatimattomille määrille ei-triviaalisen melun kohteena olevia tietoja on mahdotonta saada hyödyllisiä luottamusvälejä regressiokertoimista, kun muuttujia on paljon, joiden läsnäoloa tai poissaoloa mallissa ei ole määritelty a priori") ja missä on muita ongelmia ("tietyt funktiot, joille on olemassa hyödyllisiä luotettavuusväliä"), joihin on toivoa. "
" Useat vastaajat anteeksi anteeksi tietystä epämääräisyydestä, mutta tunsivat, että suuri tietojen määrä ei välttämättä tarkoita suurta laskentamäärää; pikemminkin, että jotenkin suurissa tiedoissa olevan pääteltävän vahvuuden pitäisi siirtyä algoritmiin ja sen pitäisi olla mahdollista tehdä vähemmän laskentavaiheita tyydyttävän (likimääräisen) pääteltävän ratkaisun saavuttamiseksi. "

Malli Valinta ja hypoteesien testaus

George Casella: "Teemme nyt mallin valinnan, mutta Bayesilaiset eivät näytä huolehtivan ominaisuuksista, jotka perustuvat päätelmiin valitulle mallille. Entä jos se on väärin? Mitä seurauksia on luotettavien alueiden määrittämisestä tietylle parametrille $ β_1 $ , kun olet valinnut väärän mallin? Voimmeko käyttää menettelyjä, joilla on jonkinlainen takuu? "
Tarvitsetko lisää työtä päätöksenteon teoreettisten perusteiden parissa mallin valinnassa.
David Spiegelhalter: "Kuinka parhaiten tehdä ennakko- / tietoristiriitojen tarkastaminen olennaiseksi osaksi Bayesin analyysiä?"
Andrew Gelman: "Mallien tarkistuksessa keskeinen avoin ongelma on graafisten työkalujen kehittäminen mallien ymmärtämiseksi ja vertailemiseksi. Grafiikka ei ole vain raakatietoa; monimutkaiset Bayesin mallit antavat mahdollisuuden parempaan ja tehokkaampaan tutkimustietojen analyysiin."

russellpierce

2010-09-06 00:19:03 UTC

view on stackexchange narkive permalink

En ole varma, kuinka suuret ne ovat, mutta tilastoissa on Wikipedia-sivu ratkaisemattomille ongelmille. Heidän luettelo sisältää:

Päätelmät ja testaus

Systemaattiset virheet

Graybill – Deal-estimaattorin hyväksyttävyys

Riippuvien p-arvojen yhdistäminen meta-analyysissä

Behrens – Fisher-ongelma

Useita vertailuja

Avoimet ongelmat Bayesin tilastoissa

Kokeellinen suunnittelu

Latinalaisen neliön ongelmat

Enemmän ongelmia filosofinen luonne

Lajiongelman otanta

Doomsday-argumentti

Vaihdon paradoksi

raegtin

2010-09-05 10:23:26 UTC

view on stackexchange narkive permalink

Esimerkkinä etsimieni vastausten yleisestä hengestä (ellei aivan tarkasta) löysin David Donohon inspiroiman "Hilbert's 23" -luennon "Math Challenges of the 21st Century" -konferenssissa:

Korkean ulottuvuuden tietojen analysointi: ulottuvuuden kiroukset ja siunaukset

Voinko ehdottaa, että muokkaat pääkysymystäsi sisällyttämään nämä tiedot?

Robby McKilliam

2010-09-05 13:36:31 UTC

view on stackexchange narkive permalink

Mathoverflow'lla on samanlainen kysymys suurista todennäköisyysteorion ongelmista.

Tältä sivulta näyttää siltä, että suurimmat kysymykset liittyvät itse välttämään satunnaisia kävelyjä ja perkolaatioita.

Luulen, että tilastot ovat kuitenkin erillinen alue todennäköisyysteoriasta.

@raegtin - En usko, että todennäköisyysteoria on erillinen tilastoista, se on pikemminkin teoria. "Tilastot" on todennäköisyysteorian soveltaminen pääteltäviin ongelmiin (eli käytäntöön).

Charlie

2010-09-06 00:18:58 UTC

view on stackexchange narkive permalink

Voit tutustua Harvardin aiemmin tänä vuonna järjestettyyn "Hard Problems in the Social Sciences" -kokoukseen. Useat näistä keskusteluista tarjoavat kysymyksiä tilastojen ja mallintamisen käytöstä yhteiskuntatieteissä.

pmgjones

2010-09-05 16:43:36 UTC

view on stackexchange narkive permalink

Vastaukseni olisi taistelu usein ja Bayesin tilastojen välillä. Kun ihmiset kysyvät sinulta, mihin "uskot", se ei ole hyvä! Erityisesti tieteelliseen kurinalaisuuteen.

Ei ole mitään vikaa siinä, että tutkija "uskoo" johonkin, varsinkin kun Bayesin todennäköisyys edustaa uskomuksen tai tiedon määrää jonkin ehdotuksen totuudesta.

... Ongelma syntyy vain, kun tiedemies ei pysty erottamaan uskoa ja tosiasiaa. Mikään epätieteellinen ei ole siinä uskossa, että Bayesin tai usein esiintyvät tilastot olisivat parempia, koska ei ole objektiivista testiä, joka ratkaisisi vastauksen (AFAIK), joten valinta on suurelta osin subjektiivista ja / tai "hevoset kursseille".

@propofol - Olen samaa mieltä siitä, että sana "usko" ei ole asianmukainen käsite käytettäväksi tilastoissa - sillä on väärät merkitykset. Tiedot ovat mielestäni paljon sopivampi sana (eli "mitä tietoja sinulla on?"). Se ei muuta Bayesin analyysin matematiikkaa tai optimaalisuuslausekkeita, mutta se antaa niille oikean merkityksen siitä, miten niitä todella käytetään. esim. fyysisen teorian tai syy-mekanismin tuntemus on tietoa eikä uskoa.