Kysymys:
Mitkä ovat tilastojen "suuret ongelmat"?
raegtin
2010-09-05 09:16:30 UTC
view on stackexchange narkive permalink

Matematiikalla on kuuluisat Millennium-ongelmat (ja historiallisesti Hilbertin 23), kysymykset, jotka auttoivat muokkaamaan kentän suuntaa.

Minulla ei kuitenkaan ole juurikaan aavistustakaan, mitä Riemannin hypoteesit ja P vs. NP tilastoista olisivat.

Joten mitkä ovat tilastojen kattavat avoimet kysymykset?

Muokattu lisätä: Esimerkkinä etsimäni vastauksen yleisestä hengestä (ellei aivan konkreettisuudesta) löysin David Donohon innoittaman "Hilbert's 23" -luennon "Math Challenges of the 21st Century" "-konferenssi: korkean ulottuvuuden datan analyysi: ulottuvuuden kiroukset ja siunaukset

Joten mahdollinen vastaus voisi puhua big datasta ja miksi se on tärkeää, tilastohaasteet ovat korkeat - ulottuvuustietoja ja menetelmiä, jotka on kehitettävä, tai kysymyksiä, joihin on vastattava ongelman ratkaisemiseksi.

Kiitos lähettämästäsi tätä. Se on tärkeä (ja mahdollisesti inspiroiva) keskustelu.
Seitsemän vastused:
whuber
2010-09-06 22:27:02 UTC
view on stackexchange narkive permalink

isoon kysymykseen tulisi liittyä tilastomenetelmien avainkysymyksiä, tai koska tilastot koskevat yksinomaan sovelluksia, sen tulisi koskea sitä, miten tilastoja käytetään yhteiskunnalle tärkeiden ongelmien kanssa.

Tämä luonnehdinta ehdottaa, että seuraavia tulisi sisällyttää suurten ongelmien huomioimiseen:

  • Kuinka parhaiten suorittaa huumekokeita . Tällä hetkellä klassinen hypoteesitestaus vaatii monia virallisia tutkimuksen vaiheita. Myöhemmissä (vahvistavissa) vaiheissa taloudelliset ja eettiset kysymykset nousevat suuriksi. Voimmeko tehdä paremmin? Pitääkö meidän laittaa satoja tai tuhansia sairaita ihmisiä kontrolliryhmiin ja pitää heidät siellä esimerkiksi tutkimuksen loppuun saakka, vai löydämmekö parempia tapoja tunnistaa todella toimivat hoidot ja toimittaa ne tutkimuksen jäsenille (ja muut) ennemmin?

  • Selviytyminen tieteellisten julkaisujen puolueellisuudesta . Negatiivisia tuloksia julkaistaan ​​paljon vähemmän yksinkertaisesti siksi, että ne eivät vain saavuta maagista p-arvoa. Kaikkien tieteenalojen on löydettävä parempia tapoja tuoda tieteellisesti tärkeitä eikä vain tilastollisesti merkittäviä tuloksia. (Usean vertailun ongelma ja selviytyminen korkean ulottuvuuden tiedoista ovat tämän ongelman alaluokkia.)

  • Tilastomenetelmien rajojen tutkiminen ja niiden rajapinnat koneoppimiseen ja koneentunnistukseen . Tietotekniikan väistämätön kehitys tekee aidosta tekoälystä saatavan elämässämme. Kuinka aiomme ohjelmoida keinotekoiset aivot? Mikä rooli tilastollisella ajattelulla ja tilastollisella oppimisella voi olla näiden edistysaskeleiden luomisessa? Kuinka tilastotieteilijät voivat auttaa ajattelemaan keinotekoista kognitiota, keinotekoista oppimista, tutkimaan rajoituksiaan ja edistymään?

  • Parempien tapojen kehittäminen paikkatietojen analysoimiseksi . Usein väitetään, että suurin osa tai valtaosa tietokannoista sisältää sijaintiviittauksia. Pian monet ihmiset ja laitteet löytyvät reaaliajassa GPS- ja matkapuhelintekniikoiden avulla. Tilastomenetelmät paikkatietojen analysoimiseksi ja hyödyntämiseksi ovat oikeastaan ​​vasta lapsenkengissään (ja ne näyttävät siirtyvän paikkatietojärjestelmiin ja paikkatietojärjestelmiin, joita tyypillisesti käyttävät ei-tilastotieteilijät).

Millä tavoin ihmiset yrittävät ratkaista nämä ongelmat?
@grautur: Se on neljä erinomaista kysymystä (ja paljon muuta, koska vastauksesi koskee jokaista tämän säikeen vastausta). Ne kaikki ansaitsevat monimutkaisia ​​vastauksia, mutta tässä ei tietenkään ole tilaa: yksi kysymys kerrallaan, kiitos!
Ensimmäisestä luotista (lääkekokeet): Jopa ihmisten, jotka muuten eivät ehkä ole kiinnostuneita lääketieteellisistä kokeista, tulisi lukea NYTimes-artikkeli * Uusi huumeiden sekoitus keskustelu kliinisten tutkimusten perussäännöistä * (http://www.nytimes.com/2010/ 09/19 / terveys / tutkimus / 19trial.html? Pagewanted = 1 & _r = 1 & th & emc = th). Tilastollisesti lukutaitoinen lukija näkee välittömästi merkitsemättömät vaikutukset kokeelliseen suunnitteluun ja p-arvojen käyttöön päätöksenteossa. Tässä artikkelissa kuvattu elämän ja kuoleman hämmennys on jossain määrin tilastollinen ratkaisu.
raegtin
2011-07-03 03:03:50 UTC
view on stackexchange narkive permalink

Michael Jordanilla on lyhyt artikkeli nimeltä Mitkä ovat Bayesin tilastojen avoimet ongelmat?, jossa hän kysyi joukkoa tilastotieteilijöitä näkemyksistään tilastojen avoimista ongelmista. Yhteenveto (alias, kopioi ja liitä) hieman täällä, mutta on luultavasti parasta vain lukea alkuperäinen.

Ei-parametrit ja puoliparametrit

  • Mihin ongelmiin onko Bayesin ei-parametri hyödyllinen ja vaivan arvoinen?
  • David Dunson: "Ei-parametrisissa Bayes-malleissa on äärettömän monia parametreja ja priorit valitaan tyypillisesti mukavuuden vuoksi hyperparametreillä, jotka on asetettu näennäisesti kohtuullisiksi arvoiksi ilman asianmukaista objektiivista tai subjektiivista perustelua."
  • "Useat ihmiset panivat merkille, että yksi usein esiintyvän ei-parametrien houkuttelevista sovelluksista on puoliparametrinen päättely, jossa mallin ei-parametrinen komponentti on haitallinen parametri. Nämä ihmiset kokivat, että olisi toivottavaa lihoittaa esiin Bayesin semiparametrian (usein) teoria. "

Priors

  • " Esittely on edelleen merkittävä avoimien ongelmien lähde. "
  • 'Aad van der Vaart käänsi objektiivisen Bayesin päähänsä ja viittasi teorian puutteeseen tilanteissa, joissa joku haluaa, että priori tulee läpi takaosan "toisin kuin" vain Bayesin lähestymistavan tarjoaminen tasoittamiseen ".

Bayesilaiset / frekvencistiset suhteet

  • "Monet vastaajat ilmaisivat haluavansa kaataa edelleen Bayesin / frekvenssisuhteita. Tämä kävi yleisimmin esille korkea-ulotteisten mallien ja tietojen yhteydessä, joissa subjektiivisia lähestymistapoja priorien määrittelyyn on vaikea toteuttaa, mutta mukavuuspriorit voivat olla (erittäin) harhaanjohtavia. "
  • 'Jotkut vastaajat käyttivät asymptoottista teoriaa, joka saattaisi paljastaa täydellisemmin Bayesin menetelmien oletetut edut; esim. David Dunson: "Usein taajuusmuuttajan optimaalinen nopeus saadaan menetelmillä, joilla on selvästi paljon huonompi äärellisissä näytteissä kuin Bayesin lähestymistavoissa." / li>

Laskenta ja tilastot

  • Alan Gelfand: "Jos MCMC ei ole enää elinkelpoinen ihmisten haluamien ongelmien kannalta, mikä on INLA: n, variaatiomenetelmien rooli, ABC-lähestymistapojen käytöstä? "
  • " Useat vastaajat pyysivät laskennallisen tieteen ja tilastotieteen perusteellisempaa integrointia huomauttamalla, että johtopäätökset, jotka voidaan saavuttaa missä tahansa tilanteessa, ovat yhdessä mallin funktio, Aikaisemmat, tiedot ja laskennalliset resurssit ja toivoen, että näiden määrien välisiä kompromisseja hallitaan selkeämmin. Rob Kass toi esiin mahdollisuuden käsittää "pääteltävä ratkaisukyky", jos joidenkin ongelmien ymmärretään olevan toivottomia (esim. , mallin valinta regressiossa, jossa "vaatimattomille määrille ei-triviaalisen melun kohteena olevia tietoja on mahdotonta saada hyödyllisiä luottamusvälejä regressiokertoimista, kun muuttujia on paljon, joiden läsnäoloa tai poissaoloa mallissa ei ole määritelty a priori") ja missä on muita ongelmia ("tietyt funktiot, joille on olemassa hyödyllisiä luotettavuusväliä"), joihin on toivoa. "
  • " Useat vastaajat anteeksi anteeksi tietystä epämääräisyydestä, mutta tunsivat, että suuri tietojen määrä ei välttämättä tarkoita suurta laskentamäärää; pikemminkin, että jotenkin suurissa tiedoissa olevan pääteltävän vahvuuden pitäisi siirtyä algoritmiin ja sen pitäisi olla mahdollista tehdä vähemmän laskentavaiheita tyydyttävän (likimääräisen) pääteltävän ratkaisun saavuttamiseksi. "

Malli Valinta ja hypoteesien testaus

  • George Casella: "Teemme nyt mallin valinnan, mutta Bayesilaiset eivät näytä huolehtivan ominaisuuksista, jotka perustuvat päätelmiin valitulle mallille. Entä jos se on väärin? Mitä seurauksia on luotettavien alueiden määrittämisestä tietylle parametrille $ β_1 $ , kun olet valinnut väärän mallin? Voimmeko käyttää menettelyjä, joilla on jonkinlainen takuu? "
  • Tarvitsetko lisää työtä päätöksenteon teoreettisten perusteiden parissa mallin valinnassa.
  • David Spiegelhalter: "Kuinka parhaiten tehdä ennakko- / tietoristiriitojen tarkastaminen olennaiseksi osaksi Bayesin analyysiä?"
  • Andrew Gelman: "Mallien tarkistuksessa keskeinen avoin ongelma on graafisten työkalujen kehittäminen mallien ymmärtämiseksi ja vertailemiseksi. Grafiikka ei ole vain raakatietoa; monimutkaiset Bayesin mallit antavat mahdollisuuden parempaan ja tehokkaampaan tutkimustietojen analyysiin."
russellpierce
2010-09-06 00:19:03 UTC
view on stackexchange narkive permalink

En ole varma, kuinka suuret ne ovat, mutta tilastoissa on Wikipedia-sivu ratkaisemattomille ongelmille. Heidän luettelo sisältää:

Päätelmät ja testaus

  • Systemaattiset virheet
  • Graybill – Deal-estimaattorin hyväksyttävyys
  • Riippuvien p-arvojen yhdistäminen meta-analyysissä
  • Behrens – Fisher-ongelma
  • Useita vertailuja
  • Avoimet ongelmat Bayesin tilastoissa

Kokeellinen suunnittelu

  • Latinalaisen neliön ongelmat

Enemmän ongelmia filosofinen luonne

  • Lajiongelman otanta
  • Doomsday-argumentti
  • Vaihdon paradoksi
raegtin
2010-09-05 10:23:26 UTC
view on stackexchange narkive permalink

Esimerkkinä etsimieni vastausten yleisestä hengestä (ellei aivan tarkasta) löysin David Donohon inspiroiman "Hilbert's 23" -luennon "Math Challenges of the 21st Century" -konferenssissa:

Korkean ulottuvuuden tietojen analysointi: ulottuvuuden kiroukset ja siunaukset

Voinko ehdottaa, että muokkaat pääkysymystäsi sisällyttämään nämä tiedot?
Robby McKilliam
2010-09-05 13:36:31 UTC
view on stackexchange narkive permalink

Mathoverflow'lla on samanlainen kysymys suurista todennäköisyysteorion ongelmista.

Tältä sivulta näyttää siltä, ​​että suurimmat kysymykset liittyvät itse välttämään satunnaisia ​​kävelyjä ja perkolaatioita.

Luulen, että tilastot ovat kuitenkin erillinen alue todennäköisyysteoriasta.
@raegtin - En usko, että todennäköisyysteoria on erillinen tilastoista, se on pikemminkin teoria. "Tilastot" on todennäköisyysteorian soveltaminen pääteltäviin ongelmiin (eli käytäntöön).
Charlie
2010-09-06 00:18:58 UTC
view on stackexchange narkive permalink

Voit tutustua Harvardin aiemmin tänä vuonna järjestettyyn "Hard Problems in the Social Sciences" -kokoukseen. Useat näistä keskusteluista tarjoavat kysymyksiä tilastojen ja mallintamisen käytöstä yhteiskuntatieteissä.

pmgjones
2010-09-05 16:43:36 UTC
view on stackexchange narkive permalink

Vastaukseni olisi taistelu usein ja Bayesin tilastojen välillä. Kun ihmiset kysyvät sinulta, mihin "uskot", se ei ole hyvä! Erityisesti tieteelliseen kurinalaisuuteen.

Ei ole mitään vikaa siinä, että tutkija "uskoo" johonkin, varsinkin kun Bayesin todennäköisyys edustaa uskomuksen tai tiedon määrää jonkin ehdotuksen totuudesta.
... Ongelma syntyy vain, kun tiedemies ei pysty erottamaan uskoa ja tosiasiaa. Mikään epätieteellinen ei ole siinä uskossa, että Bayesin tai usein esiintyvät tilastot olisivat parempia, koska ei ole objektiivista testiä, joka ratkaisisi vastauksen (AFAIK), joten valinta on suurelta osin subjektiivista ja / tai "hevoset kursseille".
@propofol - Olen samaa mieltä siitä, että sana "usko" ei ole asianmukainen käsite käytettäväksi tilastoissa - sillä on väärät merkitykset. Tiedot ovat mielestäni paljon sopivampi sana (eli "mitä tietoja sinulla on?"). Se ei muuta Bayesin analyysin matematiikkaa tai optimaalisuuslausekkeita, mutta se antaa niille oikean merkityksen siitä, miten niitä todella käytetään. esim. fyysisen teorian tai syy-mekanismin tuntemus on tietoa eikä uskoa.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...