Vraag:
Waarom is de mediane leeftijd een betere statistiek dan de gemiddelde leeftijd?
Lazer
2010-09-11 01:26:57 UTC
view on stackexchange narkive permalink

alt text

alt text

mediaan lijkt duidelijk de statistiek bij uitstek als het gaat om leeftijden.

Ik kan mezelf niet uitleggen waarom rekenkundig gemiddelde een slechtere statistiek zou zijn. Waarom is het zo?

Oorspronkelijk hier gepost omdat ik niet wist dat deze site bestond.

Het lijkt erop dat u al een redelijk antwoord had op de andere site?
@Shane: Maar misschien bieden verschillende sites het potentieel om vanuit verschillende gezichtspunten verschillende antwoorden te verzamelen?
Veertien antwoorden:
whuber
2010-09-11 03:17:24 UTC
view on stackexchange narkive permalink

Statistieken geven naar mijn mening geen goed antwoord op deze vraag. Een gemiddelde kan bijvoorbeeld relevant zijn in sterftestudies, maar leeftijden zijn niet zo eenvoudig te meten als u misschien denkt. Ouderen, analfabeten en mensen in sommige derdewereldlanden hebben de neiging hun leeftijd af te ronden op bijvoorbeeld een veelvoud van 5 of 10.

De mediaan is beter bestand tegen dergelijke fouten dan het gemiddelde. Bovendien zijn de gemiddelde leeftijden doorgaans 20-40, maar mensen kunnen 100 jaar of ouder worden (een toenemend en merkbaar deel van de bevolking van moderne landen leeft nu boven de 100). Mensen van deze leeftijd hebben 1,5 tot 4 keer meer invloed op het gemiddelde dan op de mediaan in vergelijking met zeer jonge mensen. De mediaan is dus een iets actuelere statistiek over de leeftijdsverdeling van een land en is iets onafhankelijker van sterftecijfers en levensverwachting dan het gemiddelde is.

Ten slotte geeft de mediaan ons een iets beter beeld van hoe de leeftijdsverdeling er zelf uitziet: als je bijvoorbeeld een mediaan van 35 ziet, weet je dat de helft van de bevolking ouder is dan 35 jaar en kun je enkele dingen afleiden over geboortecijfers, leeftijd van ouders, enzovoort ; maar als het gemiddelde 35 is, kun je niet zoveel zeggen, omdat die 35 kan worden beïnvloed door bijvoorbeeld een grote populatie-uitstulping op 70-jarige leeftijd, of misschien een bevolkingskloof in een bepaalde leeftijdscategorie als gevolg van aan een oude oorlog of epidemie.

Om demografische, niet statistische, redenen lijkt een mediaan de rol van een omnibuswaarde dus meer waard voor het samenvatten van de leeftijden van relatief grote populaties mensen.

Ik denk dat je bedoelde "De mediaan is beter bestand tegen dergelijke fouten dan het gemiddelde". Ik ben het echter eens met uw opmerkingen, en ik geloof dat de Amerikaanse volkstelling doorgaans de mediaan vermeldt voor veel categorieën in officiële rapporten (niet alleen de leeftijd) om in principe allemaal dezelfde redenen. Inkomen is misschien zelfs een beter voorbeeld dan leeftijd om dergelijke punten te illustreren.
U hebt een feit - het gemiddelde is gevoelig voor uitschieters / scheve verdelingen - vervangen door een waardeverklaring over de voorkeur voor de mediaan boven het gemiddelde. In feite heb je betoogd dat het gemiddelde niet de voorkeur verdient omdat het niet de mediaan is (net zoals degenen die zeggen dat je het gemiddelde alleen op symmetrische verdelingen zou moeten gebruiken, d.w.z. wanneer het gemiddelde en de mediaan gelijk zijn).
@Alexis Ik volg uw kritiek niet. Kunt u dit toelichten? Dit antwoord biedt tenslotte veel meer dan "een feit": het bevat er nogal wat, samen met een analyse van hun implicaties. En specifiek naar welke "waardeverklaring" verwijst u?
Mijn zorg is dat feitelijke kenmerken van het gemiddelde en de mediaan (bijv. De eerste is gevoelig voor uitschieters, namelijk "Mensen van een dergelijke leeftijd hebben 1,5 tot 4 keer zoveel invloed op het gemiddelde dan op de mediaan in vergelijking met zeer jonge mensen.") worden vertaald in * waarden * over hun waarde, namelijk "de mediaan geeft ons een iets beter beeld van hoe de leeftijdsverdeling er zelf uitziet". Het eerste is een feit, het latere een waardering van dat feit. Ik maak me zorgen over de omschakeling tussen de twee. Meer: http://stats.stackexchange.com/questions/96371/should-the-mean-be-used-when-data-are-skewed
@Alexis Bedankt. Ik heb nog steeds moeite om te begrijpen wat je bedoelt met 'waarden'. Ik heb een verklaring afgelegd over de trouw waarmee statistieken ons informatie geven over distributies, niet over hoeveel mensen geven om verschillende leeftijden (dat is wat 'waarde' normaal gesproken in een dergelijke context zou betekenen). Ik ondersteun die stelling met een standaard maatstaf voor gevoeligheid (de invloed). Als u mij zou kunnen helpen uw bezorgdheid beter te begrijpen, zou ik het bericht in dat opzicht graag verduidelijken. (Sommige respondenten op de gekoppelde vraag hebben vergelijkbare problemen om uw bezorgdheid te begrijpen.)
@whuber (bedankt voor je geduld), het is het gebruik van woorden als "beter" in het citaat in mijn vorige opmerking waarvan ik denk dat het hier de connotatie "hoeveel mensen geven om" met zich meebrengt. Ik denk dat ik probeer de vraag te stellen "bedoelen we niet anders, niet beter?"
@Alexis Houd er rekening mee dat deze vraag niet gaat over het gebruik van gemiddelde of mediaan in het algemeen, maar over hun nut bij het beoordelen van * leeftijdsverdelingen. * Houd er rekening mee dat mijn antwoord vanaf het begin erkent dat er geen wondermiddel is: nuttig en relevant * voor specifieke doeleinden. * Ik denk niet dat ik de zonde heb begaan waarvan u mij beschuldigt, namelijk de vage toepassing van 'beter': ik heb zorgvuldig bepaald * hoe * de mediaan en het gemiddelde verschillen * in deze context *. Het klinkt alsof je een probleem hebt met betrekking tot middelen * versus * medianen, maar dit is niet de plek om het te doen.
Dirk Eddelbuettel
2010-09-11 01:48:50 UTC
view on stackexchange narkive permalink

John gaf je een goed antwoord op de zustersite.

Een aspect dat hij niet expliciet noemde, is robuustheid: mediaan als maat voor centrale locatie doet het beter dan het gemiddelde omdat het een hoger uitvalpunt heeft (van 50%) terwijl het gemiddelde heeft een zeer lage waarde van 0 (zie wikipedia voor details).

Intuïtief betekent dit dat individuele slechte waarnemingen de mediaan niet scheeftrekken, terwijl dat wel het geval is voor het gemiddelde.

Uitsplitsing is geen probleem voor een beschrijvende statistiek van een hele populatie.
John D. Cook
2010-09-11 19:20:44 UTC
view on stackexchange narkive permalink

Hier is mijn antwoord voor het eerst gepost op math.stackexchange:

Mediaan is wat veel mensen eigenlijk in gedachten hebben als ze 'gemeen' zeggen. Het is gemakkelijker om de mediaan te interpreteren: de helft van de bevolking is ouder dan deze leeftijd en de helft is jonger. Gemiddeld is iets subtieler.

Mensen zoeken naar symmetrie en leggen soms symmetrie op als die er niet is. De leeftijdsverdeling in een populatie is verre van symmetrisch, dus het gemiddelde kan misleidend zijn. Leeftijdsverdelingen zijn zoiets als een piramide. Veel kinderen, niet veel ouderen. (Of zo is het tenminste in een soort stabiele toestand. In de VS heeft de babyboomgeneratie van na de Tweede Wereldoorlog deze verdeling naarmate ze ouder worden verstoord. Sommige mensen noemen dit 'squaring the pyramid' omdat de boomers de bovenkant van de piramide breder dan in het verleden.)

Met een asymmetrische verdeling kan het beter zijn om de mediaan te rapporteren omdat het een symmetrische statistiek is. De mediaan is symmetrisch, zelfs als de steekproefverdeling dat niet is.

In welke zin is de mediaan een "symmetrische" statistiek? Het is zeker niet zo dat distributies de neiging hebben symmetrisch te zijn verdeeld over hun medianen (noch over hun middelen). Als je alleen bedoelt wat je schreef in een andere opmerking dat de "mediaan de populatie in tweeën splitst" (die * de mediaan definieert), klinkt je argument rond: de mediaan is goed omdat de mediaan de mediaan is!
John
2010-09-11 05:30:30 UTC
view on stackexchange narkive permalink

Waarom is een bijl beter dan een bijl?

Dat is vergelijkbaar met uw vraag. Ze bedoelen en doen verschillende dingen. Als iemand het heeft over medianen, dan is het verhaal dat ze proberen over te brengen, het model dat ze proberen toe te passen op de gegevens, anders dan dat met middelen.

ars
2010-09-12 10:01:58 UTC
view on stackexchange narkive permalink

Neem voor een concreet voorbeeld de gemiddelde leeftijden voor Congo (DRC) en Japan. De ene is verwoest door een burgeroorlog, de andere is goed ontwikkeld met een vergrijzende bevolking. Het gemiddelde is niet erg interessant voor een vergelijking tussen appels en appels. Aan de andere kant kan de mediaan informatief zijn als maat voor de centrale tendens, aangezien we per definitie de helft boven, de helft onder hebben. Het wikipedia-artikel over Bevolkingspiramide zou verhelderend kunnen zijn (zie de secties over uitpuilende jongeren, vergrijzing).

Henry
2011-03-27 10:39:31 UTC
view on stackexchange narkive permalink

Ik denk niet dat er een goede beschrijvende reden is om mediaan boven gemiddeld te kiezen voor leeftijdsverdelingen. Er is een praktisch aspect bij het vergelijken van gerapporteerde gegevens.

Veel landen rapporteren hun bevolking in leeftijdsintervallen van 5 jaar met de bovenste band open. Dit veroorzaakt enige moeilijkheden bij het berekenen van het gemiddelde uit de intervallen, vooral voor het jongste interval (beïnvloed door kindersterfte), het bovenste "interval" (wat is het gemiddelde van een 80+ "interval"?), En de bijna top-intervallen ( het gemiddelde van elk interval is meestal lager dan het midden).

Het is veel gemakkelijker om de mediaan te schatten door te interpoleren binnen het mediaaninterval, vaak benaderend door een vlakke of trapeziumvormige leeftijdsverdeling in dat interval aan te nemen (sterftecijfers zijn in veel landen relatief laag rond de mediane leeftijd, dit is een redelijkere benadering dan voor jong of oud).

Richard E. Gilder
2012-01-02 21:18:02 UTC
view on stackexchange narkive permalink

Opslagplaatsen voor volksgezondheidsgegevens in de Verenigde Staten evolueren naar een AGE in jaren-indeling van stappen van vijf jaar vanwege de impact van de HIPAA-voorschriften met betrekking tot het opzettelijk verblinden en maskeren van gegevens om redenen van persoonlijke privacy.

Gezien deze uitdaging voor wat was in het verleden (vóór HIPAA) een redelijk schaalniveau van meetgegevenselement op basis van het verschil tussen geboortedatum en overlijdensdatum, moeten we AGE wellicht heroverwegen als een schaalvariabele die kan überhaupt parametrisch worden beschreven in datasets over de volksgezondheid, ten gunste van modellen die AGE op een niet-parametrische manier beschrijven, als een ordinaal meetniveau. Ik weet dat dit voor veel facties binnen de biomedische informatica-gemeenschap misschien "overdreven" lijkt, maar dit idee kan enige verdienste hebben in termen van "interpretatie", zoals beschreven in de opmerkingen hierboven.

Hoe zit het met alle analytische kracht die beschikbaar is voor de niet-parametrische benaderingen? Ja, het is waar dat ieder van ons bijna universeel zal proberen GLM-technieken (algemeen lineair model) toe te passen op een variabele die zichzelf aan ons presenteert in distributies die zich gedragen zoals AGE.

Tegelijkertijd moet rekening worden gehouden met de vorm van die distributie en hoe die vorm wordt bepaald door interactie-effecten met meerdere dimensies op multidimensionale centroïden en subgroepcentroïden die in de distributie aanwezig zijn. Wat te doen met deze zeer complexe datasets?

Wanneer een gegevenselement niet voldoet aan de "aannames van het model", scannen we progressief over (ik zei over, niet naar beneden; we zouden gelijke kansen moeten zijn als werkgevers van methode, elke tool komt uit de fabriek met vorm volgt functieregels) de lijst met andere mogelijke modellen om degenen te vinden die "niet falen" de aannames testen.

In het huidige formaat in datasets over volksgezondheid, moeten we echt (als een datavisualisatiegemeenschap) komen met een meer standaardmodel voor het omgaan met AGE in stappen van vijf jaar (5YI). Mijn stem voor datavisualisatie van AGE (gezien het nieuwe 5YI-formaat) is om histogrammen en box- en whisker-plots te gebruiken. Ja, dit betekent de mediaan. (Geen woordspeling bedoeld!)

Soms zegt een foto echt meer dan duizend woorden, en is een samenvatting een samenvatting van duizend woorden. De box and whisker-plot toont de "vorm" van de distributie als een betekenisvolle symbolische weergave van het histogram met een bijna iconisch resolutieniveau. Het vergelijken van de verdelingen van vijfjarige leeftijdsverhogingen door 'naast elkaar' box- en whisker-plots weer te geven, waar men onmiddellijk visueel patronen van 75e tot 50e (mediaan) kan vergelijken met lagere 25e ntiles, zou een elegante 'universele standaard' opleveren voor het vergelijken de wereld. Voor degenen onder ons die blijven genieten van de sensatie van dataweergave door de tekstuele mechanica van tabelweergave, kan het 'stengel en blad'-diagram ook nuttig zijn wanneer het wordt gebruikt als een geanimeerd visueel grafisch element in een' sparkline'-benadering die variatie weergeeft van de vormen van distributies in de tijd.

AGE is volwassen geworden. Het moet verder worden onderzocht met de krachtigere rekenalgoritmen die nu beschikbaar zijn.

Dit is een goed geschreven bericht, maar het lijkt geen verband te houden met de oorspronkelijke vraag.
Ik denk dat het indirect maar op gepaste wijze de schijnbare bedoeling van de vraag aanpakt, @Andy. De eventuele fout ligt in de vraag zelf, die dubbelzinnig is omdat deze niet aangeeft in welke zin een gemiddelde "slechter" zou kunnen zijn dan een mediaan. Een goed antwoord moet dit dus onderzoeken en nadenken over het doel van het samenvatten van een leeftijdsverdeling met één statistiek. Hier leidt dit natuurlijk tot een discussie over wat een "leeftijd" zou kunnen betekenen en hoe passend leeftijdsverdelingen kunnen worden vergeleken.
Emil Friedman
2012-05-23 20:34:40 UTC
view on stackexchange narkive permalink

Om een ​​bruikbaar antwoord te geven op de oorspronkelijke vraag, moeten we de vraag achter de vraag kennen. Met andere woorden: "Waarom wil je een soort samenvattende statistiek waarin de leeftijdsverdeling van verschillende landen wordt vergeleken?" Voor sommige vragen is de mediaan wellicht het nuttigst. Het gemiddelde is misschien het nuttigst voor anderen. En er zijn waarschijnlijk vragen waarbij "percentage boven (of onder) een bepaalde leeftijd" de meest bruikbare statistiek is.

Mike Dunlavey
2010-09-14 05:23:26 UTC
view on stackexchange narkive permalink

Je krijgt hier goede antwoorden, maar laat me gewoon mijn 2 cent optellen. Ik werk in farmacometrie, dat zich bezighoudt met zaken als bloedvolume, eliminatiesnelheid, basisniveau van medicijneffect, maximaal medicijneffect en dergelijke parameters.

We maken een onderscheid tussen variabelen die elke waarde kunnen aannemen plus of min, versus waarden die alleen positief kunnen zijn. Een voorbeeld van een variabele die elke waarde kan aannemen, plus of min, is het medicijneffect, dat positief, nul of negatief kan zijn. Een voorbeeld van een variabele die alleen realistisch gezien positief kan zijn, is het bloedvolume of de eliminatiesnelheid van het geneesmiddel.

We modelleren deze dingen met distributies die doorgaans ofwel normaal ofwel lognormaal zijn, normaal voor degenen met elke waarde en lognormaal voor de enige positieve. Een lognormaal getal is het getal E dat wordt beschouwd als de macht van een normaal verdeeld getal, en daarom kan het alleen positief zijn.

Voor een normaal verdeelde variabele zijn de mediaan, het gemiddelde en de modus hetzelfde nummer, dus het maakt niet uit welke u gebruikt. Voor een lognormaal verdeelde variabele is het gemiddelde echter groter dan zowel de mediaan als de modus, dus het is niet echt nuttig. In feite is de mediaan waar de onderliggende normaal zijn gemiddelde heeft, dus het is een veel aantrekkelijkere maatstaf.

Aangezien leeftijd (vermoedelijk) nooit negatief kan zijn, is een lognormale verdeling waarschijnlijk een betere beschrijving ervan dan normaal, dus mediaan (E tot het gemiddelde van de onderliggende normaal) is nuttiger.

De leeftijdsverdeling is zeker niet logisch.
Ik denk niet dat je kunt afleiden dat de leeftijd log-normaal verdeeld is, alleen maar uit het feit dat het altijd positief is. De gamma- en de Weibull-distributies zijn ook altijd positief, dus waarom zou je die niet kiezen?
@Rob: @nico: Ik weet zeker dat je gelijk hebt. Het was een slechte voorbeeldkeuze. Meestal modelleren we farmacometrische parameters zoals volume en klaring.
Susanne
2015-02-12 22:34:32 UTC
view on stackexchange narkive permalink

Mij is geleerd dat mediaan moet worden gebruikt met bereik en gemiddelde met standaarddeviatie. Als we het over leeftijd hebben, denk ik dat bereik een relevantere manier is om de spreiding uit te drukken, en voor de meesten gemakkelijker te begrijpen. In een onderzoekspopulatie was de gemiddelde leeftijd bijvoorbeeld 53 (SD 5,4) of de mediane leeftijd 48 (spreiding 23-77). Om die reden zou ik liever mediaan gebruiken dan gemiddeld. Maar ik zou heel graag willen weten wat een statisticus of stats-professional zou zeggen over het gebruik van mean with range? Ik zie dit nogal wat in wetenschappelijke artikelen.

Welkom bij CV, Susanne.Als je dit hebt gepost in een poging om antwoorden te krijgen, verwijder het dan en plaats het opnieuw als een nieuwe vraag.Richtlijnen over het gebruik van deze site zijn beschikbaar in onze [help].
user28
2010-09-11 02:33:58 UTC
view on stackexchange narkive permalink

Het antwoord van John op math.stackexchange kan als volgt worden gezien:

Als je een scheef verdeelde verdeling hebt, kan de mediaan een betere samenvattende statistiek zijn dan het gemiddelde.

Merk op dat wanneer hij zegt dat er meer baby's dan volwassenen zijn, hij in wezen suggereert dat de leeftijdsverdeling een scheefstaande verdeling is.

Eigenlijk denk ik dat de scheefheid tegenwoordig in veel landen meer richting senioren is, niet tots.
Misschien is het de andere kant op, maar het algemene punt staat vast. Voor scheve distributies kan een mediaan logischer zijn dan het gemiddelde.
Ik heb zojuist mijn antwoord op math.stackexchange bijgewerkt om precies dat punt te benadrukken. Mensen zoeken symmetrie en kunnen ten onrechte symmetrie opleggen als die er niet is. Als je de mediaan rapporteert, geef je een antwoord dat symmetrisch is - de mediaan splitst de populatie in tweeën - ook al is de verdeling niet symmetrisch.
Dit antwoord lijkt me altijd een beetje heimelijk: wanneer verdelingen niet scheef zijn (dwz symmetrisch zijn), is het gemiddelde * gelijk aan * de mediaan, dus zeggen dat de mediaan "beter" is wanneer de verdeling scheef is, is een achterdeurtje om te zeggen " gebruik alleen de mediaan. "
Eustache
2012-03-10 16:27:28 UTC
view on stackexchange narkive permalink

Ik hoop dat de gemiddelde leeftijd wordt beïnvloed door de uitschieters in uw gegevensset, terwijl dit niet het geval is voor een gemiddelde leeftijd. Laten we een voorbeeld nemen van een dataset van gevaccineerde patiënten: 1,2,3,4,4,5,6,6,6,6,78 jaar, het gemiddelde zou zijn: 11,5 en de mediane leeftijd van deze patiënten is 4,5. deze gemiddelde leeftijd is beïnvloed door de uitbijter 78. mediaan is de beste bij het omgaan met datasets van de scheefgetrokken verdeling.

Zie mijn reactie op User28.
Matt L.
2014-05-28 21:18:26 UTC
view on stackexchange narkive permalink

Zeker in het geval van demografische analyse, zou ik denken dat zowel het gemiddelde als de mediaan waardevol zouden zijn, vooral in combinatie met elkaar, als je op zoek bent naar uitschieters of groeigebieden die alleen door de mediaan verkeerd kunnen worden gelabeld. In gemeenschappen met een grote pensioengemeenschap of in een gebied met een explosie van het geboortecijfer, geeft de mediaan alleen je misschien niet het hele plaatje, en dat is waar het gemiddelde in vergelijking erg nuttig kan zijn.

brethvoice
2020-03-31 19:21:02 UTC
view on stackexchange narkive permalink

KORT ANTWOORD: de gemiddelde leeftijd is niet gewoon beter dan de gemiddelde leeftijd; het is je misschien opgevallen dat meer mensen het gebruiken. Een betere vraag zou dus kunnen zijn: "Waarom zouden meer demografen de gemiddelde leeftijd gebruiken dan de gemiddelde leeftijd?"

Een statistiek, als een vocabulaire, vindt zijn oorsprong in de staat (nominaal een juridische entiteit) die probeert de menselijke populatie te begrijpen. Denk dus aan de mensen in die regeringen en hoeveel informatie ze willen of nodig hebben, en hoeveel tijd ze moeten besteden aan het begrijpen van de precieze wiskundige betekenis van wetenschappelijke woorden.

De gemakkelijkste manier om veel gegevens op te sommen, zonder een afbeelding te gebruiken, is door een enkel getal te rapporteren; dit staat bekend als een schatter voor de parameter in kwestie (in deze kooi de tijd die verstreken is sinds de geboorte van een mens, precies op het niveau van jaren). Een verzameling. Jaynes toonde in zijn boek Probability Theory: The Logic of Science dat men ervoor zou kunnen kiezen om een ​​schatter te construeren op basis van een utilitaire verliesfunctie, die de consequenties samenvat van het maken van een fout op basis van het gebruik van een enkel getal in plaats van een geheel dataset bij het nemen van beslissingen op basis van die informatie.

In Jaynes 'boek laat hij met wiskundig bewijs zien dat de modus, of de maximale waarschijnlijkheidsschatter, de schatter is die het verlies minimaliseert in de vorm van een Dirac-deltafunctie. Het gemiddelde minimaliseert kwadratische verliesfuncties, zodat hoe verder men van de schatting komt, de hoeveelheid verlies (ongewenst gevolg) zeer snel stijgt zodra u de eenheidsschaal passeert.

De mediaan daarentegen minimaliseert een verliesfunctie in de vorm van een omgekeerde driehoek, zodat het slechts vijf keer minder wenselijk is om één eenheid van precisie af te wijken in plaats van 25 keer (zoals in het geval de betekenis). In feite maakt de eenheid van precisie helemaal geen verschil, omdat er geen kromming is in zo'n driehoekige puntige verliesfunctie.

Met deze theoretische basis zou men letterlijk verliesfuncties kunnen tekenen die helemaal niet symmetrisch zijn en een oneindig aantal nieuwe schatters kunnen vormen die op maat zijn gemaakt voor de behoeften van hun consumenten / gebruikers. Een ander alternatief voor het omgaan met de culturele verwachting van een enkel nummer is om diezelfde gebruikers / consumenten van informatie te leren dat een maatstaf voor centrale tendens meer informatie kan opleveren in combinatie met andere parameters van een distributie, zoals variantie, scheefheid en kurtosis ( wil misschien beginnen met alleen variantie en scheefheid om ze erin te vergemakkelijken.

De variantie is slechts één voorbeeld van een spreidingsmaatstaf; een andere die Jaynes suggereert (in andere geschriften) is om een ​​Bayesiaanse posterieure verdeling te vormen en de breedte te berekenen van het kortste geloofwaardige interval met waarde 0,5 (of betrouwbaarheidsinterval / standaarddeviatie enz. als je de Bayesiaanse theorie niet aanvaardt - laten we alsjeblieft niet krijgen op een zijspoor). Een meer intuïtieve methode die mogelijk voor meer mensen gemakkelijker te begrijpen is, zou het interkwartielbereik zijn, vooral wanneer gerapporteerd met de mediaan als de overeenkomstige maat voor centrale tendens.

Ik weet niet zeker of er een niet-parametrische vorm van skew of kurtosis is, maar als ze bestaan, zullen ze vrijwel zeker gemakkelijker te begrijpen zijn dan deze parametrische analogen. Ik heb het vermoeden dat een belangrijke, zo niet dominante, deel van de reden waarom mediane leeftijd vaker opduikt dan gemiddelde leeftijd, is omdat het gewoon meer aantrekkelijk is voor mensen met minder tijd of met minder behoefte om in te gaan op theoretische details over zaken als sigma-algebra's, Lebesgue maattheorie, enz. Die allemaal technisch noodzakelijk zijn om de meer algemene grondslagen van probabilistisch redeneren te begrijpen.

Hoewel er hier veel goede gedachten zijn over schatters, enz., Denk ik dat ze op de verkeerde plaats voorkomen: deze vraag gaat alleen over een * beschrijvende * statistiek.Het is niet per se bedoeld als een schatter van iets.
@whuber wat is het doel van een statistiek, zo niet om een interessante eigenschap te beschrijven met betrekking tot een dataset met een enkel nummer?Ik ben het ermee eens dat variantie, scheeftrekking, kurtosis of hoeveelheden die verband houden met momenten van hogere orde gewoonlijk geen schatters zijn, maar kwalificaties voor een maatstaf voor centrale tendens.Maar ik hoop dat we de betekenis van het woord "waarschijnlijkheid" in het gewone spraakgebruik niet negeren.In de context van het OP lijkt het erop dat iemand heeft gevraagd "hoe oud zijn mensen ongeveer op die en die locatie?"dus een mediaan is een schatter omdat het een van belang zijnde grootheid (parameter) karakteriseert met een enkel getal.
Het onderscheid tussen een beschrijvende statistiek en een schatter zit deels in het gebruik ervan: de eerste is een eigenschap van de dataset, puur en simpel.Waarschijnlijkheid speelt geen rol en is ook niet nodig voor het maken of gebruiken van beschrijvende statistieken.Een schatter daarentegen probeert iets heel anders te karakteriseren: namelijk een "populatie" waarvan de gegevens hypothetisch zijn afgeleid.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...