Statistiek

Statistiek word meermale beskryf as die wetenskap wat met die insameling en ontleding van data (waarnemings) te make het, asook met die maak van gevolgtrekkings en die neem van besluite op grond van dié ontledings. Dit is gebaseer op statistiese teorie wat 'n vertakking is van toegepaste wiskunde. In statistiese teorie word willekeurigheid en onsekerheid gemodelleer deur van waarskynlikheidsleer gebruik te maak. Die beoefening van statistiek behels die beplanning, opsomming en interpretasie van sekere waarnemings. Die doel van statistiek is om die beste inligting moontlik vanuit die data beskikbaar te maak en daarom reken baie outeurs dat statistiek 'n vertakking van besluitnemingsteorie is. Die data waarna hier verwys word, word normaalweg verkry deur waarnemings te maak van 'n deel (steekproef) van die geheel (universum) wat bestudeer word.

Oorsprong

Die woord statistiek het sy herkoms in die moderne Latynse frase statisticum collegium (lesing oor staatsaangeleenthede), vandaar die italiaanse woord statista, wat staatsman of politikus beteken (vergelyk met status) en die Duitse woord Statistik, wat oorspronklik verwys het na die analisering van data oor die staat. Dit het die algemene betekenis van die versameling en klassifisering van data in die vroeë 19de eeu verkry. Die versameling van data oor state en liggings duur steeds voort, hoofsaaklik deur nasionale en internasionale statistiek dienste; veral met sensusopnames wat gereelde inligting oor die bevolking verskaf.

Statistiese metodes

Statistiek beoog om kennis wiskundig te beskryf en poog dan om iets te leer uit die waarnemings. Dit vereis dat:

waarnemings beplan word om hul veranderlikheid te beheer (eksperimentele ontwerp),
versamelings van waarnemings opgesom word om die ooreenkomste uit te lig en die besonderhede weg te steek (beskrywende statistiek), en
'n konsensus bereik word oor wat die waarnemings ons vertel oor die wêreld wat ons waarneem.

Met sommige vorms van beskrywende statistiek, veral data-ontginning, raak die tweede en derde stappe so prominent dat die eerste stap (beplanning) minder belangrik blyk. In hierdie dissiplines word data dikwels buite beheer van die persoon wat die analise doen versamel en die resultaat mag meer 'n bedryfsmodel as 'n konsensus verslag oor die onderwerp wees.

Belangrike Statistiese Begrippe

Waarskynlikheid

Die waarskynlikheid van 'n gebeurtenis word dikwels gedefinieer as 'n getal tussen nul en een. Die getal word verkry vanuit die relatiewe frekwensiebenadering van waarskynlikheid. In werklikheid bestaan daar omtrent geen gebeurtenis wat 'n waarskynlikheid van 0 of 1 het nie. 'n Mens kan sê dat die son in die oggend sal opkom maar daar is altyd die moontlikheid dat 'n onwaarskynlike gebeurtenis die son kan vernietig of 'n kernoorlog kan die lug met as en rook bedek en sodoende die son verbloem.

Die waarskynlikheid van sulke gebeure rond ons gewoonlik af tot 'n 0 of 'n 1 na aanleiding van hoe onwaarskynlik of waarskynlik die gebeurtenis respektiewelik is.

Hierdie tipe afronding kan egter lei tot misverstande en gevaarlike gedrag omdat mense nie tussen waarskynlikhede kan onderskei nie, bv. 'n waarskynlikheid van 10⁻⁴ en 'n waarskynlikheid van 10⁻⁹ kan albei na nul afgerond word al is daar wesenlike verskille tussen hulle. As jy byvoorbeeld verwag om 'n pad 10⁵ of 10⁶ maal in jou lewe oor te steek, dan sal 'n verlaging in jou risiko tot 'n waarskynlikheid van 10⁻⁹ beteken dat jy waarskynlik nooit in jou lewe 'n ongeluk gaan hê nie, terwyl 'n waarskynlikheid van 10⁻⁴ beteken dat jy baie waarskynlik 'n ongeluk gaan hê ten spyte van die intuitiewe gevoel dat 0.01% 'n baie klein risiko is.

Steekproefneming

'n Steekproef is 'n deelversameling van 'n teikenpopulasie. 'n Baie belangrike onderdeel van 'n statistiese studie is die beplanning van die steekproef. Indien 'n statistikus afleidings wil maak uit die steekproef wat gedoen word, moet hy verseker dat die data van sy steekproef die populasie wat ondersoek word so juis moontlik weerspieël. Indien data vanaf die totale populasie verkry word, word daar gepraat van 'n sensus.

Die steun wat 'n politieke kandidaat byvoorbeeld by die stembus kan verwag kan dus akkuraat beraam word indien die steekproef goed beplan word. Indien sulke beplanning nie gedoen word nie kan dit gebeur dat foutiewe afleidings gemaak word. As 'n kandidaat se beleid byvoorbeeld baie gewild is onder plattelanders en die steekproef is: Versamel data hoofsaaklik uit plattelandse gebiede, sal die valse gevolgtrekkings toon dat die kandidaat meer steun gaan hê as wat in der waarheid die geval is. Daar word in dié geval gepraat van steekproefsydigheid en dit is dan 'n belangrike maatstaf wat in ag geneem word met die statistiese analise van data.

Twee ander belangrike maatstawwe wat in ag geneem moet word is die streekproeffout en die streekproefwaarnemingsfout. Daar is dan ook verskeie metodes vir die neem van streekproewe wat oorweeg moet word tydens die beplanningsfase van 'n steekproef.

Waarskynlikheidsverdeling

'n Belangrike stukkie gereedskap in die analise van 'n steekproef of sensus is waarskynlikheidsverdelings. Dit stel die statistikus in staat om gevolgtrekkings te maak oor 'n steekproef se verteenwoordiging van 'n populasie.

Indien die grafiek van die toevalsveranderlikes se waardes en frekwensies waarop dit voorkom van die steekproef en dié van die totale populasie (of ander groter steekproef) nie dieselfde vorm het nie kan die statistikus dus die gevolgtrekking maak dat daar 'n faktor in sy steekproef bestaan (soos bv. Ligging van respondente in die voorbeeld in vorige paragraaf) wat sy data nie verteenwoordigend maak nie.

Verskeie parameters word gedefinieer om waarskynlikheidsverdeling wiskundig te beskryf, soos onder andere die rekenkundige gemiddelde , standaardafwyking en variansie.

Hipotesetoetsing

Hipotesetoetsing word gebruik om waarskynlikheidsverdeling te vergelyk en gevolgtrekkings te maak. So kan die data van 'n kliniese ondersoek vir 'n nuwe medisyne vergelyk word met kontroledata om die effektiwiteit van die medisyne se werking te evalueer en ook moontlike newe-effekte te identifiseer.

Regressie- en korrelasie-analise

Die twee begrippe het te doen met die assosiasie-analise van twee of meer-veranderlike data. 'n Assosiasie analise behels twee aspekte wat deur bogenoemde begrippe beskryf word.

Eerstens behels regressie-analise die bepaling van 'n verband tussen die veranderlikes aan die hand van een of ander wiskundige vergelyking hetsy lineêr of nie-lineêr van aard. 'n Korrelasie-analise het te doen met hoe sterk die verband tussen die veranderlikes is.

As 'n veranderlike se waarde dus slegs afhanklik is van een veranderlike dan sal 'n mens tipies 'n hoë korrelasie waarneem en andersom as die veranderlike glad nie deur die ander veranderlike beïnvloed word nie.

Gespesialiseerde dissiplines

Sommige wetenskappe gebruik toegepaste statistiek tot so 'n mate dat hulle 'n gespesialiseerde terminologie ontwikkel het. Hierdie dissiplines sluit in:

Biostatistiek
Besigheidstatistiek
Ekonomiese statistiek
Ingenieursstatistiek
Statistiese fisika
Demografie
Sielkundige statistiek
Sosiale statistiek
Prosesanalise en chemometrie (vir die analise van data vanuit analitiese chemie en chemiese ingenieurswese)
Betroubaarheidsingenieurswese

Statistiek is verder ook belangrike wiskundige gereedskap in gebruik vir besigheid asook die vervaardigingsektor. Dit word gebruik om die variëerbaarheid van meetstelsels te verstaan, om prosesse te beheer (soos met statistiese prosesbeheer), om data op te som en om datagedrewe besluite te maak. In hierdie rol is dit dikwels die engiste betroubare gereedskap wat beskikbaar is vir besluitneming.

Sagteware

Moderne statistiese praktyk word ondersteun deur rekenaars wat groot hoeveelhede en baie komplekse berekeninge kan uitvoer.

Sommige vertakkinge is geheel en al net deur rekenaars moontlik gemaak, soos byvoorbeeld neurale netwerke.

Die omwenteling wat rekenaars teweeg gebring het, het belangrike implikasies vir die toekoms van statistiek met die groter nadruk wat op eksperimentele statistiek geplaas word.

'n Lys van statistiese pakkette wat algemeen gebruik word is:

Die R projek vir statistiekse berekening R programmeertaal Die R Wiki Geargiveer 4 Desember 2004 op Wayback Machine
S+ -- die S programmeertaal
Matlab
Octave
Excel
SAS
SPSS
STATA
MiniTab

Sien ook

Analise van variansie (ANOVA)
Uiterste waarde teorie
Regressie analise
Meer-veranderlike statistiek
Statistiese verskynsels
Permutasie
Kombinasie

Bronnelys

Lindley, D. Making Decisions. John Wiley. Tweede Uitgawe 1985. ISBN 0-471-90808-8
Bouwer, B. Elementêre statistiek, induktiewe metodes, Eerste Uitgawe 1981 ISBN 0-07-450579-3
Steyn, Smit et. al., Moderne Statistiek vir die praktyk, Vyfde Hersiene Uitgawe, 1995 ISBN 0-627-01988-9

Eksterne skakels

Materials for the History of Statistics (versameling van skakels en verwysings by die Universiteit van York)
Wortelanalise Raamwerk vanaf CERN (Histogramme, Passings, ...)
Die R Projek vir Statistiese Rekenaarwerk
Aanlyn Statistiek Handboek
The Probability Web
Virtuele Laboratoriums vir Waarskynlikheid en Statistiek
Statistiese hulpbronne en rekenaarprogramme.
Data, Sagteware en Nuus vanaf die Statistiek Gemeenskap.
Hulpbronne vir Onderrig en Leer van Waarskynlikheid en Statistiek ERIC Digest.
Resampling: A Marriage of Computers and Statistics. ERIC/TM Digest.
Internasionale Statistiese Instituut
Gratis Statistiese Sagteware
Gratis Statistiese Gereedskap op die WEB Geargiveer 10 Oktober 2004 op Wayback Machine
Die Waarskynlikheid van Toeval
Electroniese Handboek oor Statistiese Analise van Data
'n Kursus Geargiveer 11 November 2004 op Wayback Machine

Directory