A Sturges szabály egy olyan kritérium, amellyel meghatározható az osztályok vagy tartományok száma, amely szükséges a statisztikai adatok halmazának ábrázolásához. Ezt a szabályt 1926-ban bejelentette Herbert Sturges német matematikus.
Sturges egy egyszerű módszert javasolt az x minták száma alapján, amely lehetővé tenné az osztályok számának és tartományának szélességének megtalálását. Sturges szabályát széles körben alkalmazzák, különösen a statisztikák területén, kifejezetten frekvencia hisztogramok készítéséhez.
Magyarázat
A Sturges-szabály empirikus módszer, amelyet széles körben használnak a leíró statisztikákban annak meghatározására, hogy hány osztálynak kell lennie egy frekvencia-hisztogramban annak érdekében, hogy egy mintát vagy populációt képviselő adathalmazt osztályozhassanak.
Alapvetően ez a szabály határozza meg a grafikus konténerek szélességét, a frekvencia hisztogramjait.
Herbert Sturges a szabály megállapításához ideális frekvenciaábrát vett figyelembe, amely K intervallumokból áll, ahol az i-edik intervallum tartalmaz bizonyos számú mintát (i = 0,… k - 1), amelyet ábrázolunk:
A minták számát az adja meg, hogy hány módon lehet egy készlet egy részét kinyerni; vagyis a binomiális együtthatóval, az alábbiak szerint kifejezve:
A kifejezés egyszerűsítése érdekében a logaritmus tulajdonságait az egyenlet mindkét részére alkalmazta:
Így Sturges megállapította, hogy az optimális k intervallumot a következő kifejezés adja:
Ez is kifejezhető:
Ebben a kifejezésben:
- k az osztályok száma.
- N a mintában szereplő összes megfigyelés.
- A log a 10. bázis általános logaritmusa.
Például egy olyan frekvencia-hisztogram elkészítéséhez, amely 142 gyermek magasságú véletlenszerű mintát fejez ki, az eloszláshoz tartozó intervallumok vagy osztályok száma:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3322 * log (142)
k = 1 + 3,3322 * 2,1523
k = 8,14 ≈ 8
Így az eloszlás 8 intervallumban lesz.
Az intervallumok számát mindig egész számokkal kell megadni. Azokban az esetekben, amikor az érték tizedes, akkor hozzá kell közelíteni a legközelebbi egész számhoz.
Alkalmazások
A Sturges-szabályt elsősorban a statisztikában alkalmazzák, mivel ez lehetővé teszi a frekvenciaeloszlást az osztályok számának (k) kiszámításával, valamint mindegyikük hosszával, más néven amplitúdóval.
Az amplitúdó az osztály felső és alsó határának különbsége, osztva az osztályok számával, és kifejezve:
Számos hüvelykujjszabály létezik, amelyek lehetővé teszik a frekvencia eloszlását. A Sturges-szabályt azonban általában használják, mert megközelíti az osztályok számát, amely általában 5-15-ig terjed.
Tehát úgy tekint egy olyan értéket, amely megfelelően reprezentálja a mintát vagy a populációt; vagyis a közelítés nem jelenti a szélsőséges csoportosítást, és nem működik túl sok olyan osztálytal, amely nem teszi lehetővé a minta összegzését.
Példa
A megadott adatok alapján frekvencia-hisztogramot kell készíteni, amely megfelel a helyi tornateremben edző férfiak felmérésében kapott életkornak.
Az intervallumok meghatározásához meg kell ismerni a minta méretét vagy a megfigyelések számát; ebben az esetben 30 van.
Akkor Sturges szabálya érvényes:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3322 * log (30)
k = 1 + 3,3322 * 1,4771
k = 5,90 ≈ 6 intervallum.
Az intervallumok száma alapján kiszámítható az amplitúdó, amely ezeknek lesz; vagyis az egyes sávok szélessége a frekvencia hisztogramban:
Az alsó határt az adatok legkisebb értékének, a felső határot pedig a legnagyobb értéknek tekintjük. A felső és az alsó határ közötti különbséget nevezzük a változó tartományának vagy tartományának (R).
A táblázatból kiderül, hogy a felső határ 46 és az alsó határ 13; így az egyes osztályok amplitúdója:
Az intervallumokat egy felső és egy alsó határ képezi. Ezen intervallumok meghatározásához az alsó határtól számolunk, és ehhez hozzáadjuk a (6) szabály által meghatározott amplitúdót az alábbiak szerint:
Ezután kiszámítják az abszolút frekvenciát, hogy meghatározzák az egyes intervallumoknak megfelelő férfiak számát; ebben az esetben ez:
- 1. intervallum: 13-18 = 9
- 2. intervallum: 19 - 24 = 9
- 3. intervallum: 25 - 30 = 5
- 4. intervallum: 31 - 36 = 2
- 5. intervallum: 37 - 42 = 2
- 6. intervallum: 43 - 48 = 3
Az egyes osztályok abszolút gyakoriságának hozzáadásakor ennek meg kell egyeznie a minta teljes számával; ebben az esetben 30.
Ezt követően kiszámolják az egyes intervallumok relatív gyakoriságát, osztva annak abszolút gyakoriságát az összes megfigyelés számával:
- 1. intervallum: fi = 9 ÷ 30 = 0,30
- 2. intervallum: fi = 9 ÷ 30 = 0,30
- 3. intervallum: fi = 5 ÷ 30 = 0,1666
- 4. intervallum: fi = 2 ÷ 30 = 0,0666
- 5. intervallum: fi = 2 ÷ 30 = 0,0666
- 4. intervallum: fi = 3 ÷ 30 = 0,10
Ezután elkészíthet egy táblázatot, amely tükrözi az adatokat, valamint a diagramot a relatív gyakoriságról a kapott intervallumokhoz viszonyítva, amint az a következő képeken látható:
Ilyen módon a Sturges-szabály lehetővé teszi az osztályok vagy intervallumok számának meghatározását, amelyben a mintát fel lehet osztani, hogy az adatmintát táblázatok és grafikonok kidolgozása révén össze lehessen foglalni.
Irodalom
- Alfonso Urquía, MV (2013). Diszkrét események modellezése és szimulálása. UNED,.
- Altman Naomi, MK (2015). "Egyszerű lineáris regresszió." Természeti módszerek.
- Antúnez, RJ (2014). Az oktatás statisztikája. Digitális egység.
- Fox, J. (1997). Alkalmazott regressziós elemzés, lineáris modellek és kapcsolódó módszerek. SAGE kiadványok.
- Humberto Llinás Solano, CR (2005). Leíró statisztikák és valószínűségi eloszlások. Északi Egyetem.
- Panteleeva, OV (2005). A valószínűség és a statisztika alapjai.
- O. Kuehl, MO (2001). Kísérletek tervezése: A kutatás tervezésének és elemzésének statisztikai alapelvei. Thomson szerkesztők.