- Hogyan lehet kiszámítani a meghatározási együtthatót?
- Szemléltető eset
- Értelmezés
- Példák
- - 1. példa
- Megoldás
- - 2. példa
- Megoldás
- - 3. példa
- Megoldás
- Fit összehasonlítás
- Következtetések
- Irodalom
A meghatározási együttható egy 0 és 1 közötti szám, amely azon pontok (X, Y) hányadát képviseli, amelyek követik az adatkészlet illesztésének regressziós sorát két változóval.
Az is ismert, mint az illeszkedés és a jelöli R 2. Ennek kiszámításához a regressziós modell által becsült Ŷi adatok varianciája és az adatok Xi-jének megfelelő Yi adatok szórása közötti hányadot kell venni.
R 2 = SY / Sy

1. ábra. Négy adatpár korrelációs együtthatója. Forrás: F. Zapata.
Ha az adatok 100% -a a regressziós függvény vonalán van, akkor a meghatározási együttható 1 lesz.
Éppen ellenkezőleg, ha egy adatsorra és egy bizonyos illeszkedési függvényre az R 2 együttható 0,5-nek mutatkozik, akkor azt mondhatjuk, hogy az illeszkedés 50% -nak megfelelő vagy jó.
Hasonlóképpen, ha a regressziós modell 0,5-nél alacsonyabb R 2 értékeket ad, ez azt jelzi, hogy a választott beállítási funkció nem alkalmazkodik kielégítően az adatokhoz, ezért meg kell keresni egy másik beállítási funkciót.
És amikor a kovariancia vagy a korrelációs együttható általában nulla, akkor a változók X és Y az adatok független, és így R 2 szintén általában nulla.
Hogyan lehet kiszámítani a meghatározási együtthatót?
Az előző szakaszban azt mondták, hogy a meghatározási együtthatót úgy kell kiszámítani, hogy meghatározzuk a varianciák hányadosát:
- Az Y változó regressziós függvénye
-A Yi változó értéke, amely az N adatpár Xi minden változójának felel meg.
Matematikai szempontból így néz ki:
R 2 = SY / Sy
Ebből a képletből következik, hogy R 2 jelentése az aránya a variancia magyarázható a regressziós modell. Alternatív megoldásként az R 2 kiszámítása az alábbi képlettel történik, amely teljesen megegyezik az előzővel:
R 2 = 1 - (Sε / Sy)
Ahol Sε az εi = Ŷi - Yi maradványok szórását jelenti, míg Sy az adatok Yi értékeinek halmazát jelenti. Az Ŷi meghatározására a regressziós függvényt alkalmazzuk, amely azt jelenti, hogy Ŷi = f (Xi).
Az Yi adatkészlet szórását i-vel 1-ről N-re a következő módon kell kiszámítani:
Sy =
És akkor hasonló módon járjon el az Sŷ vagy az Sε esetében.
Szemléltető eset
Annak érdekében, hogy megmutassuk a meghatározási együttható kiszámításának részleteit, a következő négy adatpárt vesszük:
(X, Y): {(1, 1); (2. 3); (3, 6) és (4, 7)}.
Ehhez az adatkészlethez lineáris regressziós illesztést javasolunk, amelyet a legkisebb négyzetek módszerével kapunk:
f (x) = 2,1 x - 1
Ezt a beállítási funkciót alkalmazva a nyomatékot kapjuk:
(X, Ŷ): {(1, 1.1); (2, 3.2); (3, 5.3) és (4, 7.4)}.
Ezután kiszámoljuk X és Y számtani átlagát:
Variance Sy
Sy = / (4-1) =
= = 7583
Variancia Sŷ
Sŷ = / (4-1) =
= = 7,35
Meghatározási együttható R 2
R 2 = SY / Sy = 7,35 / 7,58 = 0,97
Értelmezés
Az előző szegmensben szemléltetett esethez tartozó meghatározási együttható 0,98 volt. Más szavakkal, a függvényen keresztüli lineáris beállítás:
f (x) = 2,1x-1
98% -ban megbízható abban, hogy megmagyarázza azokat az adatokat, amelyekkel a legkisebb négyzetek módszerével nyertük.
A meghatározási együttható mellett van egy lineáris korrelációs együttható, vagy más néven Pearson-együttható. Ezt az együtthatót, r-rel jelölve, a következő összefüggéssel kell kiszámítani:
r = Sxy / (Sx Sy)
Itt a számláló az X és Y változók közötti kovarianciát képviseli, míg a nevező az X változó standard deviációjának és az Y változó standard eltérésének szorzata.
Pearson-együttható értéke -1 és +1 között lehet. Ha ez az együttható +1-re hajlik, akkor közvetlen lineáris korreláció van X és Y között. Ha inkább -1-re hajlik, akkor van egy lineáris korreláció, de amikor X növekszik, Y csökken. Végül, közel 0-hoz, nincs korreláció a két változó között.
Meg kell jegyezni, hogy a meghatározási együttható egybeesik a Pearson együttható négyzetével, csak akkor, ha az elsőt egy lineáris illesztés alapján számították ki, de ez az egyenlőség nem vonatkozik más nemlineáris illesztésekre.
Példák
- 1. példa
A középiskolás diákok egy csoportja elhatározta az inga periódusának empirikus törvényét annak hosszának függvényében. E cél elérése érdekében mérések sorozatát hajtják végre, amelyben mérik az inga lengésének idejét különböző hosszúságokra, a következő értékekkel:
| Hossz (m) | Időszak (ok) |
|---|---|
| 0.1 | 0.6 |
| 0.4 | 1.31 |
| 0.7 | 1,78 |
| egy | 1.93 |
| 1.3 | 2.19 |
| 1.6 | 2,66 |
| 1.9 | 2,77 |
| 3 | 3,62 |
Felkérjük, hogy készítsen szórási diagramot az adatokból, és végezzen egy lineáris illesztést regresszió segítségével. Mutassa meg a regressziós egyenletet és annak meghatározási együtthatóját is.
Megoldás

2. ábra. Az 1. feladat megoldási grafikonja. Forrás: F. Zapata.
Meglehetősen magas (95%) meghatározási együtthatót lehet megfigyelni, így azt lehet gondolni, hogy a lineáris illeszkedés optimális. Ha azonban a pontokat együtt nézzük, úgy tűnik, hogy hajlamosak lefelé görbülni. Ezt a részletet a lineáris modell nem veszi figyelembe.
- 2. példa
Az 1. példában szereplő adatokhoz készítsen egy szórt diagramot az adatokból. Ebben az esetben, az 1. példával ellentétben, regressziós korrekciót kell kérni egy potenciális függvény felhasználásával.

3. ábra. A 2. feladat megoldási grafikonja. Forrás: F. Zapata.
Mutassa meg az illesztési funkciót és annak meghatározási együtthatóját R 2.
Megoldás
A potenciális függvény f (x) = B tengely alakú, ahol A és B olyan állandók, amelyeket a legkisebb négyzetek módszerével határoznak meg.
Az előző ábra a potenciális funkciót és annak paramétereit, valamint a meghatározási együtthatót mutatja nagyon magas, 99% -os érték mellett. Vegye figyelembe, hogy az adatok a trendvonal görbületét követik.
- 3. példa
Az 1. és a 2. példa ugyanazon adatainak felhasználásával végezzen egy második fokú polinom illesztést. Mutassa a grafikonot, az illeszkedő polinomot és a megfelelő R 2 meghatározási együtthatót.
Megoldás

4. ábra: A 3. feladat megoldási grafikonja. Forrás: F. Zapata.
A második fokú polinom illesztéssel láthat egy trendvonalat, amely jól illeszkedik az adatok görbületéhez. A meghatározási együttható emellett a lineáris illeszkedés felett és a potenciális illesztés alatt van.
Fit összehasonlítás
A bemutatott három illeszkedés közül a legnagyobb a meghatározási együtthatója a potenciális illeszkedés (2. példa).
A potenciál illeszkedése egybeesik az inga fizikai elméletével, amely - amint az ismert - megállapítja, hogy az inga periódusa arányos a hosszának négyzetgyökével, az arányosság állandója 2π / √g, ahol g a gravitáció gyorsulása.
Az ilyen típusú potenciális illeszkedés nemcsak a legnagyobb meghatározási együtthatóval rendelkezik, hanem az exponencia és az arányosság konstansa megegyezik a fizikai modellel.
Következtetések
-A regressziós beállítás meghatározza annak a funkciónak a paramétereit, amelynek célja az adatok magyarázata a legkisebb négyzetek módszerével. Ez a módszer azt jelenti, hogy minimalizáljuk az adatkorrekció Y értéke és az Yi értéke közötti kvadratikus különbség összegét az adatok Xi értékeihez. Ez határozza meg a hangolási funkció paramétereit.
- Mint láttuk, a leggyakoribb beállítási függvény a vonal, de nem ez az egyetlen, mivel a kiigazítások polinomiális, potenciális, exponenciális, logaritmikus és mások is lehetnek.
- Mindenesetre a meghatározási együttható az adatoktól és a kiigazítás típusától függ, és jelzi az alkalmazott kiigazítás jóságát.
-Végül, a meghatározási együttható az adatok Y-értéke közötti teljes variabilitás százalékát mutatja az adott X-hez igazítás Ŷ-értékéhez viszonyítva.
Irodalom
- González C. Általános statisztikák. Helyreállítva: tarwi.lamolina.edu.pe
- IIER. Aragóni Egészségtudományi Intézet. Helyreállítva: ics-aragon.com
- Salazar C. és Castillo S. A statisztika alapelvei. (2018). Helyreállítva: dspace.uce.edu.ec
- Superprof. Meghatározási együttható. Helyreállítva: superprof.es
- USAC. Leíró statisztikai kézikönyv. (2011). Helyreállítva: statistika.ingenieria.usac.edu.gt.
- Wikipedia. Meghatározási együttható. Helyreállítva: es.wikipedia.com.
