Průměrná a mezní výběrová chyba. Metoda jejich výpočtu pro průměr a podíl

1.1. Popis údajů, zdroj příjmu. Uvažované období a prostorový rámec_ 3

1.2. Charakteristika použitých statistických ukazatelů, včetně typu a měrné jednotky, typu (intervalové nebo okamžité) 3

1.3. Odhad průměrné hodnoty vybraného ukazatele 4

1.4. Odhad strukturálních průměrů_ 5

(mody, mediány) na základě strukturního seskupení_ 5

1.5. Grafické znázornění rozložení hodnot_ 7

(histogram, kumulovat) 7

2. Odhad variačních ukazatelů_ 9

3. Posouzení ukazatelů absolutní a relativní dynamiky pro vybraný ukazatel 11

4. Analýza vztahu mezi studovanými ukazateli_ 13

Seznam použité literatury_ 15


Popis údajů, zdroj příjmu. Uvažované období a prostorový rámec

Lukoil JSC byl vybrán pro studii, protože společnost je lídrem v oblasti výroby a rafinace ropy a plynu a prodeje ropných produktů (lukoil.ru

Tento dokument poskytuje čtvrtletní údaje o příjmech od roku 2006 do roku 2009. Výnosy jsou celkové množství peněz, které firma obdrží (výnos) za určitou dobu své činnosti prodejem služeb svým zákazníkům.

Charakteristika použitých statistických ukazatelů, včetně typu a měrné jednotky, typu (intervalové nebo okamžité)

Kvůli dodržování norem se příjmy měří v tisících rublech; Typ dynamické řady je intervalový, protože data jsou prezentována za určité období.


Odhad průměrné hodnoty vybraného ukazatele

Aritmetický průměr může být jednoduchý nebo vážený. V tomto případě se výpočet provádí na neseskupených datech (každá jednotka má stejný význam). Proto se používá jednoduchý aritmetický průměr:

Po výpočtu to zjistíme tisíc rublů, tj. V průměru jsou příjmy společnosti v každém čtvrtletí 29 097 147 tisíc rublů.


Odhad strukturálních průměrů

(mody, mediány) na základě strukturního seskupení

Pro výpočet strukturálních průměrů (modus a medián) je nutné provést strukturální seskupení.

Prvním krokem je určení počtu skupin. K tomu použijeme přibližný Sturgessův vzorec: n = 1+3,322 logN.

Vypočteme: n=1+3,322lg15=4,95. Dostáváme 5 skupin.

K tomu vypočítáme rozsah variace (vypočtený jako rozdíl mezi maximální a minimální hodnotou indikátoru):

R = 45313756 – 17551616=27762140

Nyní vypočítáme velikost intervalu:

h = 27762140/5 = 2776214

Vypočítejte režim:

Režim je hodnota studované charakteristiky, která se opakuje s největší frekvencí.

Modální interval definujeme tak, že jeho frekvence je větší než frekvence předchozího a vyšší než frekvence následujícího. V tomto případě se jedná o interval: 23.1-28.7.

Tisíc třít.

To znamená, že ve většině čtvrtletí měla společnost vyšší tržby tisíc rublů.

Ve většině případů jsou data soustředěna kolem nějakého centrálního bodu. K popisu jakéhokoli souboru dat tedy stačí uvést průměrnou hodnotu. Uvažujme postupně tři číselné charakteristiky, které se používají k odhadu průměrné hodnoty rozdělení: aritmetický průměr, medián a modus.

Průměrný

Aritmetický průměr (často nazývaný jednoduše průměr) je nejběžnějším odhadem střední hodnoty rozdělení. Je to výsledek dělení součtu všech pozorovaných číselných hodnot jejich počtem. Pro vzorek sestávající z čísel X 1, X 2, …, Xn, průměr vzorku (označený ) rovná se = (X1 + X2 + … + Xn) / n, nebo

kde je průměr vzorku, n- velikost vzorku, Xi– i-tý prvek vzorku.

Stáhněte si poznámku ve formátu nebo formátu, příklady ve formátu

Zvažte výpočet aritmetického průměru pětiletých průměrných ročních výnosů 15 velmi rizikových podílových fondů (obrázek 1).

Rýže. 1. Průměrné roční výnosy 15 velmi rizikových podílových fondů

Průměrná hodnota vzorku se vypočítá takto:

To je dobrý výnos, zejména ve srovnání s výnosem 3–4 %, který vkladatelé bank nebo družstevních záložen obdrželi za stejné časové období. Pokud seřadíme výnosy, snadno zjistíme, že osm fondů má výnosy nad průměrem a sedm pod průměrem. Aritmetický průměr funguje jako rovnovážný bod, takže fondy s nízkými výnosy vyrovnávají fondy s vysokými výnosy. Všechny prvky vzorku se podílejí na výpočtu průměru. Žádný z ostatních odhadů střední hodnoty rozdělení tuto vlastnost nemá.

Kdy byste měli vypočítat aritmetický průměr? Protože aritmetický průměr závisí na všech prvcích ve vzorku, přítomnost extrémních hodnot významně ovlivňuje výsledek. V takových situacích může aritmetický průměr zkreslit význam číselných údajů. Proto při popisu souboru dat obsahujících extrémní hodnoty je nutné uvést medián nebo aritmetický průměr a medián. Pokud například ze vzorku odebereme výnosy fondu RS Emerging Growth, průměrný výběr výnosů 14 fondů se sníží o téměř 1 % na 5,19 %.

Medián

Medián představuje střední hodnotu uspořádaného pole čísel. Pokud pole neobsahuje opakující se čísla, pak polovina jeho prvků bude menší než a polovina větší než medián. Pokud vzorek obsahuje extrémní hodnoty, je lepší použít k odhadu průměru spíše medián než aritmetický průměr. Pro výpočet mediánu vzorku je nutné jej nejprve objednat.

Tento vzorec je nejednoznačný. Jeho výsledek závisí na tom, zda je číslo sudé nebo liché n:

  • Pokud vzorek obsahuje lichý počet prvků, je medián (n+1)/2-tý prvek.
  • Pokud vzorek obsahuje sudý počet prvků, leží medián mezi dvěma středními prvky vzorku a rovná se aritmetickému průměru vypočtenému přes tyto dva prvky.

Chcete-li vypočítat medián vzorku obsahujícího výnosy 15 velmi rizikových podílových fondů, musíte nejprve seřadit nezpracovaná data (obrázek 2). Potom bude medián proti číslu středního prvku vzorku; v našem příkladu č. 8. Excel má speciální funkci =MEDIAN(), která pracuje i s neuspořádanými poli.

Rýže. 2. Medián 15 fondů

Medián je tedy 6,5. To znamená, že výnos jedné poloviny velmi rizikových fondů nepřesahuje 6,5 a výnos druhé poloviny ji převyšuje. Všimněte si, že medián 6,5 není o mnoho větší než průměr 6,08.

Pokud ze vzorku odebereme výnos fondu RS Emerging Growth, pak se medián zbývajících 14 fondů sníží na 6,2 %, tedy ne tak výrazně jako aritmetický průměr (obrázek 3).

Rýže. 3. Medián 14 fondů

Móda

Termín poprvé vytvořil Pearson v roce 1894. Móda je číslo, které se ve vzorku vyskytuje nejčastěji (nejmódnější). Móda dobře popisuje například typickou reakci řidičů na signál semaforu, aby se zastavili. Klasickým příkladem využití módy je výběr velikosti bot nebo barvy tapety. Pokud má distribuce několik režimů, pak se říká, že je multimodální nebo multimodální (má dva nebo více „vrcholů“). Multimodalita distribuce poskytuje důležité informace o povaze studované proměnné. Například v sociologických průzkumech, pokud proměnná představuje preferenci nebo postoj k něčemu, pak multimodalita může znamenat, že existuje několik výrazně odlišných názorů. Multimodalita také slouží jako indikátor toho, že vzorek není homogenní a pozorování mohou být generována dvěma nebo více „překrývajícími se“ distribucemi. Na rozdíl od aritmetického průměru odlehlé hodnoty neovlivňují režim. Pro průběžně rozložené náhodné veličiny, jako je průměrný roční výnos podílových fondů, režim někdy neexistuje (nebo nedává smysl) vůbec. Protože tyto indikátory mohou nabývat velmi odlišných hodnot, opakující se hodnoty jsou extrémně vzácné.

Kvartily

Kvartily jsou metriky nejčastěji používané k hodnocení distribuce dat při popisu vlastností velkých numerických vzorků. Zatímco medián rozděluje uspořádané pole na polovinu (50 % prvků pole je menší než medián a 50 % je větší), kvartily rozdělují uspořádaný soubor dat na čtyři části. Hodnoty Q 1, mediánu a Q 3 jsou 25., 50. a 75. percentil. První kvartil Q 1 je číslo, které rozděluje vzorek na dvě části: 25 % prvků je menších než první kvartil a 75 % je větších než první kvartil.

Třetí kvartil Q 3 je číslo, které také rozděluje vzorek na dvě části: 75 % prvků je menších než třetí kvartil a 25 % je větších než třetí kvartil.

Chcete-li vypočítat kvartily ve verzích aplikace Excel před rokem 2007, použijte funkci =QUARTILE(pole,část). Od Excelu 2010 se používají dvě funkce:

  • =QUARTILE.ON(pole,část)
  • =QUARTILE.EXC(pole;část)

Tyto dvě funkce poskytují mírně odlišné hodnoty (obrázek 4). Například při výpočtu kvartilů vzorku obsahujícího průměrné roční výnosy 15 velmi rizikových podílových fondů, Q 1 = 1,8 nebo –0,7 pro QUARTILE.IN a QUARTILE.EX, v tomto pořadí. Mimochodem, dříve používaná funkce QUARTILE odpovídá moderní funkci QUARTILE.ON. Chcete-li vypočítat kvartily v aplikaci Excel pomocí výše uvedených vzorců, datové pole není nutné objednávat.

Rýže. 4. Výpočet kvartilů v Excelu

Znovu zdůrazněme. Excel umí vypočítat kvartily pro jednu proměnnou diskrétní série, obsahující hodnoty náhodné proměnné. Výpočet kvartilů pro frekvenční rozdělení je uveden níže v části.

Geometrický průměr

Na rozdíl od aritmetického průměru vám geometrický průměr umožňuje odhadnout míru změny proměnné v čase. Geometrický průměr je kořen n stupeň z práce n veličin (v Excelu se používá funkce =SRGEOM):

G= (X 1 * X 2 * … * X n) 1/n

Podobný parametr - geometrická střední hodnota míry zisku - je určen vzorcem:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

Kde R i– míra zisku za ičasové období.

Předpokládejme například, že počáteční investice je 100 000 USD. Do konce prvního roku klesne na 50 000 USD a do konce druhého roku se vrátí na počáteční úroveň 100 000 USD. Míra návratnosti této investice za dva -roční období se rovná 0, protože počáteční a konečná výše prostředků se navzájem rovnají. Aritmetický průměr roční míry návratnosti je však = (–0,5 + 1) / 2 = 0,25 nebo 25 %, protože míra návratnosti v prvním roce R 1 = (50 000 – 100 000) / 100 000 = –0,5 , a ve druhém R 2 = (100 000 – 50 000) / 50 000 = 1. Přitom geometrická střední hodnota míry zisku za dva roky je rovna: G = [(1–0,5) * (1+ 1 )] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Geometrický průměr tedy přesněji odráží změnu (přesněji absenci změn) objemu investice za dvouleté období než aritmetický průměr.

Zajímavosti. Za prvé, geometrický průměr bude vždy menší než aritmetický průměr stejných čísel. S výjimkou případu, kdy jsou všechna přijatá čísla rovna. Za druhé, když vezmete v úvahu vlastnosti pravoúhlého trojúhelníku, můžete pochopit, proč se průměr nazývá geometrický. Výška pravoúhlého trojúhelníku, sníženého k přeponě, je průměrem úměrným mezi průměty noh na přeponu a každá větev je průměrnou úměrností mezi přeponou a jejím průmětem do přepony (obr. 5). To poskytuje geometrický způsob, jak sestrojit geometrický průměr dvou (délkových) segmentů: musíte sestrojit kružnici na součtu těchto dvou segmentů jako průměr, pak výšku obnovenou od bodu jejich připojení k průsečíku s kružnicí. dá požadovanou hodnotu:

Rýže. 5. Geometrický charakter geometrického průměru (obrázek z Wikipedie)

Druhou důležitou vlastností číselných údajů je jejich variace, charakterizující stupeň rozptylu dat. Dva různé vzorky se mohou lišit jak průměrem, tak rozptylem. Nicméně, jak je znázorněno na Obr. 6 a 7, dva vzorky mohou mít stejné variace, ale různé prostředky, nebo stejné prostředky a zcela odlišné variace. Data, která odpovídají polygonu B na Obr. 7 se mění mnohem méně než data, na kterých byl polygon A zkonstruován.

Rýže. 6. Dvě symetrická zvonovitá rozdělení se stejným rozptylem a různými středními hodnotami

Rýže. 7. Dvě symetrická rozdělení ve tvaru zvonu se stejnými středními hodnotami a různými rozpětími

Existuje pět odhadů odchylek dat:

  • rozsah,
  • Rozsah interkvartilní,
  • rozptyl,
  • standardní odchylka,
  • variační koeficient.

Rozsah

Rozsah je rozdíl mezi největším a nejmenším prvkem vzorku:

Rozsah = XMax – XMin

Rozpětí vzorku obsahujícího průměrné roční výnosy 15 velmi rizikových podílových fondů lze vypočítat pomocí uspořádaného pole (viz obrázek 4): Rozsah = 18,5 – (–6,1) = 24,6. To znamená, že rozdíl mezi nejvyššími a nejnižšími průměrnými ročními výnosy velmi rizikových fondů je 24,6 %.

Rozsah měří celkové rozšíření dat. Ačkoli rozsah vzorků je velmi jednoduchý odhad celkového rozptylu dat, jeho slabinou je, že nebere v úvahu přesně to, jak jsou data rozdělena mezi minimální a maximální prvky. Tento efekt je dobře patrný na obr. 8, který znázorňuje vzorky se stejným rozsahem. Stupnice B ukazuje, že pokud vzorek obsahuje alespoň jednu extrémní hodnotu, rozsah vzorku je velmi nepřesným odhadem rozptylu dat.

Rýže. 8. Porovnání tří vzorků se stejným rozsahem; trojúhelník symbolizuje oporu stupnice a jeho umístění odpovídá vzorovému průměru

Rozsah interkvartilní

Interkvartil neboli průměrné rozmezí je rozdíl mezi třetím a prvním kvartilem vzorku:

Interkvartilní rozmezí = Q 3 – Q 1

Tato hodnota nám umožňuje odhadnout rozptyl 50 % prvků a nezohledňovat vliv extrémních prvků. Mezikvartilové rozpětí vzorku obsahujícího průměrné roční výnosy 15 velmi rizikových podílových fondů lze vypočítat pomocí údajů na Obr. 4 (například pro funkci QUARTILE.EXC): Interkvartilní rozsah = 9,8 – (–0,7) = 10,5. Interval ohraničený čísly 9,8 a -0,7 se často nazývá střední polovina.

Je třeba poznamenat, že hodnoty Q 1 a Q 3 , a tedy mezikvartilové rozmezí, nezávisí na přítomnosti odlehlých hodnot, protože jejich výpočet nebere v úvahu žádnou hodnotu, která by byla menší než Q 1 nebo větší. než Q3. Souhrnná měření, jako je medián, první a třetí kvartil a mezikvartilové rozpětí, které nejsou ovlivněny odlehlými hodnotami, se nazývají robustní míry.

Přestože rozsah a mezikvartilové rozpětí poskytují odhady celkového a průměrného rozpětí vzorku, žádný z těchto odhadů nebere v úvahu přesně to, jak jsou data distribuována. Rozptyl a směrodatná odchylka postrádají tuto nevýhodu. Tyto indikátory umožňují posoudit míru, do jaké data kolísají kolem průměrné hodnoty. Ukázkový rozptyl je aproximací aritmetického průměru vypočteného ze čtverců rozdílů mezi každým prvkem vzorku a průměrem vzorku. Pro výběr X 1, X 2, ... X n je výběrový rozptyl (označený symbolem S 2 dán následujícím vzorcem:

Obecně je rozptyl vzorku součet čtverců rozdílů mezi prvky vzorku a průměrem vzorku, dělený hodnotou rovnou velikosti vzorku mínus jedna:

Kde - aritmetický průměr, n- velikost vzorku, X i - i prvek výběru X. V Excelu před verzí 2007 se pro výpočet rozptylu vzorku používala funkce =VARIN(), od verze 2010 se používá funkce =VARIAN().

Nejpraktičtější a široce přijímaný odhad šíření dat je vzorová směrodatná odchylka. Tento indikátor je označen symbolem S a je roven druhé odmocnině výběrového rozptylu:

V Excelu před verzí 2007 byla pro výpočet směrodatné výběrové odchylky použita funkce =STDEV.(), od verze 2010 je použita funkce =STDEV.V(). Pro výpočet těchto funkcí může být datové pole neuspořádané.

Ani výběrový rozptyl, ani výběrová směrodatná odchylka nemohou být negativní. Jediná situace, ve které mohou být indikátory S 2 a S nulové, je, pokud jsou všechny prvky vzorku navzájem stejné. V tomto zcela nepravděpodobném případě je rozsah a mezikvartilní rozsah také nulový.

Numerická data jsou ze své podstaty nestálá. Každá proměnná může nabývat mnoha různých hodnot. Například různé podílové fondy mají různé míry návratnosti a ztráty. Vzhledem k variabilitě číselných údajů je velmi důležité studovat nejen odhady průměru, které mají souhrnný charakter, ale také odhady rozptylu, které charakterizují šíření údajů.

Rozptyl a směrodatná odchylka umožňují vyhodnotit rozptyl dat kolem průměrné hodnoty, jinými slovy určit, kolik prvků vzorku je menší než průměr a kolik je větší. Disperze má některé cenné matematické vlastnosti. Jeho hodnota je však druhou mocninou měrné jednotky – čtvereční procento, čtvereční dolar, čtvereční palec atd. Proto je přirozenou mírou rozptylu standardní odchylka, která je vyjádřena v běžných jednotkách procenta příjmu, dolarech nebo palcích.

Směrodatná odchylka vám umožňuje odhadnout míru variace prvků vzorku kolem průměrné hodnoty. Téměř ve všech situacích se většina pozorovaných hodnot nachází v rozmezí plus nebo mínus jedné standardní odchylky od průměru. V důsledku toho, když známe aritmetický průměr prvků vzorku a směrodatnou výběrovou odchylku, je možné určit interval, do kterého patří většina dat.

Standardní odchylka výnosů pro 15 velmi rizikových podílových fondů je 6,6 (obrázek 9). To znamená, že výnosnost většiny fondů se neliší od průměrné hodnoty o více než 6,6 % (tj. pohybuje se v rozmezí od –S= 6,2 – 6,6 = –0,4 až +S= 12,8). Ve skutečnosti se pětiletý průměrný roční výnos 53,3 % (8 z 15) fondů nachází v tomto rozmezí.

Rýže. 9. Vzorová směrodatná odchylka

Všimněte si, že při sčítání čtverců rozdílů jsou položky vzorku, které jsou dále od průměru, váženy více než položky, které jsou blíže průměru. Tato vlastnost je hlavním důvodem, proč se aritmetický průměr nejčastěji používá k odhadu střední hodnoty rozdělení.

Variační koeficient

Na rozdíl od předchozích odhadů rozptylu je variační koeficient relativním odhadem. Vždy se měří v procentech a ne v jednotkách původních dat. Variační koeficient, označený symboly CV, měří rozptyl dat kolem průměru. Variační koeficient se rovná standardní odchylce dělené aritmetickým průměrem a vynásobené 100 %:

Kde S- standardní odchylka vzorku, - průměr vzorku.

Variační koeficient umožňuje porovnat dva vzorky, jejichž prvky jsou vyjádřeny v různých měrných jednotkách. Například manažer poštovní doručovací služby hodlá obnovit svůj vozový park. Při nakládání balíků je třeba vzít v úvahu dvě omezení: hmotnost (v librách) a objem (v krychlových stopách) každého balíku. Předpokládejme, že ve vzorku obsahujícím 200 pytlů je průměrná hmotnost 26,0 liber, směrodatná odchylka hmotnosti je 3,9 liber, průměrný objem pytle je 8,8 kubických stop a směrodatná odchylka objemu je 2,2 kubických stop. Jak porovnat rozdíly v hmotnosti a objemu balíků?

Vzhledem k tomu, že se jednotky měření hmotnosti a objemu od sebe liší, musí manažer porovnávat relativní rozptyl těchto veličin. Variační koeficient hmotnosti je CV W = 3,9 / 26,0 * 100 % = 15 % a variační koeficient objemu je CV V = 2,2 / 8,8 * 100 % = 25 %. Relativní změna objemu paketů je tedy mnohem větší než relativní změna jejich hmotnosti.

Distribuční formulář

Třetí důležitou vlastností vzorku je tvar jeho rozložení. Toto rozdělení může být symetrické nebo asymetrické. Pro popis tvaru rozdělení je nutné vypočítat jeho střední hodnotu a medián. Pokud jsou obě stejné, proměnná se považuje za symetricky rozdělenou. Pokud je střední hodnota proměnné větší než medián, má její rozdělení kladnou šikmost (obr. 10). Pokud je medián větší než průměr, distribuce proměnné je negativně zkreslená. Pozitivní šikmost nastává, když se průměr zvýší na neobvykle vysoké hodnoty. Negativní zešikmení nastává, když průměr klesne na neobvykle malé hodnoty. Proměnná je symetricky distribuována, pokud nenabývá extrémních hodnot v žádném směru, takže velké a malé hodnoty proměnné se navzájem ruší.

Rýže. 10. Tři typy rozdělení

Data uvedená na stupnici A jsou negativně zkreslená. Tento obrázek ukazuje dlouhý ocas a zkosení doleva způsobené přítomností neobvykle malých hodnot. Tyto extrémně malé hodnoty posouvají průměrnou hodnotu doleva, takže je menší než medián. Údaje zobrazené na stupnici B jsou rozloženy symetricky. Levá a pravá polovina distribuce jsou jejich zrcadlovým obrazem. Velké a malé hodnoty se navzájem vyvažují a průměr a medián jsou stejné. Údaje uvedené na stupnici B jsou pozitivně zkreslené. Tento obrázek ukazuje dlouhý ocas a zkosení doprava způsobené přítomností neobvykle vysokých hodnot. Tyto příliš velké hodnoty posouvají průměr doprava, takže je větší než medián.

V Excelu lze získat popisnou statistiku pomocí doplňku Balíček analýzy. Projděte si nabídku DataAnalýza dat, v okně, které se otevře, vyberte řádek Deskriptivní statistika a klikněte OK. V okně Deskriptivní statistika určitě uveďte Interval vstupu(obr. 11). Pokud chcete zobrazit popisnou statistiku na stejném listu jako původní data, vyberte přepínač Výstupní interval a zadejte buňku, kam má být umístěn levý horní roh zobrazené statistiky (v našem příkladu $C$1). Pokud chcete vytisknout data do nového listu nebo nového sešitu, stačí vybrat příslušný přepínač. Zaškrtněte políčko vedle Souhrnná statistika. Na přání si můžete také vybrat Stupeň obtížnosti,k-té nejmenší ak. největší.

Pokud na zálohu Data v oblasti Analýza nevidíte ikonu Analýza dat, musíte nejprve nainstalovat doplněk Balíček analýzy(viz například).

Rýže. 11. Popisná statistika pětiletých průměrných ročních výnosů fondů s velmi vysokou mírou rizika, vypočítaná pomocí doplňku Analýza dat Excel programy

Excel vypočítává řadu výše uvedených statistik: průměr, medián, režim, směrodatná odchylka, rozptyl, rozsah ( interval), minimální, maximální a velikost vzorku ( šek). Excel také vypočítává některé statistiky, které jsou pro nás nové: standardní chyba, špičatost a šikmost. Standardní chyba rovna standardní odchylce dělené druhou odmocninou velikosti vzorku. Asymetrie charakterizuje odchylku od symetrie rozdělení a je funkcí, která závisí na třetí mocnině rozdílů mezi prvky vzorku a průměrné hodnotě. Kurtóza je mírou relativní koncentrace dat kolem průměru ve srovnání s koncem distribuce a závisí na rozdílech mezi prvky vzorku a průměrem zvýšeným na čtvrtou mocninu.

Výpočet popisné statistiky pro populaci

Průměr, rozptyl a tvar distribuce diskutované výše jsou charakteristiky určené ze vzorku. Pokud však soubor dat obsahuje číselná měření celé populace, lze jeho parametry vypočítat. Tyto parametry zahrnují očekávanou hodnotu, rozptyl a směrodatnou odchylku základního souboru.

Očekávaná hodnota rovná se součtu všech hodnot v populaci děleno velikostí populace:

Kde µ - očekávaná hodnota, Xi- i pozorování proměnné X, N- objem běžné populace. V Excelu se pro výpočet matematického očekávání používá stejná funkce jako pro aritmetický průměr: =AVERAGE().

Rozptyl populace roven součtu čtverců rozdílů mezi prvky běžné populace a mat. očekávání děleno velikostí populace:

Kde σ 2– rozptyl běžné populace. V Excelu před verzí 2007 se k výpočtu rozptylu základního souboru používá funkce =VARP() počínaje verzí 2010 =VARP().

Směrodatná odchylka populace rovná se druhé odmocnině populačního rozptylu:

V aplikaci Excel před verzí 2007 se funkce =STDEV() používá k výpočtu směrodatné odchylky základního souboru počínaje verzí 2010 =STDEV.Y(). Všimněte si, že vzorce pro rozptyl základního souboru a směrodatnou odchylku se liší od vzorců pro výpočet výběrového rozptylu a směrodatné odchylky. Při výpočtu statistiky vzorků S 2 A S jmenovatel zlomku je n – 1 a při výpočtu parametrů σ 2 A σ - objem běžné populace N.

Pravidlo

Ve většině situací je velká část pozorování soustředěna kolem mediánu a tvoří shluk. V souborech dat s kladným zešikmením je tento shluk umístěn vlevo (tj. pod) od matematického očekávání a v souborech s negativním zešikmením je tento shluk umístěn vpravo (tj. nad) od matematického očekávání. Pro symetrická data jsou průměr a medián stejné a pozorování se shlukují kolem průměru a tvoří tak zvonovitou distribuci. Pokud distribuce není jasně zkreslená a data jsou soustředěna kolem těžiště, lze k odhadu variability použít orientační pravidlo, že pokud mají data rozložení ve tvaru zvonu, pak přibližně 68 % pozorování je v rámci jedna směrodatná odchylka očekávané hodnoty.přibližně 95 % pozorování není vzdáleno od matematického očekávání více než dvě směrodatné odchylky a 99,7 % pozorování není více než tři směrodatné odchylky od matematického očekávání.

Směrodatná odchylka, což je odhad průměrné variace kolem očekávané hodnoty, tedy pomáhá pochopit, jak jsou pozorování rozdělena, a identifikovat odlehlé hodnoty. Pravidlem je, že u zvonovitých rozdělení se pouze jedna hodnota z dvaceti liší od matematického očekávání o více než dvě směrodatné odchylky. Proto hodnoty mimo interval u ± 2σ, lze považovat za odlehlé hodnoty. Kromě toho se pouze tři z 1000 pozorování liší od matematického očekávání o více než tři směrodatné odchylky. Tedy hodnoty mimo interval u ± 3σ jsou téměř vždy odlehlé. Pro distribuce, které jsou velmi šikmé nebo nemají zvonovitý tvar, lze použít Bienamay-Chebyshevovo pravidlo palce.

Před více než sto lety matematici Bienamay a Chebyshev nezávisle na sobě objevili užitečnou vlastnost směrodatné odchylky. Zjistili, že pro jakýkoli soubor dat, bez ohledu na tvar distribuce, procento pozorování ležících ve vzdálenosti k standardní odchylky od matematického očekávání, ne méně (1 – 1/ k 2)*100 %.

Například pokud k= 2, pravidlo Bienname-Chebyshev říká, že alespoň (1 – (1/2) 2) x 100 % = 75 % pozorování musí ležet v intervalu u ± 2σ. Toto pravidlo platí pro všechny k, přesahující jednu. Bienamay-Čebyševovo pravidlo je velmi obecné a platí pro distribuce jakéhokoli typu. Specifikuje minimální počet pozorování, přičemž vzdálenost od matematického očekávání nepřesahuje stanovenou hodnotu. Pokud je však distribuce ve tvaru zvonu, orientační pravidlo přesněji odhadne koncentraci dat kolem očekávané hodnoty.

Výpočet popisné statistiky pro rozdělení na základě frekvence

Nejsou-li k dispozici původní data, stává se jediným zdrojem informací rozdělení četnosti. V takových situacích je možné vypočítat přibližné hodnoty kvantitativních ukazatelů rozdělení, jako je aritmetický průměr, směrodatná odchylka a kvartily.

Pokud jsou ukázková data reprezentována jako frekvenční rozdělení, lze aproximaci aritmetického průměru vypočítat za předpokladu, že všechny hodnoty v každé třídě jsou soustředěny ve středu třídy:

Kde - průměr vzorku, n- počet pozorování nebo velikost vzorku, S- počet tříd v rozdělení frekvencí, m j- střed j třída, Fj- frekvence odpovídající j-té třídy.

Pro výpočet směrodatné odchylky od frekvenčního rozdělení se také předpokládá, že všechny hodnoty v rámci každé třídy jsou soustředěny ve středu třídy.

Abychom pochopili, jak se kvartily řady určují na základě četností, zvažte výpočet dolního kvartilu na základě údajů za rok 2013 o rozdělení ruské populace podle průměrného peněžního příjmu na hlavu (obr. 12).

Rýže. 12. Podíl ruské populace s průměrným peněžním příjmem na hlavu za měsíc, rublech

Pro výpočet prvního kvartilu intervalové variační řady můžete použít vzorec:

kde Q1 je hodnota prvního kvartilu, xQ1 je spodní hranice intervalu obsahujícího první kvartil (interval je určen akumulovanou frekvencí, která jako první překročí 25 %); i – intervalová hodnota; Σf – součet frekvencí celého vzorku; pravděpodobně vždy rovno 100 %; SQ1–1 – kumulovaná frekvence intervalu předcházejícího intervalu obsahujícímu dolní kvartil; fQ1 – četnost intervalu obsahujícího dolní kvartil. Vzorec pro třetí kvartil se liší v tom, že na všech místech musíte použít Q3 místo Q1 a dosadit ¾ místo ¼.

V našem příkladu (obr. 12) je dolní kvartil v rozmezí 7000,1 – 10 000, jehož akumulovaná frekvence je 26,4 %. Spodní hranice tohoto intervalu je 7000 rublů, hodnota intervalu je 3000 rublů, kumulovaná frekvence intervalu předcházejícího intervalu obsahujícímu dolní kvartil je 13,4 %, frekvence intervalu obsahujícího dolní kvartil je 13,0 %. Tedy: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 rub.

Úskalí spojená s popisnou statistikou

V tomto příspěvku jsme se podívali na to, jak popsat sadu dat pomocí různých statistik, které vyhodnocují její průměr, šíření a distribuci. Dalším krokem je analýza a interpretace dat. Doposud jsme studovali objektivní vlastnosti dat a nyní přejdeme k jejich subjektivní interpretaci. Výzkumník čelí dvěma chybám: nesprávně zvolenému předmětu analýzy a nesprávné interpretaci výsledků.

Analýza výnosů 15 velmi rizikových podílových fondů je zcela nezaujatá. Dospěl ke zcela objektivním závěrům: všechny podílové fondy mají různé výnosy, spread výnosů fondů se pohybuje od -6,1 do 18,5 a průměrný výnos je 6,08. Objektivita analýzy dat je zajištěna správnou volbou souhrnných kvantitativních ukazatelů rozdělení. Bylo zvažováno několik metod pro odhad střední hodnoty a rozptylu dat a byly naznačeny jejich výhody a nevýhody. Jak si vybrat správné statistiky, které poskytují objektivní a nestrannou analýzu? Pokud je distribuce dat mírně zkreslená, měli byste zvolit spíše medián než průměr? Který ukazatel přesněji charakterizuje rozptyl dat: směrodatná odchylka nebo rozmezí? Měli bychom poukázat na to, že distribuce je pozitivně zkreslená?

Na druhou stranu je interpretace dat subjektivní proces. Různí lidé docházejí při interpretaci stejných výsledků k různým závěrům. Každý má svůj úhel pohledu. Někdo považuje celkové průměrné roční výnosy 15 fondů s velmi vysokou mírou rizika za dobré a je s obdrženými příjmy celkem spokojen. Jiní mohou mít pocit, že tyto fondy mají příliš nízké výnosy. Subjektivita by tedy měla být kompenzována poctivostí, neutralitou a jasností závěrů.

Etické problémy

Analýza dat je neoddělitelně spjata s etickými otázkami. Měli byste být kritičtí k informacím šířeným novinami, rádiem, televizí a internetem. Postupem času se naučíte být skeptičtí nejen k výsledkům, ale i k cílům, předmětu a objektivitě výzkumu. Slavný britský politik Benjamin Disraeli to řekl nejlépe: „Existují tři druhy lží: lži, zatracené lži a statistiky.

Jak je uvedeno v poznámce, při výběru výsledků, které by měly být uvedeny ve zprávě, vyvstávají etické problémy. Měly by být zveřejněny pozitivní i negativní výsledky. Kromě toho musí být při sestavování zprávy nebo písemné zprávy výsledky prezentovány čestně, neutrálně a objektivně. Je třeba rozlišovat mezi nepovedenou a nepoctivou prezentací. K tomu je nutné určit, jaké byly záměry mluvčího. Někdy mluvčí vynechá důležité informace z neznalosti a někdy je to záměrně (například pokud použije aritmetický průměr k odhadu průměru jasně zkreslených dat, aby získal požadovaný výsledek). Nepoctivé je také potlačování výsledků, které neodpovídají pohledu výzkumníka.

Jsou použity materiály z knihy Levin et al Statistika pro manažery. – M.: Williams, 2004. – str. 178–209

Funkce QUARTILE byla zachována kvůli kompatibilitě se staršími verzemi aplikace Excel.

Hlavní charakteristiky parametrů obecné a výběrové populace jsou označeny symboly: N - objem obecné populace (počet jednotek v ní zahrnutých); n - velikost výběrového souboru (počet zkoumaných jednotek); - obecný průměr (průměrná hodnota charakteristiky v běžné populaci); - průměr vzorku; p - obecný podíl (podíl jednotek majících danou hodnotu atributu na celkovém počtu jednotek v obecné populaci); w je frakce vzorku. Podíl vzorku je poměr počtu jednotek ve výběrové populaci k počtu jednotek v obecné populaci: . Při aplikaci výběrové metody ve statistice se obvykle používají dva hlavní typy zobecňujících ukazatelů: průměrná hodnota kvantitativní charakteristiky a relativní hodnota alternativní charakteristiky (podíl nebo podíl jednotek ve statistickém souboru, které se liší od všech ostatních jednotek). této populace pouze přítomností studované charakteristiky). Podíl výběrového souboru (w), neboli četnost, je určen poměrem počtu jednotek majících studovanou charakteristiku m k celkovému počtu jednotek ve výběrovém souboru n: w = m / n. Charakterizovat spolehlivost výběrových ukazatelů , rozlišují se průměrné a maximální výběrové chyby. Výběrová chyba nebo, jinými slovy, chyba reprezentativnosti je rozdíl mezi odpovídajícím vzorkem a obecnými charakteristikami: pro průměrnou kvantitativní charakteristiku; pro podíl (alternativní atribut). Průměr vzorku a podíl vzorku jsou náhodné proměnné, které mohou nabývat různých hodnot v závislosti na tom, které jednotky populace jsou ve vzorku zahrnuty. Proto se určí průměr možných chyb – průměrná výběrová chyba.

Průměrná výběrová chyba při opakovaném výběru se vypočítá pomocí následujících vzorců: pro průměrnou kvantitativní charakteristiku: ; pro podíl (alternativní atribut): . Průměrná výběrová chyba při neopakovaném vzorkování se vypočítá pomocí následujících vzorců: pro průměrnou jakostní charakteristiku; pro podíl (alternativní atribut). V každém specifickém vzorku může být rozdíl mezi průměrem vzorku a obecným průměrem menší, roven nebo větší než průměrná chyba. Navíc každá z těchto nesrovnalostí má jinou pravděpodobnost. Skutečné nesrovnalosti mezi průměrem výběru a obecným lze tedy považovat za určitou mezní chybu spojenou s průměrnou chybou a garantovanou s určitou pravděpodobností P. Maximální výběrovou chybu lze vypočítat pomocí následujících vzorců: při opakovaném výběru: pro průměr, kde t je normalizovaná odchylka - „důvěra koeficientu“, v závislosti na pravděpodobnosti, se kterou je zaručena maximální výběrová chyba; - průměrná výběrová chyba; pro podíl; s neopakovatelným výběrem: pro průměr; za podíl. S pravděpodobností 0,683 je koeficient t = 1; s pravděpodobností 0,954, koeficient t = 2; s pravděpodobností 0,997, koeficient t = 3. Maximální výběrová chyba nám umožňuje stanovit mezní hodnoty charakteristik obecné populace a jejich intervaly spolehlivosti: pro průměr; ; pro podíl; . Spolu s absolutní hodnotou maximální výběrové chyby se vypočítá i maximální relativní výběrová chyba, která je definována jako procentuální poměr maximální výběrové chyby k odpovídající charakteristice výběrového souboru: pro průměr %: ; pro podíl, %: .

Testování hypotéz o rozdílech mezi podíly respondentů.Často musí výzkumník vyřešit následující problém. Předpokládejme, že všichni respondenti jsou rozděleni do dvou podskupin. (Může se jednat o zástupce dvou nezávisle konstruovaných vzorků, např. vzorek obyvatel Moskvy a vzorek obyvatel Petrohradu, nebo se může jednat o jedince, u kterých byly zjištěny rozdíly při průzkumu zástupců stejného vzorku respondentů Výzkumník musí zjistit, zda byly odpovědi zástupců těchto dvou podskupin na některou konkrétní otázku v dotazníku rozloženy stejně nebo odlišně.

Příklad 12.6

Studie preferencí v oblasti oblečení (údaje jsou předběžné)

Ať nás například zajímá, zda se v Moskvě a Petrohradu liší podíly těch, kdo nosí džíny. Nechte v každém z těchto měst sestavit reprezentativní vzorky a provést průzkumy. Předpokládejme, že byly získány následující výsledky (tabulka 12.21).

Tabulka 12.21. Respondenti, kteří nosí a nenosí džíny, podle průzkumů osob mladších 35 let v Moskvě a Petrohradě lidé

Vidíme, že v Moskvě nosí džíny 80 % respondentů a v Petrohradu pouze 60 %. Je ale 20% rozdíl dostatečný na to, abychom řekli, že to není náhoda, že obecně Moskvané nosí džíny častěji než obyvatelé Petrohradu?

K zodpovězení této otázky použijeme známou statistiku z, která má standardizované normální rozdělení, což nám pomohlo zjistit, že podíl respondentů, kteří si byli vědomi nového produktu zjištěný v jiném průzkumu, se výrazně liší od fixní hodnoty zamýšlené výzkumníkem.

Statistiky pro tento případ jsou následující:

kde p1 a p2 jsou podíly těch, kteří nosí džíny, z počtu respondentů v Moskvě a Petrohradu (0,8 a 0,6); - posouzení směrodatné odchylky rozdílu mezi podíly p1 a p2.

Odhad směrodatné odchylky rozdílu v proporcích se vypočte pomocí vzorce

(12.17)

kde p je podíl těch, kteří používají džíny, mezi všemi respondenty ve dvou vzorcích; n1 a n2 jsou počty respondentů v Moskvě a Petrohradu.

Hodnota p se vypočítá pomocí vzorce

V našem příkladu máme:

Protože se zajímáme sami o sebe skutečnost, že je rozdíl v podílu lidí, kteří nosí džíny v těchto městech a ne překračující podíl těch, kteří nosí džíny v Moskvě ve srovnání se stejným podílem v Petrohradu, má nulová a alternativní hypotéza podobu:

Proto při předchozí hladině spolehlivosti 0,95 je prahová hodnota na křivce normálního rozdělení 1,96.

A protože 4,36 > 1,96 je nulová hypotéza zamítnuta, tzn. Údaje z průzkumů nejsou v rozporu s tvrzením, že podíl lidí nosících džíny v Moskvě a Petrohradu je rozdílný.

Testování hypotéz o rozdílech mezi prostředky.Často je nutné zjistit, zda rozdíly mezi průměry nějaké veličiny vypočítané z odpovědí zástupců dvou různých dílčích souborů respondentů nejsou způsobeny náhodou. Výzkumníka může například zajímat, zda obyvatelé Moskvy skutečně hodnotí určitý produkt výše než obyvatelé Petrohradu, pokud je průměrné hodnocení tohoto produktu na pětibodové škále od moskevských respondentů vyšší než u respondentů z Petrohradu. .

K testování tohoto druhu hypotéz se používá Studentská statistika s počtem stupňů volnosti (n1 + n0 - 1), kde n1 a n2 jsou počty objektů (v tomto případě respondentů) v každém ze dvou vzorků:

kde a jsou průměrné hodnoty hodnocení produktů podle průzkumů v Moskvě a Petrohradu; - posouzení směrodatné odchylky rozdílu mezi průměrnými hodnotami, které nás zajímají, mezi těmito městy.

Poslední hodnota se vypočítá pomocí vzorce

kde s je vážená průměrná směrodatná odchylka odhadů od odpovídajících průměrných hodnot v každém ze vzorků.

Hodnota s se zase vypočítá pomocí vzorce

(12.21)

kde x1,i a x2,j jsou odhady získané pro i-tý objekt z prvního vzorku a j-tý objekt z druhého vzorku.

Tyto kontroly se provádějí pomocí softwarového balíčku SPSS(Jídelní lístek Analyzovat - Porovnat prostředky - Nezávislé vzorky T-test).

Závislé vzorky

Výše diskutovaný problém se týkal případu, kdy jsou porovnávány podíly nebo průměrné hodnoty těch, kteří určitým způsobem odpověděli na zájmovou otázku ve dvou různých skupinách respondentů. Často je však potřeba porovnávat nikoli reakce různých respondentů (například těch, kteří žijí v různých městech), ale dvě reakce od stejných respondentů. K tomu dochází, když jsou informace shromážděny dvakrát na stejném vzorku n objektů. Například stejní respondenti jsou dotazováni dvakrát a je nutné ověřit hypotézu, že se jejich hodnocení během doby mezi průzkumy změnilo. Řekněme, že potřebujeme zjistit, zda se po reklamní kampani skutečně zvýšil podíl panelistů, kteří vědí o existenci určitého produktu. Nebo zjistěte, zda o existenci produktu A skutečně ví více respondentů než o produktu B, nebo zda rozdíl pozorovaný v údajích z průzkumu není jen náhodou.

V případě závislých vzorků pro testování hypotézy o absenci rozdílů ve středních hodnotách Je použita následující testovací statistika s (n - 1) stupni volnosti:

kde a jsou průměrné hodnoty hodnocení v prvním a druhém měření; - směrodatná odchylka stanovení rozdílů v průměrných hodnotách hodnocení ve dvou měřeních, vypočtená podle vzorce

Zde je směrodatná odchylka rozdílů mezi odhady ve dvou měřeních, která se naopak vypočítá podle vzorce

(12.24)

kde a jsou odhady na objektech v prvním a druhém měření.

Upozorňujeme, že tyto kontroly lze provádět pomocí softwarového balíčku SPSS(Jídelní lístek Analyzovat - Porovnat průměry - T-test párových vzorků).

Přehled dalších úloh analýzy dat

Naším cílem nebylo diskutovat o metodách řešení celé řady problémů, které je nutné čas od času řešit při základní analýze marketingových dat. Zvažovali jsme pouze ty z nich, které se používají častěji než ostatní.

Na závěr této části zdůrazňujeme následující. Jak již bylo uvedeno, hlavním materiálem pro zprávu o marketingovém výzkumu jsou tabulky rozdělení četností a křížové tabulky. Strukturu těchto tabulek lze předem nastínit do té míry, do jaké souvisí s cíli výzkumu a zvolenými přístupy k jejich řešení, tzn. výzkumník sám přiřazuje skupiny respondentů, které ho zajímají, a umísťuje je do sloupců kontingenčních tabulek.

Podobu některých reportovacích tabulek však lze často definitivně stanovit až ve fázi hloubkové analýzy dat. Teprve v této fázi je tedy možné segmentovat zkoumanou populaci a najít segmenty, které se od sebe nejvýrazněji liší v reakci svých zástupců na marketingové akce společnosti. Vytvořením příslušných křížových tabulek můžete podrobně prostudovat charakteristiky každého ze segmentů, což vám umožní vytvořit sadu účinných marketingových mixů.

Existuje mnoho metod pro hloubkovou analýzu dat. Hlavním účelem většiny z nich je navrhnout výzkumníkovi, který princip segmentace bude nejúspěšnější v tom smyslu, že pak vytvořené křížové tabulky budou demonstrovat nejvýraznější kontrasty. Je zajímavé, že mnoho badatelů ve snaze dosáhnout stručnosti a srozumitelnosti prezentace materiálů a také pomalu odhalovat tajemství svých dovedností nechává mimo rámec zprávy metodu, kterou použili k nalezení této nejúspěšnější formy tabulek. Budeme zvažovat dvě metody, které takové „nápovědy“ poskytují – metody shlukové a faktorové analýzy. Tyto metody jsou přizpůsobeny pro práci s binárními a metrickými stupnicemi, které se často vyskytují v marketingovém výzkumu.

Výzkumníci mají ve svém arzenálu také metody, které jim umožňují zjistit, jak budou spotřebitelé reagovat na konkrétní kombinaci vlastností produktu a jak moc si té či oné vlastnosti produktu váží. To dává manažerům trhu mnoho podnětů k zamyšlení při vývoji jejich marketingového mixu. Jednou z takových metod je sdružená analýza ( společná analýza) - budeme také zvažovat později.

Odhad průměrné hodnoty má za cíl stanovit hodnotu obecného průměru pro studovanou kategorii objektů. Chyba reprezentativnosti požadovaná pro tento účel je určena vzorcem:

Při studiu produktivity vlny jednoho plemene ovcí bylo odebráno 100 ročních útržků vlny od 100 dospělých ovcí z různých stanovišť plemene. Průměrné stříhání pro 100 ovcí vyšlo μ = 5,0 kg, směrodatná odchylka pro tento vzorek je s = 1,0. Zodpovědnost studie je normální, proto byl přijat první práh pravděpodobnosti bezchybných předpovědí b 1 = 0,95.

Průměrný střih pro celé plemeno lze odhadnout takto:

n = 100; μ = 5,0; s = 1,0; n = 100 – 1 = 99; t = 2,0;

D = 2,0 x 0,1 = 0,2;

μ max =5,0 + 0,2 = 5,2 (možné maximum);

μ min = 5,0 – 0,2 = 4,8 (zaručené minimum).

1 Průměrný odstřižek vlny pro studovaný vzorek je roven
μ ± = 5,0 ± 0,2, meze spolehlivosti obecného průměru 4,8 – 5,2. Pomocí těchto ukazatelů je možné porovnávat výsledky studie s výsledky jiných prací.

2 Výnos vlny (n = 10 000) na základě studie by měl být plánován na základě garantovaného minimálního obecného průměru μ min = 4,8 kg na hlavu nebo 48 tun vlny ze všech dospělých ovcí daného plemene.

3 Práce na stříhání, zpracování, přepravě a skladování vlny by měly být plánovány na základě možného maximálního obecného průměru μ max = 5,2 kg na hlavu, neboli 52 tun od všech ovcí studované kategorie.

Při studiu schopnosti učení bílých myší se u každého ze 40 jedinců určitého původu zaznamenával čas strávený průchodem bludištěm při hledání potravy po pátém pokusu.V jednom experimentu byly získány následující souhrnné ukazatele:
n = 40, μ = 7,0 min, s = 3,0 min

Bylo nutné určit průměrnou možnou dobu k dokončení bludiště pro myši celého studovaného kmene, což lze provést následovně: n = 40, μ = 7,0, s = 3,0, n = 40 – 1 = 39, t = 2 (obvyklá odpovědnost : b = 0,95), = 3 / = 0,48; D = 2 × 0,48 = 0,96 ≈ 1,0, tj. ne více než 7,0 + 1,0 = 8,0; ne méně než 7,0 – 1,0 = 6,0.

1 Průměrný čas pro experimentální skupinu

μ ± = 7,0 ± 0,48 min.

2 Meze spolehlivosti obecného průměru

μ ± D= 6,0 – 8,0 min.

3 Pokud se setkáte se skupinou myší s průměrným časem nebo kratším než 6 minut. nebo více než 8 minut, bude předpoklad, že se tato skupina liší od studované skupiny ve schopnosti dokončit bludiště. Tento předpoklad bude třeba otestovat stanovením významnosti rozdílu.

Odhad středního rozdílu

Některé studie berou jako primární data rozdíl dvou měření. To může být případ, kdy je každý jedinec ve vzorku studován ve dvou stavech – buď v různém věku, nebo v různých životních podmínkách. V těchto případech mohou individuální a průměrné rozdíly v jejich znaménku a velikosti charakterizovat vliv věku nebo změn v životních podmínkách na zkoumanou vlastnost.

Charakterizaci účinku určitých faktorů rozdílem lze také provést v experimentech s analogy, kdy každý jedinec v experimentální skupině odpovídá přesně definovanému jedinci v kontrole.

Při testování odrůd pšenice byla nová odrůda A porovnána se standardní odrůdou B na základě rozdílu ve výnosech získaných na 20 párech paralelních ploch: d i = A i – B i . V důsledku toho bylo získáno 20 rozdílů jako primárních materiálů, některé z nich byly pozitivní (A>B), některé byly negativní (A<В).

Pro celý vzorek skládající se z 20 rozdílů byly získány souhrnné výběrové ukazatele: n = 20, μ = + 1,0 c/ha, s = 2,5 c/ha. V tomto vzorku se nová odrůda ukázala jako lepší než standardní: A – B = + 1,0; A>B.

Vyvstala otázka: bude celá nová odrůda (a nejen výběr z ní) za podobných podmínek lepší než standardní? Můžeme předpokládat, že výsledný průměrný výběrový pozitivní rozdíl d =+1,0 správně odráží odpovídající obecný rozdíl mezi novou odrůdou a celou standardní odrůdou? Bude tento obecný rozdíl také pozitivní? Tento problém lze vyřešit odhadem obecné hodnoty středního rozdílu na základě výsledných souhrnných výběrových ukazatelů.

Obecný parametr zkoumaného rozdílu byl odhadnut ve formě mezí spolehlivosti se spolehlivostí β 2 = 0,99 (studie měla velký ekonomický význam) následovně.