Най-четените учебни материали
Най-новите учебни материали
SMS Login
За да използвате ПЪЛНОТО съдържание на сайта изпратете SMS с текст STG на номер 1092 (обща стойност 2.40лв.)Статистическа оценка на параметри. Точкови оценки. Интервални оценки |
![]() |
![]() |
![]() |
Статистическа оценка на параметри. Точкови оценки. Интервални оценки. Оценката е отражение на действителността. Зависи от “лещата”, която пречупва светлината. На практика често пъти не можем да извършим наблюдения върху цялата генерална съвкупност, а само върху част от нея, т.е. върху извадка. По тази причина не можем да установим параметрите на съвкупността, а пресмятаме само числовите характеристики на извадката. Ако тя е репрезентативна (представителна), на основата на характеристиките й правим заключения за неизвестните параметри на генералната съвкупност. Колкото и правилно да сме подбрали статистическите единици, попадащи в извадката, не можем да пренебрегнем случайния й характер. По тази причина в основата на тези заключения стои Теорията на вероятностите. Така статистическата съвкупност се анализира в някакво приближение. Числовите характеристики, получени от извадката се наричат точкови оценки. В тази лекция ще разберем каква трябва да е една оценка за да е добра и защо вместо първия параметър на нормалното разпределение, т.е. вместо математическото му очакване, се използва средното аритметично, а вместо дисперсия - Sn2 . 10.1. Точкови оценки Точкова оценка или статистика се нарича всяка функция на извадката, която приемаме за стойност на неизвестния параметър. Да предположим, че се интересуваме от средната брутна печалба на всички фирми в България, занимаващи се с разглеждана от нас дейност. Един изследовател ще оцени неизвестното средно с медианата, друг със средното аритметично. Кой от двамата ще даде по-точна оценка? За да отговорим на този и подобни въпроси, първо трябва да разгледаме някои свойства на оценките. Разполагаме с извадка X1, X2, …, Xn, от n на брой наблюдения върху някакъв метриран признак. От теоретична гледна точка това са реализациите на n на брой еднакво разпределени случайни величини x1, x2, …, xn с една и съща функция на разпределение F. Търсим оценка за функцията t(q) на неизвестния параметър q в това разпределение. Ще означаваме стойността на оценките на t(q) с tn(X1, X2, …, Xn), а техния теоретичен еквивалент с tn(x1, x2, …, xn). Теоретичният еквивалент на оценката е случайна величина. Една оценка tn(x1, x2, …, xn) се нарича неизместена оценка за t(q) ако математическото й очакване е равно на оценяваната функция t(q) т.е. ако Е tn(x1, x2, …, xn) = t(q). Нататък ще използваме досегашните означения за различните числови характеристики, но когато е необходимо да уточним дали става въпрос за емпиричния или теоретичния им вариант, ще пишем след тях съответно (X1, X2, …, Xn ) или (x1, x2, …, xn). От свойствата на математическото очакване лесно се проверяват следващите резултати.
Да припомним, че при пресмятането на тази характеристика по данни от извадка претеглената формула има вида: . При това
Известно е още, че не могат да се получат неизместени оценки за централните моменти от ред, по-голям от обема на извадката. За една и съща характеристика на генералната съвкупност може да има повече от една неизместени оценки. Коя от тях да изберем? Да си припомним, че когато дисперсията на оценката е крайна е в сила неравенството на Чебишов Разликата се нарича систематична грешка. Числото се нарича надеждност на оценката с точност e > 0. Естествено е да заключим, че оценката е толкова по-ефективна, колкото по-малка е дисперсията й. Така тя ще има най-малко разсейване около средното си значение и най-близка стойност до оценявания параметър. Да припомним, че според определението на понятието “неизместеност”, оценяваният параметър съвпада със средното значение на оценката. От Математическата статистика е известно, че ако съществува неизместена оценка с минимална дисперсия, то тя е единствена и се нарича ефективна оценка. Задачата за търсене на такава оценка се решава с помощта на Неравенството на Рао-Крамер[1]. За да достигнем до него ще ни е нужно въведем още няколко понятия. Съвкупността À от всички възможни стойности на вектора (x1, x2, …, xn) ще наричаме извадково пространство. В много случаи в статистиката се използват едни и същи методи при работа с дискретни и непрекъснати разпределения. Ето защо за разпределението на вектора (x1, x2, …, xn), което може да зависи от неизвестен параметър q, се въвежда сборно понятие - функция на правдоподобие. Ще я означаваме с L( x1, x 2, …, x n /q ). Ако разпределението на извадката е дискретно L( x1, x 2, …, x n /q ) = Р( x1 = x1, x2 = x2…, xn = xn /q ). Ако е непрекъснато L( x1, x 2, …, x n /q ) съвпада със съвместната плътност на x1, x2, …, xn. Когато наблюденията, които попадат в извадката са независими едно от друго, извадката се нарича проста. В този случай многомерното разпределение е произведение от съответните едномерни разпределения, т.е. в дискретния случай L( x1, x 2, …, x n /q ) = Р( x1 = x1 /q )Р( x2 = x2/q )… Р( xn = xn /q ), а в непрекъснатия L( x1, x 2, …, x n /q ) = Рx1 ( x1 /q ) Рx2 ( x2/q )… Рxn ( xn /q ). Неравенство на Рао-Крамер: Ако tn (x1, x2, …, xn) е неизместена оценка за оценяваната функция t(q), ако функцията на правдоподобие и t(q) са диференцируеми относно q и ако съществува, то Равенство се достига само, когато е допустимо представянет В такъв случай
Следствие: Ако tn (x1, x2, …, xn) е неизместена оценка за оценявания параметър q, конструирана върху проста извадка. Ако плътността на разпределение на наблюдаваната величина е диференцируема относно q и ако съществува , то Доказателството на това неравенство е обект на Математическата статистика и ние няма да се занимаваме с него. Ако не съществува ефективна оценка, се търси друга функция на извадката, която при увеличаване на обема на извадката се стреми към оценявания параметър. Такива оценки се наричат – състоятелни. При увеличаване броят на единиците в извадката дисперсиите на тези оценки намаляват. Ще дадем само по-важните за нас твърдения, които се отнасят до състоятелност на оценките.
Самите методи за построяване на точкови оценки могат да бъдат намерени в Error: Reference source not found]. Ще се спрем накратко на два от тях. Методът на максималното правдоподобие се състои в намирането на такава оценка tn(x1, x2, …, xn), която максимизира функцията на правдоподобие по отношение на неизвестния параметър. Чрез този метод се построяват асимптотично ефективни оценки. Да отбележим, че от това не следва, че са неизместени. Ако за числовия параметър q съществува ефективна оценка, то уравнението на максималното правдоподобие има единствено решение и то е точно тази ефективна оценка за q. Методът на моментите е един от първите методи за оценка на неизвестни параметри. Нека законът на разпределение на величината x зависи от k неизвестни параметри (q1,…,qk). Тогава и моментите на x ще зависят от тези неизвестни параметри. Т.е. да кажем първите k момента m1 = m1(q1,…,qk), … mk = mk(q1,…,qk). Методът на моментите се състои в изразяването на неизвестните параметри q1,…,qk, от горната система и заместване на теоретичните моменти m1,…,mk със съответните емпирични моменти t1,…,tk. Така получаваме следните оценки q1 = q1(t1,…,tk), … q1 = q1(t1,…,tk). Доказано е, че тези оценки са състоятелни. Този метод не е приложим ако съответните моменти на теоретичното разпределение не съществуват. Задачи: Задача 10.1. Нека са независими наблюдения над случайната величина x, която има крайни моменти от степен 2к. Да се докаже, че к-тият централен момент е състоятелна оценка за Е(x-Ex)k. Задача 10.2. Нека са независими наблюдения над случайната величина x~c2(n). Да се посочат две редици от състоятелни оценки за неизвестния параметър n. Задача 10.3. Нека са независими наблюдения над случайната величина x~t(n), n ³ 3. Да се посочи състоятелна оценка за неизвестния параметър n. Задача 10.4. Нека са независими наблюдения над случайната величина x~F(m, n), n ³ 3. Да се посочи състоятелна оценка за неизвестния параметър n. Задача 10.5. Нека са независими наблюдения над случайния вектор (x, h). Да се покаже, че е неизместена и състоятелна оценка за cov(x, h). Задача 10.6. Партида съдържа N изделия, от които M са дефектни. Направена е случайна извадка с обем n £ N. Нека X е броят на дефектните изделия в извадката. Намерете максимално правдоподобна оценка за M. Задача 10.7. За да се оцени N – броят на рибите в едно езеро се постъпва по следния начин: улавят се M риби, маркират се и се връщат живи в езерото. След достатъчно време, толкова, че рибите да се разпръснат по случаен начин в езерото, се улавят n риби. Нека X е броят на уловените маркирани риби. Намерете максимално правдоподобна оценка за N. Задача 10.7. Какъв минимален брой изделия трябва да се проверят за може с надеждност по-голяма от 0,95 да се оцени вероятността за избор на дефектно изделие с грешка по-малка от 0,005.
10.2 Интервални оценки Точковите оценки предлагат за неизвестния параметър на изучавания признак конкретно число. Ако вече сме построили такава оценка, например за средната на разглеждания признак и извършим нови наблюдения, средната на новата извадка в общия случай ще се отклонява от старата оценката за средната на разглеждания признак. По тази причина е за предпочитане да получим цял интервал, в който попада неизвестният параметър, с избрана от нас вероятност 1 - a (0, 1). Т.е. търсеният интервал е такъв, че ако направим достатъчно на брой извадки, в (1 - a)100% от тях неизвестният параметър ще се намира в получения от нас интервал. При един оценяван параметър в този случай говорим за интервална оценка и доверителен интервал. Ако неизвестният параметър е вектор говорим за доверително множество. a (0, 1) се нарича ниво на доверие или равнище на значимост, а 1 - a - гаранционна (доверителна) вероятност. Колкото a е по-близо до 0, толкова доверителният интервал (доверителното множество) е по-широк(о). Обикновено се работи с a Î [0.01, 0.05]. Ще се спрем по-подробно на построяване на доверителен интервал на един неизвестен параметър. Задачата за определянето му изглежда така: Разполагаме с извадка X1, X2, …, Xn, от n на брой наблюдения върху една и съща величина (метриран признак). Търсим две числа а n(X1, X2, …, Xn ) и вn(X1, X2, …, Xn ) такива, че неизвестният параметър q да попада в интервала (аn(X1, X2, …, Xn ), вn(X1, X2, …, Xn )] с вероятност 1- a, т.е. ( 0 ) P(а n(x1, x2, …, xn ) £ q < вn(x1, x2, …, xn )) = 1- a. За така избраното от нас a можем да построим много доверителни интервали, обикновено се използва този, чиято дължина е минимална или който удовлетворява условието
( 0 ) P(а n(x1, x2, …, xn ) > q ) = P(q ³ вn(x1, x2, …, xn )) = a/2. В случите, когато едното от аn(X1, X2, …, Xn ) = - ¥ или вn(X1, X2, …, Xn ) = ¥ говорим за едностранен доверителен интервал. За простота на записа надолу ще пишем само аn и вn. Числата аn и вn се определят като
P( x 1a £ f(t(x1, x2, …, xn), q) < x 2a ) = 1 - a. При дискретни разпределения се преминава към консервативни граници, т.е. взема се най-късият интервал такъв, че P( x 1a £ f(t(x1, x2, …, xn), q) < x 2a ) ³ 1 - a
тогава в ляво от неравенството получаваме търсената оценка аn, а в дясно вn.
Да се спрем по-подробно на алгоритъма за определяне на доверителен интервал на средно-то на нормално разпределена съвкупност с известна дисперсия. Нека са извършени n на брой независими наблюдения X1, X2, …, Xn с възвратен подбор, върху нормално разпределена съвкуп-ност с математическо очакване q, т.е. x1, x2, …, xn са независими, еднакво нормално разпределени и q е неизвестният параметър. От математическата статистика е известно, че средната аритметична е най-добрата оценка на математическото очакване. Освен това тя е също нормално разпределена с математическо очакване q и с дисперсия . Тогава централната статистика, в която участва q ще е f(t(x1, x2, …, xn), q ) = ~ N(0, 1). Определяме квантилите на разпределението на f(t(x1, x2, …, xn), q) така, че P( x 1a £ f(t(x1, x2, …, xn), q) < x 2a ) = 1 - a. Разпределението на f(t(x1, x2, …, xn), q ) е симетрично относно ординатната ос, тогава за да получим възможно най-тесен доверителен интервал трябва ( 0 ) х 1a = - х 2a Задачата ни ще бъде решена ако намерим едно от числата х1a или х2a (ние ще изберем х1a) такова, че ( 0) P( -x 1a £ f(t(x1, x2, …, xn), q ) < x1a ) = F ( x 1a ) - F ( -x 1a) = F ( x 1a ) – (1 - F ( x 1a ) ) = 1 - a. и после използваме ( 0 ) за да намерим x 2a. От последното равенство получаваме F ( x1a ) = 1-a /2. Тогава x1a е 1-a /2 квантилът на стандартното нормално разпределение. Означаваме го с z1- a /2 и получаваме P( -z 1- a / 2 £ < z 1- a / 2 ) = 1 - a. С еквивалентни преобразувания в средата на полученото неравенство оставяме само q, тогава в ляво от неравенството получаваме търсената оценка аn, а в дясно вn. Т.е. търсените краища на доверителния интервал са т.е. с вероятност 1-a, средното на наблюдавания признак се покрива от интервала В приложната статистика, величината
( 0 ) се нарича стандартна стохастична грешка на средната аритметична, а z1-a/2 – гаранционен множител. ( 0 ) се нарича максимална стохастична грешка или още точност на оценката. В случаите, когато съвкупността не е нормално разпределена и извадката е достатъчно голяма се използва Централната гранична теорема. Тя гласеше, че асимптотичното разпределение на средното аритметично на всяка съвкупност с крайна дисперсия е нормално. С други думи при голям обем на извадката можем да приложим горния алгоритъм за намиране на доверителен интервал на средното аритметично на извадка от съвкупност с произволно разпределение и с крайна дисперсия. С какво може да ни бъде полезен Excel в случая: Функцията CONFIDENCE(; ; n), връща доверителен интервал за средното аритметично в този случай.
Често пъти стандартното отклонение s на генералната съвкупност не е известно. В този случай, при определянето на доверителния интервал се използва неговата неизместена оценка . От получаваме, че една подходяща централна статистика в случая е f(t(x1, x2, …, xn), q ) = . По тази причина определяме 1-a /2 квантилите на разпределението на f(t(x1, x2, …, xn) (т.е. z1-a/2) не от таблиците на стандартното нормално разпределение, а от таблиците на разпределението на Стюдънт с n-1 степени на свобода. За доверителния интервал в този случай получаваме ( 0 ) Поради приликата на стандартното нормално разпределение и разпределението на Стюдент t(n) при n 30 няма особено голямо значение кой от горните два алгоритъма ще използваме. Когато подборът е с връщане и обемът на извадката не е много по-малък от обема на генералната съвкупност, стандартната грешка е по-малка в сравнение с тази определена по формула ( 0 ) и оценката й трябва да се коригира. В този случай ( 0 ) където N е обемът на генералната съвкупност, n – обемът на извадката, а ( 0 ) Доверителният интервал за средната аритметична в този случай (при известна дисперсия на генералната съвкупност) е ( 0 ) Когато дисперсията на генералната съвкупност не е известна заменяме s с . Ако построяваме доверителен интервал на вероятността р на събитието А постъпваме по аналогичен начин. Абсолютната честота на А, т.е. mn(А) ~ Bi(n; p). Поради неудобствата при използване на биномната функция на разпределение ако n е достатъчно голямо можем да използваме нейното нормално приближение, т.е. при достатъчно големи n Тогава при доверителна вероятност 1-a аналогично на (3) и (4) имаме , което е все едно ( 0 ) . Преработваме неравенствата с еквивалентни преобразувания, така че в средата да остане само р и получаваме . Тъй като при големи n почти сигурно в (11) на практика често се сменят местата на mn(A) и np получаваме по-лесен за използване, но по-неточен доверителен интервал ( 0 ) . Изложената методология за определяне на доверителен интервал може да се използва и при оценка на други параметри на извадката. Това, което се променя е разпределението на съответния параметър q, а от тук и вида на максималната стохастична грешка на съответния доверителен интервал.
Нека са извършени n на брой независими наблюдения X1, X2, …, Xn върху нормално разпределена съвкупност, т.е. x1, x2, …, xn са независими, еднакво нормално разпределени с неизвестна дисперсия s. От математическата статистика е известно, че f(t(x1, x2, …, xn), q ) = т.е. намерихме централна статистика. Определяме квантилите на разпределението на f(t(x1, x2, …, xn),s) така, че P( x 1a £ f(t(x1, x2, …, xn),s) £ x 2a ) = 1 - a. Получаваме, че x2a е 1-a /2 квантилът наc2-разпределението с n степени на свобода, а x1a е a/2 квантилът на същото разпределение. Тогава P(£ s2 < ) = 1 - a. Търсените краища на доверителния интервал са и . Това означава, че с вероятност 1-a, дисперсията на съвкупността се покрива от интервала
Нека са извършени n на брой независими наблюдения X1, X2, …, Xn върху нормално разпределена съвкупност, т.е. x1, x2, …, xn са независими, еднакво нормално разпределени с неизвестна дисперсия s и с неизвестно математическо очакване. От математическата статистика е известно, че е най-добрата оценка на s. При това f(t(x1, x2, …, xn), q ) = т.е. намерихме централна статистика. Определяме квантилите на разпределението на f(t(x1, x2, …, xn),s) така, че P( x 1a £ f(t(x1, x2, …, xn),s) £ x 2a ) = 1 - a. Получаваме, че x2a е 1-a / 2 квантилът наc2-разпределението с n-1 степени на свобода, а x1a е a/2 квантилът на същото разпределение. Тогава P(£ s2 < ) = 1 - a. Търсените краища на доверителния интервал са и . Това означава, че с вероятност 1-a, дисперсията на съвкупността се покрива от интервала
Въпроси: 1. Кои оценки са най-добри? 2. Ако разполагате с данни от репрезентативна извадка, посочете добри оценки за математическото очакване, дисперсията и емпиричната функция на разпределение на изучавания признак. Обосновете защо избрахте точно тях. 3. Защо се налага при построяване на доверителен интервал на средното аритметично на генерална съвкупност да центрираме и нормираме случайните величини и какво означава това? 4. Начертайте на графиката на плътността на стандартното нормално разпределение. Посочете мястото на дискутирания гаранционен множител z1-a/2. Обяснете в какви съотношения правата, която минава през него и е успоредна на ординатната ос, разделя лицата под кривата на плътността? Колко е цялото лице на фигурата под кривата на плътността? Само за нормалното разпределение ли е толкова това лице или и за под другите графики на плътността е също толкова? 5. В различните задачи при едно и също ниво на доверие един и същ гаранционен множител ли се получава? 6. Променят ли се стандартната стохастична грешка и максималната стохастична грешка ако данните са различни, а гаранционния множител е един и същ? 7. При една и съща максимална стохастична грешка и гаранционна вероятност, за различни съвкупности еднакъв обем на извадката ли ще получим? |