|
|
|
|
|
|
Мысли вслух...Возможно есть и ошибки... |
|
Постов: 2128 Дата регистрации: 07.04.2005 |
В этой теме хотел по возможности убить 2-х зайцев.
1.Поговорить про область применимости классической формулы Ошибки среднего (Гаусс)
2. И если измеряемый признак (доход к примеру) распределен по ГС не по нормальному закону, то как это влияет на ошибку среднего. И влияет ли?
Последнее здесь слышу часто. Особенно от Эдуарда и Игоря. Может я их не правильно понимаю…. Скорее всего. И тем не менее вот мое видение этих вопросов.
Пусть мы точно знаем, что признак распределен, как показано на рисунке. Два горба!
Решим простую задачу. Какова ошибка измерения по случайной выборки, что признак будет равен заштрихованной области? (=10%)
В условиях, когда выборка ограничена (это всегда так) распределение ответов респондентов у нас подчиняется биномиальному распределению:
W= n!/[m!k!]*a^m*b^k (1)
n – общее число респондентов (объем выборки)
m – число ответов ДА (находятся в интервале признака)
k – число ответов НЕТ (вне измеряемого интервала признака)
Легко можно доказать(здесь док-во не привожу), что в условиях случайного отбора число ответов m=ДА будет распределено вокруг а=10%, и наоборот число ответов k=НЕТ вокруг b=(1-a)=90%.
Другими словами формулу (1) можно переписать так:
W(na)= n!/[(na)!nb!)]*a^(na)*b^(nb) (2)
Формула 2 – строгая. Однако от факториалов по возможности надо избавляться. Обычно, применяют ф-лу Стирлинга. Так и поступим. В итоге (2) можно записать так:
W(na)=1/(2пи*nab)^0.5 (3)
Формула (3) вычисляет вероятность исхода, что в нашей выборке из n- анкет, число ответов с «ДА» мы получим в точности a=10%
Формула (3) очень точная. И на мой взгляд именно она нам и показывает объем характерной выборки. Если вы построите в экселе, то получите гиперболу с точкой перегиба примерно равной n=200 для любых значений признака.
Мы очень часто говорим о минимальной достаточности выборки в 200 интервью. Выражение (3) это мнеманическое правило «200» обосновывает.
Из ф-лы(3) следует, что чем больше выборка тем меньше вероятность получить в абсолютном выражении число анкет дающее нам точное значение признака в10%. Некий парадокс.
Его понять просто, на примере с монеткой. В этом случае конечно наиболее вероятное значение орешки a=50% (орел b=1-a=50%). То по формуле (3) для:
100 бросаний - вероятность исхода орешки=орлам W(100*0,5)= 8%
200 бросний - W(200*0,5)= 4%
1000 бросаний - W(1000*0.5)= 2,5%
Далее получим выражение для ошибки измерения.
У нас есть точное распределение Бернулли ф-ла (1). Математики очень не любят брать производные от целочисленных значений (в формуле факториалы). Физики же это делают как с добрым утром . Если мы прологарифмируем (1) и возьмем производную по m (ответы ДА) то получим:
dlnW/dm=ln[a(n-m)/(mb)] (4)
Далее в (4) сделаем замену переменной. Положим m=na+Z
Z – есть число анкет мало отличающихся от наиболее вероятного (a=10%). Тогда из (4) получим:
dlnW(na+Z)/dm=ln[1-z/(nb)] - ln[1-z/(na)] (5)
Что бы избавится от логарифмов в п.ч. мы вынуждены положить что
z/(nb)<<1 и z/(na) <<1.
Для маленьких долей признака a~1-3% величина z/(na) может быть сравнима с единицей. По z/(nb) – нет вопросов, она скорее <<1.
Прим. Эдуард, вот это и есть ключевое при подсчете ошибки по Гауссу. Мы должны для малых рейтингов получить значимую величину ответов «ДА». Если у нас выборка к примеру n=500, а рейтинг 1% (это как с добрым утром) то получаем (500*1%)=5ДА поэтому z/(na) =z/5 может быть сравнимой с 1. Об этом ниже еще напишу
И в оконовке получаем:
dlnW(na+Z)/dm=-Z/(nab)(6)
Интегрируя (6) от 0 до Z получаем распределение которое можно привести к виду Гаусса:
W(na+Z)=W(na)exp[-Z^2/(2nab)] (7) где W(na) из ф-лы (3)
Из распределения (7) легко получить условие когда к примеру вероятности признака различаются в e-раз! Очевидно, что должно выполнятся W(na+Z1)/W(na)=1/e и лекго получаем что показатель экспонеты в (7) должен быть =1:
Z^2/(2nab)=1 и окончательно Z1=(2nab)^0.5 (8)
Теперь вычислим ошибку (D) измерения, для этого просто разделим в (8) число анкет Z1 (с ДА) на выборку n :
Ошибка: D=(2ab/n)^0.5 (9)
Это и есть всем привычная классическая формула ОШИБКИ. Коэффициент (корень из 2 ) соответствует в данном случае ожидаемым значениям признака с вероятностью 84% (из условия в e-раз). Для вероятности 95% коэффициент у корня [ab/n] будет 1,96 (следует из интеграла Лапласа).
Резюме:
1. Точное распределение Бернулли (случайная выборка с любым n) приводится к Гауссовскому распределению ожидаемых значений признака, лишь в случае когда число анкет с «ДА» по этому признаку достаточно велико, обычно озвучивается более общий тезис - просто выборка должны быть велика. Т.е. Z/(na)<<1. Можно уточнить это условие, пользуясь для ф-ой (8) для Z. Тогда оценка применимости классической формулы (9) будет выглядеть так:
[2b/(na)]^0.5<<1 (10)
К примеру для прессы AIR=1% (это a=1% и b=99%) для более менее сносной оценки ошибки измерения необходимо набрать ответов «ДА читал» ~20 шт. Это означает что выборка должна быть 2000 интервью! Все что меньше 20 (это 1% от 2000) не имеют права пользоваться классической ф-ой ошибки. В практике подобные нарушения – обычное дело.
2. Распределение признака по ГС может быть любым (горбатым, многогорбым, логнормальным, и т.д.) – это вовсе не повод говорить, что получаемое в результате опроса среднее значение доли признака распределено не по Гауссу.
Прим. хочется услышать комментарии Эдуарда и Игоря относительно п.2
3. Формула (3) дает нам возможно еще одно обоснование для мнимально значимой выборки в ~200 респов. Во всяком случае я других не знаю (не помню).
|
|
| Ошибка.gif |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
14.02.2008 01:17 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
для: Юрий Рязанов©
Доброе утро.
С удовольствием поучаствую в этом обсуждении.
И вечерком, несмотря на огромную загруженность на работе, прослежу предложенный тобой вывод формул с карандашом в руке. Уверен, все в выводе нормально. Но все же…
Но само видение задачи у меня другое. Я наверно плохо его описал и получилось непонятно для всех. Разговор-то был о значениях AIR журналов, который 2 и менее процентов. Из 50000 зарегистрированных сегодня в России печатных изданий (понятно, что множество существует только, как единица регистрационного реестра), таких большинство. И страсти вокруг временного уменьшения этого показателя тоже кипят о-го-го.
Как ты знаешь, я пытался понять сильна ли связь AIR по Москве и объема продаж в этом же периоде по Москве. (понятно, что данные продаж бог знает какие, но какие есть). И я и Игорь, когда не обнаруживаем этой связи, очень напрягаемся. Даже исследования Михаила, на основе которых он объясняет, почему ее (взаимосвязи для печатных изданий) быть не должно, мои сомнения не развеяли.
Теперь вернемся к задаче. Ты знаешь, что ошибки разного рода складываются. И для меня поставленная задача виделась всегда на уровне выделения полезного сигнала на фоне сильных шумов. Сигнал в данной задаче «слабенький».
Поняв это, я на выборе "правильного" журнала из 5, у каждого из которых AIR скачет от 2,5 до 0,7%, поставил крест. И стал анализировать совсем другие их свойства, как товаров, как носителей рекламы и PR.
Да и случайность выборки при телефонном опросе в Москве, тоже требует серьезного обсуждения. Там тоже много недоговоренного.
А вообще ты молодец хороший увесистый камешек в мой огород подкинул.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
14.02.2008 09:07 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор butaev:
.. Уверен, все в выводе нормально. Но все же…
|
В формулах ошибок у меня нет. И другое дело интерптитация некоторых промежуточных выкладок.
Я никогда не занимался теорией ошибок (ОЧень мутная наука). На практике поступал как все. Тупо глядел на это:
D=1.96(ab/n)^0.5
Смутно понимал, что это следствие распределения среднего по Гауссу. И все.
Так сложилось, что практики верят в Гаусса, причем эта их вера целиком полагается на доказательства математиков. А математики в свою очередь полагаются на экспериментальное обоснование .
В своем посте выше исходил что
1. Распределение известно - оно биномиальное
2. При каких условиях/допущениях ошибка измеренного среднего сводится к Гауссу.
3. Оказалось, что для этого надо убить логарифмы в формуле (5) другими словами допустить что бы:
[2b/(na)]^0,5<<1 (10)
Пытливый читатель вправе задать вопрос: почему в (10) оставлен корень? И будет прав.
Поэтому я переформулирую условие (10) которое по сути и определяет применимость оценки ошибки среднего по Гауссу в условиях когда признак определен биномиальным законом.
Напомню, что в ф-ле(5)(см.мой пост выше) мы должны пренебречь логарифмами что бы получить Гаусса (это конечная ф-ла (7)). Для 1-го логарифма условие ln(1-x)=-x хорошо выполняется, вот для второго логарифма в п.ч. (5) это Очень скользкий момент.
ln[1-Z/(na)]= //согласно (8) заменим Z на Z1=(2nab)^0.5//= ln{1-[2b/(na)]^0,5}
Для получения ошибки по Гауссу должно выполнено условие
ln[1-2b/(na)]^0,5] ~= -2b/(na)]^0,5 а это возможно лишь для [2b/(na)]^0,5<<1
в противном случае мы не можем использовать формулу ошибки D=1.96[ab/n]^0.5
…. И для меня поставленная задача виделась всегда на уровне выделения полезного сигнала на фоне сильных шумов. Сигнал в данной задаче «слабенький».
|
Эдуард, случайная выборка конечно же не подразумевает наличие каких либо резонансных эффектов (выделение сигнала на фоне шума). И очень часто остается путь ПРОБ и ОШИБОК. Ты ориентируешься на рейтинги продаж. Интуитивно полагая, что их рейтинги лучше коррелируют с эффектиностью рекламы. Вполне это допускаю. Хотя возможен и композитный рейтинг (социальный*продажный) и т.д. К сожаление ни то ни другое не доказуемо.
Да и случайность выборки при телефонном опросе в Москве, тоже требует серьезного обсуждения. Там тоже много недоговоренного.
А вообще ты молодец хороший увесистый камешек в мой огород подкинул.
|
Не надо здесь обсуждать случайность. Понятно, что ею здесь и близко не пахнет. Люди не шары в урне….вытащил и готово.
Про камень, честно не понял. Мы же здесь просто делимся мыслями (проговариваем). А кто прав или не прав мне давно безразлично. Важно, чтобы в сухом остатке после разговора в голове отложилась хоть какая ни будь крупинка знаний (читай полезностей).
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
14.02.2008 16:33 | |
|
|
|
Незваный гость лучше ... Постов: 262 Дата регистрации: 06.09.2006 |
для: Юрий Рязанов©
От лица практиков.
Я, конечно, извиняюсь, но причем здесь вопрос случайности?
Разве в Вашем проекте выборка не квотная? ;)
P.S.
Или, может это статистика по результатам Ваших личных звонков по Москве и Е-бургу? :)
Но тогда, это уже сплошное исследование. :)))
Неужели Вы так часто звоните людям не вовремя? |
|
-------- Ты пришел, Рабби?! |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
14.02.2008 17:23 | |
|
|
|
Гость<< < |
Эдуард, позволю раскрыть тему «О не монотонности доли признака» (см. рис. в первом посте) и влияния этого факта на процесс измерения на пальцах
Пусть у нас признак (к примеру доход) распределен 2-х горбо (или любым самым экзотическим способом).
Пусть мы хотим измерить долю признака в ГС. Для простоты будем полагать, что доля этого признака известна и а=10% (как показано на рис.). Мы просто хотим проверить эти данные своим экспериментом.
Аналогия с вытаскиванием шаров из урны:
-Мы изготавливаем черный 10 гранный кубик и одну строну красим в белый цвет. Бросание кубика – есть эквивалент 1 интервью. И почти очевидно, что самое вероятное значение выпадения белой грани будет равно 1/10!!! Хоть ты 1000 горбов нарисуй. Надеюсь ты со мной согласен?
Допустим бросили мы кубик n=100 раз. И конечно же мы не обязательно получим число выпадений белой грани (na)=100*1/10=10 раз из 100.
Значение вероятности получить выпадение ровно 10 белых (см. формулу (3))
W(na)= W(10)=1/(2пи*nab)^0.5 = 13%
И уже по Гауссу см .рис. ниже(забывая что распределение биномиальное):
Мы получим в нашем эксперименте с вероятностью 84% число выпадения белой грани (Z) будет в интервале: 6<Z<14 (помним что по (8) Z1=(2nab)^0.5=+-4)
Получаем что доля признака с вероятностью 84% будет 10%=+-(2ab/n)^0.5=+-4%
А можно ли уверено говорить, что в этом простом эксперименте результат будет 10%+-4%??? Уверен что ДА, тем более это легко проверяется численно (в лоб). Потому что мы имеем дело со значимым признаком в 10%!!!
Однако, если мы будем вести речь о доле признака в 1%, при тех же n=100 бросаниях кубика. То уже совершенно точно, что формула ошибки по Гауссу мягко говоря не точна. И это то же легко проверить если в лоб построить (сравнить) нормальное и [/b]биномиальное[/b] распределения (формулы (7) и (1) соответственно).
До руды уже дошли? ;)
|
|
|
|
Гость<< < |
Цитата, автор butaev:,
Как ты знаешь, я пытался понять сильна ли связь AIR по Москве и объема продаж в этом же периоде по Москве. (понятно, что данные продаж бог знает какие, но какие есть). И я и Игорь, когда не обнаруживаем этой связи, очень напрягаемся. Даже исследования Михаила, на основе которых он объясняет, почему ее (взаимосвязи для печатных изданий) быть не должно, мои сомнения не развеяли.
|
Эдуард, зависимость аудитории от продаж у печатных изданий есть, но "в среднем" за длительные периоды, за несколько выходов. Но её нет для конкретного номера, индекс чтения у конкретного номера МОЖЕТ БЫТЬ ЛЮБЫМ, допускаю, что при определенных обстоятельствах даже немного меньше 1.
|
|
<
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 08:50 | |
|
|
|
Михаил Дымшиц<< < |
Цитата, автор Юрий Рязанов:
W(na)= n!/[(na)!nb!)]*a^(na)*b^(nb) (2)
Формула 2 – строгая. Однако от факториалов по возможности надо избавляться. Обычно, применяют ф-лу Стирлинга. Так и поступим. В итоге (2) можно записать так:
W(na)=1/(2пи*nab)^0.5 (3)
Формула (3) вычисляет вероятность исхода, что в нашей выборке из n- анкет, число ответов с «ДА» мы получим в точности a=10%
Формула (3) очень точная. И на мой взгляд именно она нам и показывает объем характерной выборки. Если вы построите в экселе, то получите гиперболу с точкой перегиба примерно равной n=200 для любых значений признака.
Мы очень часто говорим о минимальной достаточности выборки в 200 интервью. Выражение (3) это мнеманическое правило «200» обосновывает.
|
Юрий, "правило 200 человек" в свое время "экспериментально" обосновал Старч (если быть точным, оно обосновал правило при описании аудитории прессы выборку "не менее 100 мужчин и не менее 100 женщин").
Но такой вывод, это сильно! Спасибо! |
|
<
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 08:57 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
Добрый день Юрий.
Сегодня планировал свои дела на выходные.
Должен перед тобой извиниться. Смогу участвовать в обсуждении этой темы только со среды... Не раньше. Причины две.
1. Гильдия. Придется вести (быть модератором) вот эту дискуссию, а значит к ней готовится ¬¬ http://www.forumsostav.ru/1/24127/ . Уже голову сломал, как из этого «постного блюда» сделать интересное обсуждение.
2. «Камушек», про который ты не понял. Поясняю. Поднятая тобой тема только с виду проста. Она затрагивает самые фундаментальные основы, на которых стоят МИ И про это уже много сказано и написано. И если мы хотим копнуть глубже, то лично мне надо перечитать целый ряд работ классиков: Андрея Николаевича Колмогорова, Пафнутия Львовича Чебышева, Акивы Моисеевича Яглома и книги моего тестя, который всю жизнь занимался ошибками измерений, и от которого я и уразумел, что надо делать, когда точность обеспечить практически невозможно. Жаль, нет уже в живых, он бы хорошо «вписался» в нашу дискуссию. Кроме того, ты знаешь: меня интересуют журналы с малым рейтингом (менее 2,5%), читаемые москвичами составляющие 77,777(7)…% из 153, для которых AIR определяет TNS http://www.tns-global.ru/rus/data/rating...=65F2AC8E-0A64-0002-006E-3E5E46D8F13E /
То кроме выше названных приходится вспоминать Уильяма Сили Госсетa, которому лень было брать много проб пива и он не соблюдал цеховые стандарты. (Аналогию чувствуешь).
В то время Госсет работал статистиком на пивоваренных заводах Гиннесса. Одна из его обязанностей заключалась в том, чтобы анализировать поступающие друг за другом партии бочонков только что сваренного портера. Понимая необоснованность примятых правил, Госсет искал разумные и экспериментировал с идеей существенного сокращения числа проб, отбираемых из очень большого количества бочек, находящихся на складах пивоварни, для выборочного контроля качества портера. Это и привело его к постулированию t-распределения. Так как устав пивоваренных заводов Гиннесса запрещал публикацию их работниками результатов исследований. Госсет опубликовал результаты своего эксперимента по сравнению выборочного контроля качества с использованием t-распределения для малых выборок под псевдонимом «Студент»
А прибавить в сутках хоть пару часиков никак не выходит. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 13:08 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
Добрый день, уважаемый Гость с IP начинающимся 85.
0. Вы бы зарегистрировались. А то видете как витиевато приходится Вас приветствовать. Но все равно рады...
1. Я не знаю, о результатах каких измерений AIR Вы говорите, а я о тех, что опубликованы на сайте TNS, как результатах главного медиаизмерителя в России, например http://www.tns-global.ru/rus/data/rating...=65F2AC8E-0A64-0002-006E-3E5E46D8F13E . Это средние показатели за указанный период. В таком виде их сложно связать с каким-то конкретным номером печатного издания.
Вообще сам показатель AIR, вытекающий из концепции OTS – это построение шкалы, где любой номер любого печатного издания приравнивается (моделируется) «работе» разовой листовки, которую посмотрел и выкинул. Т. к. содержание листовки неизменно, то вполне корректно спросить после первой волны распространения вы держали в руках. «Да», «Нет». После второй волны распространения вы держали в руках «Да», «Нет». И т. д. потом усреднить процент ответивших «Да» за период. Такая как я понимаю, выбрана мера – рейтинг.
2. Если Вы выясняли взаимосвязь показателя AIR какого-нибудь издания (группы изданий) и их статистики продаж за какой-то период в каком –либо из городов России (России в целом), пожалуйста поделитесь какие величины коэффициентов корреляции у Вас получались. Какова обнаруженная Вами сила взаимосвязанности таких показателей.
Меня, правда, всегда интересуют журналы с AIR порядка 2%. Но и другие издания интересны для расширения кругозора. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 14:34 | |
|
|
|
Маркетолог - международник Постов: 5658 Дата регистрации: 27.01.2007 |
для: Юрий Рязанов©
Юра, по поводу п.2.
Т.к при выводе формулы стандартной ошибки используется центральная предельная теорема (которая подразумевает, что ГС распределена по Гауссу), то в случае если ГС распределена по другому (например с 2-мя горбами) то стандартная ошибка не работает.
Пример: в твоей картинке (Ошибка.гиф) сожмём 2-ой горб раз в 150 (т.е. сделаем его очень узким). Потом проведём случайную выборку по признаку Х. Какова вероятность того, что мы выберем кого-нибудь из "горба"? - она пропорциональна широте горба, а если горб узкий (или стремяшийся к дельта функции (с конечной высотой)), то вероятность того, что в случайной выборке будут представители из "горба" стремится к нулю.
Т.е. форма и ширина "горба" влияет на вероятность выбора "соответсвующих" респондентов из ЦА (внутри "горба"), т.е. стандартная ошибка будет расти с уменьшением ширины "горба"!!! |
|
-------- marketer marketiri lupus est ... |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 19:03 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
для: IgorRudy©
Добрый вечер.
Уважаемый Игорь, если я правильно понимаю Юрия, то он говорит именно о случайности и опирается на Закон больших чисел. Закон больших чисел утверждает, что среднее арифметическое большого числа случайных слагаемых «стабилизируется» с ростом этого числа. Как бы сильно каждая случайная величина не отклонялась от своего среднего значения, при суммировании эти отклонения «взаимно гасятся», так что среднее арифметическое приближается к постоянной величине. Мы же говорили про AIR и договорились на первом этапе учитывать только случайные ошибки. Т. е. это задача, как будут отличаться средние (AIR) у пяти измерителей, которые во всем соблюдают случайность. Как будут распределены сами AIR по какому-то признаку не важно. Здесь главное случайность и большое количество ответивших "Да читал этот номер (один другой, третий)" за это период.
Но как говорится черт, то в деталях. Как соблюсти эту случайность? Как набрать это большое число ответивших "Да"? И множество всяких других вопросов КАК, если мы от модели на шариках переходим к реальному телефонному опросу интервьюер - респондент.
Но как говорила та одесская мама, выдающая замуж дочь, давайте продвигаться к реальной задаче "понемножку". Сейчас рассматриваем все на шариках.
И даже на них при полной идеализации ситуации для моих любимых рейтингов в 2% нужно сделать 5000 замеров. А если посмотреть Юрины картинки, сделать более 11000 отобранных случайным образом звонков. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 19:45 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Добил эту темку уфф...
Эдуард, я таки добил вопрос: какая должна быть случайная выборка в условиях малости признака в ГС.
Мне с самого начала не нравилось условие (10) в моем первом посте. Оно очень мутное. И ничего не дает. На сколько меньше 1? Оно нам ничего не говорит.
Поэтому решил задачу в лоб!
Дано:
1. Случайная выборка (Анкеты «ДА» - распределение биномиальное)
2. Исследуется малая доля признака (а) в ГС
Задача: Найти объем выборки которая нам гарантирует:
- С вероятностью 84% получить анкету хотя бы с одним ответом ДА
Другими словами при какой величине случайной выборки мы сможем выявить малую долю признака в ГС.
Попутно, автоматически решается вопрос о применимости формулы ошибки по Гауссу. Буквально очевидно, что применять формулу ошибки по Гауссу можно лишь в том случае, когда полная вероятность выявить малый признак в точном распределении Бинома больше некой заданной величины. Обычно принимается значение 95%. Мне всегда по душе была цифиря когда что-то падает в e-раз! Просто проще выглядят формулы. В гауссе это соответствует вероятности 84% (более мягкое условие). Хотя конечно это не принципиально.
См. на рис. ниже. Слева Бином-кривая для n=100 и доля признака а=1%. Т.о. вероятность того что 100 респов не скажут «ДА» ~60%. Следовательно, мы в принципе не имеем права говорить о доверительном интервале более 40% и тем паче про 95%.
Если мы начнем увеличивать выборку, Бином-кривая сплющится на корень из n и полезет вправо (это правый рис.).
Таким образом увеличивая выборку мы всегда!!! можем достичь точки m(ДА)=1. В которой значение вероятности W(1) единичного ответа ДА будет в е-раз!!! меньше Wmax . Это автоматически нас приводит к тому, что плошать под Бином-кривой начиная с m=1 (а не с нулевой!!!)будет всегда больше 84%. Этот момент здесь центральный и его надо прочувствовать.... ;)
Проще говоря нам нужно решить уравнение:
Wmax/W(1)=e (11)
Формулы для Wmax и W(1) приведены на рис. ниже. Любой может (11) привести к виду:
Exp(-(na)+1)[2Пи(na)]^0.5=1 (12)
P.S.Для получения уравнения (12) использованы приближения:
ab=a(1-b)=a-a^2~a (по условиям задачи a – малая величина)
b^n=(1-a)^n~ exp(-na) (это очень хорошая аппроксимация при большом n )
К сожалению (12) трансцендентное уравнение относительно na. Подобрать его решение в экселе не составляет труда.
Вот решение поставленной выше задачи:
na = 4 или n=4/a (13)
Подчеркиваю, что формула (13) очень точная . И с моей т.з. практически ОЧень полезна и проста в интерпретации.
К примеру, заказчик заказывает исследование. Мы его спрашиваем, а какова примерная величина доли исследуемого признака. Он отвечает примерно 1% от ГС. И следуя формуле (13) мы легко определяем минимальное число анкет:
N = 4/1% = 400шт. И это ровно означает, что с вероятностью 84% мы обязательно получим по этому признаку хотя бы 1 ответ ДА!
Более того в рамках развитого здесь подхода мы легко получаем мнеманическое правило «200».
Для этого нам нужно решить уравнение:
Wmax/W(0)=e (11а)
Заметьте, что в знаменателе стоит величина вероятности получить ответ НЕТ!!!(поскольку число анкет с "ДА" m=0) Другими словами мы разрешаем (соглашаемся), что исследуемый признак не будет обнаружен в эксперименте с вероятностью W(0)=Exp(-na).
Обращаю внимание, что условие (11a) дает нам доверительный интервал вероятностей, в котором площадь под Бином-кривой ~84% а главное, что она почти симметрична относительно наиболее вероятного числа (na) анкет с ответом «ДА». Таким образом, в этом и только в этом предельном(крайнем) случае можно пользоваться формулой ошибки по Гауссу.
Для этого случая минимальный порог выборки конечно, будет ниже чем дает (13) и он равен: na=2.3 или
n=2.3/a (13a) - Мнеманическое правило "200"; так для а=1% получаем n=230
Эта формула очень точная. Однако она допускает, что малые признаки могут быть не выявлены, и легко подсчитать эту самую вероятность не обнаружить признак W(0), поскольку мы уже знаем из (13а) что na=2.3 тогда:
W(0)=Exp(-na)=Exp(-2.3)=10% (хм... какие-то цифры круглые получаются, аж подозрительно )
P.S. ничего нам не мешает провести все рассуждения и для вероятности 95%...
END
|
|
| Ошибка 3.gif |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 19:57 | |
|
|
|
Маркетолог - международник Постов: 5658 Дата регистрации: 27.01.2007 |
для: butaev©
Здравствуйте Эдуард Измаилович!
Проблема с законом больших чисел, в том, что он работает в теории, но не практике. Т.к. на практике сложно набрать достаточно "большое число случайных слагаемых". Поэтому наши случайные величины даже из 100-200 выборок не распределены по Гауссу.
Кстати, а как зависит сходимость к Гауссу при разных изначальных распределениях данных случайных величин?
Например: если случайные величины изначально распределены по Гауссу, то и сумма их даже небольшого числа случайных величин будет распределена по Гауссу. Если же они изначально распределены с 2-мя горбами, то и сумма даже средне-большого :) числа случайных величин будет НЕ распределена по Гауссу.
На практике, стандартная ошибка должна зависеть от начального распределения. Т.е. чем уже горбы распределения, тем выше стандартная ошибка.
PS В самой теореме утверждается: "сумма бесконечной последовательности независимых одинаково распределённых случайных величин имеет распределение близкое к нормальному", а если они не распределeны одинаково? |
|
-------- marketer marketiri lupus est ... |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 20:06 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
для: IgorRudy©
Вашу точку зрения понял.
Как я писал в своем посте от 15.02.2008 13:08 Юрию, на серьезные вопросы смогу дискутировать только начиная со среды.
Так что ответ за мной. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 20:43 | |
|
|
|
Гость<< < |
Я в Excel проводил эксперимент -сделал 250 выборок, усреднил
и получил кривые, подтверждающие графики Юрия
при n=200, а=2% получился график средний между а=1%n=100 и а=1%n=400
при n=200, а=10% получилось классическое Гаусово распределение.
|
|
<
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 21:07 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор IgorRudy:
для: Юрий Рязанов©
……
Пример: в твоей картинке (Ошибка.гиф) сожмём 2-ой горб раз в 150 (т.е. сделаем его очень узким). Потом проведём случайную выборку по признаку Х. Какова вероятность того, что мы выберем кого-нибудь из "горба"? - она пропорциональна широте горба, а если горб узкий (или стремяшийся к дельта функции (с конечной высотой)), то вероятность того, что в случайной выборке будут представители из "горба" стремится к нулю.
Т.е. форма и ширина "горба" влияет на вероятность выбора "соответсвующих" респондентов из ЦА (внутри "горба"), т.е. стандартная ошибка будет расти с уменьшением ширины "горба"!!!
|
Игорь, в 1посте я записал производную логарифма биномиального распределения. Запишем еще раз:
dlnW/dm=ln[a(n-m)/(mb)] (4)
Условие максимума – это равеноство нулю (4). Таким образом имеем:
ln[a(n-m)/(mb)] =0 или [a(n-m)/(mb)]=1 следовательно:
m/(n-m)=a/b (14) (n-выборка, m –число ответов ДА)
Из (14) следует, очевидный вывод, что число Анкет (m) с ответом ДА относится к числу анкет(n-m) с ответом НЕТ, как вероятность (а) получения одного случайного интервью с ответом «ДА» к вероятности (в) с ответом «НЕТ» И с этим не соглашаться почти не возможно.
И весь вопрос в том, имеем ли мы право говорить, что наиболее вероятный исход одного случайного интервью будет равен доле признака . И этот момент и есть краеугольным в тервере. И если мы соглашаемся с этим тезисом (очевидным с моей т.з.) то далее все просто.
Рассмотрим твое замечание про дельта-функцию.
Очевидно, что твой случай для дельтообразоного распределения доли признака математически записывается:
Y(x)=d(x-xo)*a
где d(x-xo)-дельта функция при х=xo: d=1, при х неравно xo: d=0
Площадь дельта функии равна a (см.рис.). И нам по барабану ее ширина и высота – важна только площадь равная доле признака. И она ВСЕГДА конечна. Всегда!!!
С твоим тезисом: Какова вероятность того, что мы выберем кого-нибудь из "горба"? - она пропорциональна широте горба – я не могу согласится.
Еще раз. Вероятность пропорциональна не ширине горба – а его площади, которая конечна всегда.
И если площадь мала. Читай мала доля признака а значит что бы его хотя бы 1раз!!! зарегистрировать нужно взять выборку n=4/a и ошибку можно считать по гауссу. ;)
|
|
| Ошибка 4.gif |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 21:41 | |
|
|
|
Маркетолог - международник Постов: 5658 Дата регистрации: 27.01.2007 |
Цитата, автор Юрий Рязанов:С твоим тезисом: Какова вероятность того, что мы выберем кого-нибудь из "горба"? - она пропорциональна широте горба – я не могу согласится.
Еще раз. Вероятность пропорциональна не ширене горба – а его площади, которая конечна всегда. |
А разве площадь не пропорциональна щирине (особенно про фиксированной высоте)?
Если мы уменьшаем площадь одного горба (из распределения с 5-ю горбами) за счёт уменьшения ширины (при фиксированной высоте), то вероятность ошибки выборки должна расти. Формула же стандартной ошибки не зависит от площади горба. |
|
-------- marketer marketiri lupus est ... |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 21:48 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор IgorRudy:
А разве площадь не пропорциональна щирине (особенно про фиксированной высоте)?
Если мы уменьшаем площадь одного горба (из распределения с 5-ю горбами) за счёт уменьшения ширины (при фиксированной высоте), то вероятность ошибки выборки должна расти. Формула же стандартной ошибки не зависит от площади горба. |
Дорогой Игорь, да ты хоть 1000 горбов нарисуй это не принципиально. Только замусоришь этим обсуждаемый вопрос… :(
На твой вопрос, отвечаю:
Площадь = ширина*высоту. И если ты в 1000-ом горбе :) уменьшил ширину при фиксированной высоте ты просто:
УМЕНЬШИЛ ДОЛЮ(площадь) ПРИЗНАКА и все!
И это ровным счетом не изменяет развитый мною здесь подход:
1. Для случайной выборки по барабану как распределен признак в ГС
2. Выявить малый признак(a) (дельтообразные в т.ч.)с вероятностью 84% можно и нужно простым увеличением выборки (n) по формуле:
n = 4/a - ошибка признака в этом случае вполне может считаться по Гауссу.
Для всех времен и народов
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 22:02 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
для: Гость c IP, начинающимся на 213
Добрый вечер.
Извините я не понял вот эту строчку в Вашем посте: "при n=200, а=2% получился график средний между а=1%n=100 и а=1%n=400". Не поясните ли. Непонял про разные "а" и средний.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 23:23 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
Уважаемые господа Гости у меня нижайшая просьба: "Вы бы зарегистрировались на Форуме, и взяли "ники"".
А то крайне не удобно: в дискуссии несколько разных Гостей. А разницу в IP видят только модераторы. А все остальные принимают Вас за одного человека. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
15.02.2008 23:28 | |
|
|
|
| Только зарегистрированные пользователи могут оставлять сообщения в этом форуме |
|
|
|
|
|
© "ООО Состав.ру" 1998-2024
тел/факс: +7 495 225 1331 адрес: 109004, Москва, Пестовский пер., д. 16, стр. 2
При использовании материалов портала ссылка на Sostav.ru обязательна! Администрация Sostav.ru просит Вас сообщать о всех замеченных технических неполадках на E-mail
|
|
|