|
|
|
|
|
|
Мысли вслух...Возможно есть и ошибки... |
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор Юрий Рязанов:
…………..
na=2.3 - для (84%) и n>100; тогда ф-ла ошибки D=+-1,41(ab/n)^0.5
na=4.3 - для (95%) и n>100; тогда ф-ла ошибки D=+-1.96(ab/n)^0.5
|
Напомню, что выражения выше получены из Биномиального закона.
А как сам «Гаусс» отвечает на вопрос о минимальном (значимом) признаке? ???
На этот вопрос ответить очень легко. Просто будем исходить из ф-лы ошибки D=t(ab/n)^0.5
Очевидно, что признак a значим если он равен ошибке. Т.о. нам надо решить уравнение:
a=t(ab/n)^0.5 (22)
Возводим в квадрат обе части и находим минимально значимый признак :
a= t^2/(n + t^2), разделим числитель и знаменатель на t^2 и пренебрегая 1 в сравнении с n/t^2 запишем решение для (22):
an = t^2 (23) для вероятностей 84% и 95% t= 1.41 и 1,96 соответсвенно.
Сравним выражения для мин. значимого признака по Биному (правильные) и Гауссу:
Для 84%: an=2.3 (по Биному) и an=2 (по Гауссу)
Для 95%: an=4.3 (по Биному) и an=3.8 (по Гауссу)
Получается, что в результате асимметричности реального распределения (Бином), для регистрации малого признака (рейтинга) выборку надо увеличить на 2,3/2,0 это ~15%!!! в сравнении с величиной выборки по «Гауссу».
И если мы в формулу ошибки (22) последовательно подставим значения минимального признака по биному: (a=2.3/n ; b=1-2.3/n) и (a=4.3/n ; b=1-4.3/n) для вероятностей 84% и 95% соответственно, то получим ошибку для минимального значимого признака:
D= a (1 +-0.94) и для 84% и для 95%.
Что и требовалось доказать.
Фактически ОЧень точно дан ответ на вопрос: Какой величины должна быть выборка?
- Выборка величиной n=4.3/a - в исследуемой совокупности, с вероятностью 95% и стандартной ошибкой 1,96(ab/n)^0.5, выявляет признаки с долей больше или равно a. При этом вероятность не обнаружить признак =1,5%
- Выборка величиной n=2.3/a - в исследуемой совокупности, с вероятностью 84% и стандартной ошибкой 1,41(ab/n)^0.5, выявляет признаки с долей больше или равно a. При этом вероятность не обнаружить признак =10%
P.S. Формулы справедливы для n>100, выборка случайная, распределение биномиальное
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
19.02.2008 14:38 | |
|
|
|
Постов: 8 Дата регистрации: 16.02.2008 |
Вот что интересно, но правило n>=430 было мне прочно вбито в мозги еще на 2 курсе.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
19.02.2008 18:47 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор Developer:
Вот что интересно, но правило n>=430 было мне прочно вбито в мозги еще на 2 курсе.
|
Начиная эту тему я вообще не знал куда меня все это заведет… получается, что я изобрел велосипед…?! :( и все уже известно студентам еще со 2 курса.
А какая там приводилась аргументация для этого правила ???
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
19.02.2008 19:45 | |
|
|
|
Постов: 2758 Дата регистрации: 31.08.2005 |
для: Юрий Рязанов© Юра, не думаю, что это как-то аргументировалось, да на втором курсе проще просто "вдолбить", в практическом плане полезнее.
В свое время один гражданин посчитал, что для репрезентации по полу, возрастным группам и уровню образования (там получалось 8 степеней свободы) для 95%, достаточно 400 человек. Я саму работу не читал, а ссылки есть в книгах типа "Рабочей книги социолога". Если посмотреть таблицу, то это t=2,31...
Понятно, что такой подход (через степени свободы) является слабым, так как при разделении на большее число возрастных групп требования к объему выборки возрастают. |
|
-------- http://www.dnp.ru |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 09:08 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
Добрый день уважаемые коллеги.
И так среда. Удалось выкроить некоторое время. Начал читать все посты этой дискуссии, начиная с первого и обдумывать их содержание.
1. Попытался вспомнить и найти в нашем разделе Форуме, когда на подобнее темы мы заговорили впервые (из того, что пришлось читать мне).
Кому интересно http://www.forumsostav.ru/12/1227/ , обсуждали публикацию на сайте ФОМа http://bd.fom.ru/report/map/os0312151 . Разговор был об ошибках при гораздо больших выборках.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 12:06 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор Михаил Дымшиц:
для: Юрий Рязанов© Юра, не думаю, что это как-то аргументировалось, да на втором курсе проще просто "вдолбить", в практическом плане полезнее.
.... |
А вдруг преподаватель основательно подошел к своему делу? И свою аргументацию предложил? Вообще-то здесь не надо быть 7 пядей... достаточно любить свой предмет. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 14:52 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор butaev:
….. Удалось выкроить некоторое время. Начал читать все посты этой дискуссии, начиная с первого и обдумывать их содержание.
|
Эдуард, ввиду мат. насыщестности моих постов специально для экономии твоего времени, я их кратенько прокомментирую, поскольку я самого начала не знал куда все эти рассуждения меня заведут:
Мой 1-ый пост:
С одной стороны: Известно, что распределение признака при случайной выборке - закон Бинома
С другой стороны: Формула стандартной ошибки ~ (ab/n)^0.5 следует из распределения Гаусса
Вот я и задался вопросом в каком случае к распределению Бинома можно применять ошибку Гаусса.
Далее (пусть и не совсем корректно с т.з. математиков, а не физиков) я взял производную от логарифма кривой Бинома и нашел максимум .(почему от Ln?, просто с логарифмом проще работать, ясно что максимумы W(na) и LnW(na) совпадают).
Потом ввел новую переменную Z - это небольшие отклонения от максимума. Подставил ее в производную от lnW(na+Z). И далее чтобы получить распределение Гаусса (колокол) нужно было убить логарифмы в п.ч. Т.е. положить z/(na) <<1. Как потом выяснилось, из условия значимости малых признаков должно выполнятся na>2-4 - так что это условие в общем случае не выполняется и логарифмом пренебречь нельзя. Это оказался тупиковый подход (только для анализа малых признаков, в др. случаях все шоколадно).
И если условие z/(na) <<1 всеж таки принять, то мы автоматически получаем из распределения Бинома - распределение Гаусса в удобной для проведения расчетов форме. Кстати достаточно полезное упражнение для мозгов... ;)
В последующих постах я решал задачу в лоб, работая только с Биномом. И все дальнейшие рассуждения очень просты по содержанию.
С начала я исследовал случай когда Бином падает в е-раз! (это ~84% площадь кривого колокола Бинома) просто потому что я не знал условия во сколько раз от максимума должен падать бином для 95% площади. К тому же, все рассуждения строились что b=(1-a)~1.
Потом Миша сделал мне замечание про (1-a)(действительно, я этим членом первоначально пренебрег =1). Я понял что работаю с частным случаем Бинома - Пуассоном (что конечно не страшно когда мы говорим о малых признаках) и я исправился. Провел расчет уже с учетом (1-а)<1. Ну и не поленился и подсчитал что для площади 95% кривая должна падать в e^e раз! от максимума=W(na). И до кучи полюбил 95% ;) поскольку мне по душе, когда что-то падает кратно экспоненте (хоть это и не принципиально, ну вот такой вжик у всех физиков) .
P.S. везде мы работаем с (na), где а- доля признака, n-объем выборки, очевидно что физ. смысл произведения (na) - есть наиболее вероятное(или среднее) число анкет по исследуемому признаку с ответом ДА |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 16:04 | |
|
|
|
Незваный гость лучше ... Постов: 262 Дата регистрации: 06.09.2006 |
для: Юрий Рязанов©
Гора родила мышь! ;)
P.S. Мне, кстати, про 430, если память не изменяет, рассказали еще на 1 курсе. :) |
|
-------- Ты пришел, Рабби?! |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 20:10 | |
|
|
|
Постов: 2457 Дата регистрации: 02.07.2004 |
для: Юрий Рязанов©
Юра, этого Бинома зовут Бернулли, а не Пуассон. С Пуассоном работать не советую - интегрировать пуассоновы потоки в моделях - это вполне, а вот стандартная ошибка этого распределения не определена. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 21:50 | |
|
|
|
Постов: 2457 Дата регистрации: 02.07.2004 |
Цитата, автор Михаил Дымшиц:
Понятно, что такой подход (через степени свободы) является слабым, так как при разделении на большее число возрастных групп требования к объему выборки возрастают. |
Экспоненциально или еще быстрее. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 21:52 | |
|
|
|
Постов: 8 Дата регистрации: 16.02.2008 |
Цитата, автор Юрий Рязанов:
А какая там приводилась аргументация для этого правила ???
|
Про n>=430 "Что-то с памятью моей стало..."
Точно не такая подробная как у Вас, так как учился на гуманитарном факультете,
М.б. в пятницу удастся расспросить того, кто вдалбливал, по подробнее.
а вот правило n>=400 доказывалось легко:
D=t*корень(а*(1-а)/n) следовательно n=t^2*а*(1-а) /D^2
если взять
t=2 (а чтобы считать проще было!)
а=0,5 (максимальная вариация для бинарного признака),
D=0.05 (типа, предельная ошибка +- 5%).
то n=2^2*0,5*0,5/0.05^2 = 1/0.05^2=400.
Здесь доли в 1% точно не учитываются, как и не учитывается разложение на сегменты.
Спасибо Юрию, обосновал интересный для меня вопрос о сверхмалых долях.
Хотя с другой сторны, как справедливо отмечал Михаил, на таких долях теоретическая ошибка теряется на фоне ошибок сбора.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 22:02 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор Винопивец:
для: Юрий Рязанов©
Юра, этого Бинома зовут Бернулли, а не Пуассон. С Пуассоном работать не советую - интегрировать пуассоновы потоки в моделях - это вполне, а вот стандартная ошибка этого распределения не определена. |
Бином - это я сокр. пишу биномиальное распределение (Бернулли). Пуассон, частный его случай (редкие события при условии an=const; где а ->0; n->бесконечности). |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 22:05 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор Developer:
….а вот правило n>=400 доказывалось легко:
D=t*корень(а*(1-а)/n) следовательно n=t^2*а*(1-а) /D^2
если взять
t=2 (а чтобы считать проще было!)
а=0,5 (максимальная вариация для бинарного признака),
D=0.05 (типа, предельная ошибка +- 5%).
то n=2^2*0,5*0,5/0.05^2 = 1/0.05^2=400.
|
Ну для D=5% вы получили 400, а для других D=1%, 2%,3%... и т.д. у вас будут другие величины …n=100, 200, 300 и т.д.
Я уже писал выше (см. мой 1-ый пост на этой странице), надо положить D=a (ошибка = доле) и тогда вы получите для минимально значимого признака по Гауссу выражение:
a= t^2/(n + t^2) или n = t^2/a – t^2
Для малых a: t^2/a >> t^2 и тогда получаем уже написанную мною выше простецкую формулу (23):
an = t^2 для вероятностей 84% и 95% t= 1.41 и 1,96 соответственно.
Так что для довер.вероятности 95% получаем na=3.8 и для a=1% n=380
Сравнивая 380 с точным 430 - получаем недобор выборки 430/380 в 13%. Мелочи конечно, однако формально, мы же говорим о строгом подходе к решению задачи.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 22:44 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор Developer:
…Хотя с другой сторны, как справедливо отмечал Михаил, на таких долях теоретическая ошибка теряется на фоне ошибок сбора.
|
Не следует подменять задачу. Мы же другие ошибки не рассматриваем.
Проблема вычисления ошибки малых признаков в другом.
Дело в том, что в реальности мы имеем дело с целыми значениями!!! У нас не может быть na=4,3 ответа ДА! И это условие целочисленности одинаково касается и значений доверительного интервала. Поэтому оцеление значений полученных из формулы стандартной ошибки приводят нас к неопределенности самой доверительной вероятности ошибки среднего.
И тем не менее в рамках формального подхода, выражения записанные мной выше конечно же верны.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 23:13 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
для: Юрий Рязанов©
Добрый вечер.
Меня учили, что случайность выборки применяется на том этапе. когда о структуре элемента (области) ГС уже ничего не известно. До этого я должен составлять выборку со структурой такой же, как в ГС. Вот если в ГС нет никаких "скоплений". Все равномерно примешано с точки зрения нашей задачи. Тогда сразу простая случайная выборка.
Представь себе, что мы играем в "Морской бой". И выбираем клетки чисто случайно. Правильный ли мы получим результат, сколько у меня кораблей, если я их расположил по некому закону. Например, составил в один угол. При большом количестве "выстрелов", будет поправильней. При малом, ошибки будут большие.
Я могу пример с этой игрой перекроить и для чтения прессы. Важен принцип. Сначала учти структуру ГС.
Извини за обрывочный пост. Завтра напишу подробнее.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
20.02.2008 23:28 | |
|
|
|
Постов: 2128 Дата регистрации: 07.04.2005 |
Цитата, автор butaev:
....Представь себе, что мы играем в "Морской бой". И выбираем клетки чисто случайно. Правильный ли мы получим результат, сколько у меня кораблей, если я их расположил по некому закону. Например, составил в один угол. При большом количестве "выстрелов", будет поправильней. При малом, ошибки будут большие.
Я могу пример с этой игрой перекроить и для чтения прессы. Важен принцип. Сначала учти структуру ГС.
Извини за обрывочный пост. Завтра напишу подробнее.
|
Эдуард, я не буду учитывать структуру ГС вообще никак.
Твоя задача сводится к задаче урны с шарами.
Поделим всю площадь на площадь одного корабля. Получим некое число N – это эквивалент числа шаров. И пометим черным цветом число шаров равное числу кораблей. Обозначим число черных шаров через m. А их долю a=m/N
Теперь я эти шары отдам тебе и ты их уложишь (спрячешь) на самое-самое дно урны (или как тебе угодно).
Я же возьму и перемешаю их. Кто мне это запретит?
Из N шаров я загребу кучку- выборку n. И конечно я возьму выборку n>>4.3/a (как доктор прописал).
Доля черных шаров в моей выборке (n) будет с точностью до стандартной ошибки повторять пропорцию черные/белые в урне. Вот и решение задачи.
Ты от меня ждал чего-то другого? Ты же мне не можешь запретить перемешивать? А я тебе не могу запретить укладывать шары по некому одному тебе известному закону.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
21.02.2008 01:56 | |
|
|
|
Маркетолог - международник Постов: 5658 Дата регистрации: 27.01.2007 |
для: Юрий Рязанов©
Юра, а если чесло чёрных шаров равно нулю? |
|
-------- marketer marketiri lupus est ... |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
21.02.2008 03:46 | |
|
|
|
Постов: 2758 Дата регистрации: 31.08.2005 |
Цитата, автор Юрий Рязанов:
Дело в том, что в реальности мы имеем дело с целыми значениями!!!
|
Вот-вот... Я вообще бы ушел в отчетах от процентов, а указывал бы все в натуральных дробях, но выясилось, что понимание записи за пределами 1/2...1/5 вообще в обществе отсутствует. |
|
-------- http://www.dnp.ru |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
21.02.2008 08:59 | |
|
|
|
Постов: 2758 Дата регистрации: 31.08.2005 |
для: IgorRudy© Игорь, нам же важно понять, сколько надо вытащить шаров, чтобы понять, что над нами издеваются... Выяснили!!! |
|
-------- http://www.dnp.ru |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
21.02.2008 08:59 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
для: Юрий Рязанов©
Доброе утро.
Я пока не понял вот этой фразы в твоем посте: "Я же возьму и перемешаю их. Кто мне это запретит?".
В моей постановке задачи я черные шары как бы приклеил к дну урны.
|
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
21.02.2008 11:14 | |
|
|
|
| Только зарегистрированные пользователи могут оставлять сообщения в этом форуме |
|
|
|
|
|
© "ООО Состав.ру" 1998-2024
тел/факс: +7 495 225 1331 адрес: 109004, Москва, Пестовский пер., д. 16, стр. 2
При использовании материалов портала ссылка на Sostav.ru обязательна! Администрация Sostav.ru просит Вас сообщать о всех замеченных технических неполадках на E-mail
|
|
|