Слово и фраза: Искать: Сортировать по:
Форумы на Sostav.ru / Маркетинговые исследования / Тема про ОШИБКИ измерения и НЕ МОНОТОННОСТИ признака
Мысли вслух...Возможно есть и ошибки...
< 1 2 3 4 5 6 7 8 >

Profile
Юрий Рязанов©

Постов: 2128
Дата регистрации: 07.04.2005

Цитата, автор Юрий Рязанов:
…………..
na=2.3 - для (84%) и n>100; тогда ф-ла ошибки D=+-1,41(ab/n)^0.5
na=4.3 - для (95%) и n>100; тогда ф-ла ошибки D=+-1.96(ab/n)^0.5



Напомню, что выражения выше получены из Биномиального закона.

А как сам «Гаусс» отвечает на вопрос о минимальном (значимом) признаке? ???

На этот вопрос ответить очень легко. Просто будем исходить из ф-лы ошибки D=t(ab/n)^0.5

Очевидно, что признак a значим если он равен ошибке. Т.о. нам надо решить уравнение:

a=t(ab/n)^0.5 (22)

Возводим в квадрат обе части и находим минимально значимый признак :

a= t^2/(n + t^2), разделим числитель и знаменатель на t^2 и пренебрегая 1 в сравнении с n/t^2 запишем решение для (22):

an = t^2 (23) для вероятностей 84% и 95% t= 1.41 и 1,96 соответсвенно.

Сравним выражения для мин. значимого признака по Биному (правильные) и Гауссу:

Для 84%: an=2.3 (по Биному) и an=2 (по Гауссу)

Для 95%: an=4.3 (по Биному) и an=3.8 (по Гауссу)

Получается, что в результате асимметричности реального распределения (Бином), для регистрации малого признака (рейтинга) выборку надо увеличить на 2,3/2,0 это ~15%!!! в сравнении с величиной выборки по «Гауссу».

И если мы в формулу ошибки (22) последовательно подставим значения минимального признака по биному: (a=2.3/n ; b=1-2.3/n) и (a=4.3/n ; b=1-4.3/n) для вероятностей 84% и 95% соответственно, то получим ошибку для минимального значимого признака:

D= a (1 +-0.94) и для 84% и для 95%.

Что и требовалось доказать.



Фактически ОЧень точно дан ответ на вопрос: Какой величины должна быть выборка?

- Выборка величиной n=4.3/a - в исследуемой совокупности, с вероятностью 95% и стандартной ошибкой 1,96(ab/n)^0.5, выявляет признаки с долей больше или равно a. При этом вероятность не обнаружить признак =1,5%

- Выборка величиной n=2.3/a - в исследуемой совокупности, с вероятностью 84% и стандартной ошибкой 1,41(ab/n)^0.5, выявляет признаки с долей больше или равно a. При этом вероятность не обнаружить признак =10%



P.S. Формулы справедливы для n>100, выборка случайная, распределение биномиальное

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 19.02.2008 14:38
цитата
Profile
Developer©

Постов: 8
Дата регистрации: 16.02.2008
Вот что интересно, но правило n>=430 было мне прочно вбито в мозги еще на 2 курсе.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 19.02.2008 18:47
цитата
Profile
Юрий Рязанов©

Постов: 2128
Дата регистрации: 07.04.2005

Цитата, автор Developer:

Вот что интересно, но правило n>=430 было мне прочно вбито в мозги еще на 2 курсе.


Начиная эту тему я вообще не знал куда меня все это заведет… получается, что я изобрел велосипед…?! :( и все уже известно студентам еще со 2 курса.

А какая там приводилась аргументация для этого правила ???

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 19.02.2008 19:45
цитата
Profile
Михаил Дымшиц©

Постов: 2758
Дата регистрации: 31.08.2005
для: Юрий Рязанов© Юра, не думаю, что это как-то аргументировалось, да на втором курсе проще просто "вдолбить", в практическом плане полезнее.
В свое время один гражданин посчитал, что для репрезентации по полу, возрастным группам и уровню образования (там получалось 8 степеней свободы) для 95%, достаточно 400 человек. Я саму работу не читал, а ссылки есть в книгах типа "Рабочей книги социолога". Если посмотреть таблицу, то это t=2,31...

Понятно, что такой подход (через степени свободы) является слабым, так как при разделении на большее число возрастных групп требования к объему выборки возрастают.
--------
http://www.dnp.ru

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей Сайт пользователя 20.02.2008 09:08
цитата
Profile
butaev©

Постов: 2114
Дата регистрации: 01.09.2005
Добрый день уважаемые коллеги.
И так среда. Удалось выкроить некоторое время. Начал читать все посты этой дискуссии, начиная с первого и обдумывать их содержание.
1. Попытался вспомнить и найти в нашем разделе Форуме, когда на подобнее темы мы заговорили впервые (из того, что пришлось читать мне).
Кому интересно http://www.forumsostav.ru/12/1227/ , обсуждали публикацию на сайте ФОМа http://bd.fom.ru/report/map/os0312151 . Разговор был об ошибках при гораздо больших выборках.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 12:06
цитата
Profile
Юрий Рязанов©

Постов: 2128
Дата регистрации: 07.04.2005

Цитата, автор Михаил Дымшиц:

для: Юрий Рязанов© Юра, не думаю, что это как-то аргументировалось, да на втором курсе проще просто "вдолбить", в практическом плане полезнее.
....

А вдруг преподаватель основательно подошел к своему делу? И свою аргументацию предложил? Вообще-то здесь не надо быть 7 пядей... достаточно любить свой предмет.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 14:52
цитата
Profile
Юрий Рязанов©

Постов: 2128
Дата регистрации: 07.04.2005

Цитата, автор butaev:

….. Удалось выкроить некоторое время. Начал читать все посты этой дискуссии, начиная с первого и обдумывать их содержание.


Эдуард, ввиду мат. насыщестности моих постов специально для экономии твоего времени, я их кратенько прокомментирую, поскольку я самого начала не знал куда все эти рассуждения меня заведут:

Мой 1-ый пост:
С одной стороны: Известно, что распределение признака при случайной выборке - закон Бинома

С другой стороны: Формула стандартной ошибки ~ (ab/n)^0.5 следует из распределения Гаусса

Вот я и задался вопросом в каком случае к распределению Бинома можно применять ошибку Гаусса.

Далее (пусть и не совсем корректно с т.з. математиков, а не физиков) я взял производную от логарифма кривой Бинома и нашел максимум .(почему от Ln?, просто с логарифмом проще работать, ясно что максимумы W(na) и LnW(na) совпадают).
Потом ввел новую переменную Z - это небольшие отклонения от максимума. Подставил ее в производную от lnW(na+Z). И далее чтобы получить распределение Гаусса (колокол) нужно было убить логарифмы в п.ч. Т.е. положить z/(na) <<1. Как потом выяснилось, из условия значимости малых признаков должно выполнятся na>2-4 - так что это условие в общем случае не выполняется и логарифмом пренебречь нельзя. Это оказался тупиковый подход (только для анализа малых признаков, в др. случаях все шоколадно).

И если условие z/(na) <<1 всеж таки принять, то мы автоматически получаем из распределения Бинома - распределение Гаусса в удобной для проведения расчетов форме. Кстати достаточно полезное упражнение для мозгов... ;)

В последующих постах я решал задачу в лоб, работая только с Биномом. И все дальнейшие рассуждения очень просты по содержанию.

С начала я исследовал случай когда Бином падает в е-раз! (это ~84% площадь кривого колокола Бинома) просто потому что я не знал условия во сколько раз от максимума должен падать бином для 95% площади. К тому же, все рассуждения строились что b=(1-a)~1.

Потом Миша сделал мне замечание про (1-a)(действительно, я этим членом первоначально пренебрег =1). Я понял что работаю с частным случаем Бинома - Пуассоном (что конечно не страшно когда мы говорим о малых признаках) и я исправился. Провел расчет уже с учетом (1-а)<1. Ну и не поленился и подсчитал что для площади 95% кривая должна падать в e^e раз! от максимума=W(na). И до кучи полюбил 95% ;) поскольку мне по душе, когда что-то падает кратно экспоненте (хоть это и не принципиально, ну вот такой вжик у всех физиков) .

P.S. везде мы работаем с (na), где а- доля признака, n-объем выборки, очевидно что физ. смысл произведения (na) - есть наиболее вероятное(или среднее) число анкет по исследуемому признаку с ответом ДА

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 16:04
цитата
Profile
Гость©
Незваный гость лучше ...
Постов: 262
Дата регистрации: 06.09.2006
для: Юрий Рязанов©
Гора родила мышь! ;)

P.S. Мне, кстати, про 430, если память не изменяет, рассказали еще на 1 курсе. :)
--------
Ты пришел, Рабби?!

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 20:10
цитата
Profile
Винопивец©

Постов: 2457
Дата регистрации: 02.07.2004
для: Юрий Рязанов©
Юра, этого Бинома зовут Бернулли, а не Пуассон. С Пуассоном работать не советую - интегрировать пуассоновы потоки в моделях - это вполне, а вот стандартная ошибка этого распределения не определена.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей Сайт пользователя 20.02.2008 21:50
цитата
Profile
Винопивец©

Постов: 2457
Дата регистрации: 02.07.2004

Цитата, автор Михаил Дымшиц:
Понятно, что такой подход (через степени свободы) является слабым, так как при разделении на большее число возрастных групп требования к объему выборки возрастают.

Экспоненциально или еще быстрее.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей Сайт пользователя 20.02.2008 21:52
цитата
Profile
Developer©

Постов: 8
Дата регистрации: 16.02.2008

Цитата, автор Юрий Рязанов:
А какая там приводилась аргументация для этого правила ???


Про n>=430 "Что-то с памятью моей стало..."
Точно не такая подробная как у Вас, так как учился на гуманитарном факультете,
М.б. в пятницу удастся расспросить того, кто вдалбливал, по подробнее.

а вот правило n>=400 доказывалось легко:
D=t*корень(а*(1-а)/n) следовательно n=t^2*а*(1-а) /D^2
если взять
t=2 (а чтобы считать проще было!)
а=0,5 (максимальная вариация для бинарного признака),
D=0.05 (типа, предельная ошибка +- 5%).
то n=2^2*0,5*0,5/0.05^2 = 1/0.05^2=400.
Здесь доли в 1% точно не учитываются, как и не учитывается разложение на сегменты.


Спасибо Юрию, обосновал интересный для меня вопрос о сверхмалых долях.
Хотя с другой сторны, как справедливо отмечал Михаил, на таких долях теоретическая ошибка теряется на фоне ошибок сбора.





Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 22:02
цитата
Profile
Юрий Рязанов©

Постов: 2128
Дата регистрации: 07.04.2005

Цитата, автор Винопивец:

для: Юрий Рязанов©
Юра, этого Бинома зовут Бернулли, а не Пуассон. С Пуассоном работать не советую - интегрировать пуассоновы потоки в моделях - это вполне, а вот стандартная ошибка этого распределения не определена.


Бином - это я сокр. пишу биномиальное распределение (Бернулли). Пуассон, частный его случай (редкие события при условии an=const; где а ->0; n->бесконечности).

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 22:05
цитата
Profile
Юрий Рязанов©

Постов: 2128
Дата регистрации: 07.04.2005

Цитата, автор Developer:
….а вот правило n>=400 доказывалось легко:
D=t*корень(а*(1-а)/n) следовательно n=t^2*а*(1-а) /D^2
если взять
t=2 (а чтобы считать проще было!)
а=0,5 (максимальная вариация для бинарного признака),
D=0.05 (типа, предельная ошибка +- 5%).
то n=2^2*0,5*0,5/0.05^2 = 1/0.05^2=400.


Ну для D=5% вы получили 400, а для других D=1%, 2%,3%... и т.д. у вас будут другие величины …n=100, 200, 300 и т.д.

Я уже писал выше (см. мой 1-ый пост на этой странице), надо положить D=a (ошибка = доле) и тогда вы получите для минимально значимого признака по Гауссу выражение:

a= t^2/(n + t^2) или n = t^2/a – t^2

Для малых a: t^2/a >> t^2 и тогда получаем уже написанную мною выше простецкую формулу (23):

an = t^2 для вероятностей 84% и 95% t= 1.41 и 1,96 соответственно.


Так что для довер.вероятности 95% получаем na=3.8 и для a=1% n=380

Сравнивая 380 с точным 430 - получаем недобор выборки 430/380 в 13%. Мелочи конечно, однако формально, мы же говорим о строгом подходе к решению задачи.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 22:44
цитата
Profile
Юрий Рязанов©

Постов: 2128
Дата регистрации: 07.04.2005

Цитата, автор Developer:
…Хотя с другой сторны, как справедливо отмечал Михаил, на таких долях теоретическая ошибка теряется на фоне ошибок сбора.


Не следует подменять задачу. Мы же другие ошибки не рассматриваем.

Проблема вычисления ошибки малых признаков в другом.

Дело в том, что в реальности мы имеем дело с целыми значениями!!! У нас не может быть na=4,3 ответа ДА! И это условие целочисленности одинаково касается и значений доверительного интервала. Поэтому оцеление значений полученных из формулы стандартной ошибки приводят нас к неопределенности самой доверительной вероятности ошибки среднего.

И тем не менее в рамках формального подхода, выражения записанные мной выше конечно же верны.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 23:13
цитата
Profile
butaev©

Постов: 2114
Дата регистрации: 01.09.2005
для: Юрий Рязанов©
Добрый вечер.
Меня учили, что случайность выборки применяется на том этапе. когда о структуре элемента (области) ГС уже ничего не известно. До этого я должен составлять выборку со структурой такой же, как в ГС. Вот если в ГС нет никаких "скоплений". Все равномерно примешано с точки зрения нашей задачи. Тогда сразу простая случайная выборка.
Представь себе, что мы играем в "Морской бой". И выбираем клетки чисто случайно. Правильный ли мы получим результат, сколько у меня кораблей, если я их расположил по некому закону. Например, составил в один угол. При большом количестве "выстрелов", будет поправильней. При малом, ошибки будут большие.
Я могу пример с этой игрой перекроить и для чтения прессы. Важен принцип. Сначала учти структуру ГС.
Извини за обрывочный пост. Завтра напишу подробнее.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 20.02.2008 23:28
цитата
Profile
Юрий Рязанов©

Постов: 2128
Дата регистрации: 07.04.2005

Цитата, автор butaev:
....Представь себе, что мы играем в "Морской бой". И выбираем клетки чисто случайно. Правильный ли мы получим результат, сколько у меня кораблей, если я их расположил по некому закону. Например, составил в один угол. При большом количестве "выстрелов", будет поправильней. При малом, ошибки будут большие.
Я могу пример с этой игрой перекроить и для чтения прессы. Важен принцип. Сначала учти структуру ГС.
Извини за обрывочный пост. Завтра напишу подробнее.


Эдуард, я не буду учитывать структуру ГС вообще никак.
Твоя задача сводится к задаче урны с шарами.

Поделим всю площадь на площадь одного корабля. Получим некое число N – это эквивалент числа шаров. И пометим черным цветом число шаров равное числу кораблей. Обозначим число черных шаров через m. А их долю a=m/N

Теперь я эти шары отдам тебе и ты их уложишь (спрячешь) на самое-самое дно урны (или как тебе угодно).

Я же возьму и перемешаю их. Кто мне это запретит?

Из N шаров я загребу кучку- выборку n. И конечно я возьму выборку n>>4.3/a (как доктор прописал).

Доля черных шаров в моей выборке (n) будет с точностью до стандартной ошибки повторять пропорцию черные/белые в урне. Вот и решение задачи.

Ты от меня ждал чего-то другого? Ты же мне не можешь запретить перемешивать? А я тебе не могу запретить укладывать шары по некому одному тебе известному закону.



Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 21.02.2008 01:56
цитата
Profile
IR©
Маркетолог - международник
Постов: 5658
Дата регистрации: 27.01.2007
для: Юрий Рязанов©
Юра, а если чесло чёрных шаров равно нулю?
--------
marketer marketiri lupus est ...

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 21.02.2008 03:46
цитата
Profile
Михаил Дымшиц©

Постов: 2758
Дата регистрации: 31.08.2005

Цитата, автор Юрий Рязанов:

Дело в том, что в реальности мы имеем дело с целыми значениями!!!



Вот-вот... Я вообще бы ушел в отчетах от процентов, а указывал бы все в натуральных дробях, но выясилось, что понимание записи за пределами 1/2...1/5 вообще в обществе отсутствует.
--------
http://www.dnp.ru

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей Сайт пользователя 21.02.2008 08:59
цитата
Profile
Михаил Дымшиц©

Постов: 2758
Дата регистрации: 31.08.2005
для: IgorRudy© Игорь, нам же важно понять, сколько надо вытащить шаров, чтобы понять, что над нами издеваются... Выяснили!!!
--------
http://www.dnp.ru

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей Сайт пользователя 21.02.2008 08:59
цитата
Profile
butaev©

Постов: 2114
Дата регистрации: 01.09.2005
для: Юрий Рязанов©
Доброе утро.
Я пока не понял вот этой фразы в твоем посте: "Я же возьму и перемешаю их. Кто мне это запретит?".
В моей постановке задачи я черные шары как бы приклеил к дну урны.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 21.02.2008 11:14
цитата
< 1 2 3 4 5 6 7 8 >
В настоящий момент эту тему просматривают: участников - 0, гостей - 4.
Только зарегистрированные пользователи могут оставлять сообщения в этом форуме


Форумы на Sostav.ru / Маркетинговые исследования / Тема про ОШИБКИ измерения и НЕ МОНОТОННОСТИ признака
© "ООО Состав.ру" 1998-2024

тел/факс: +7 495 225 1331 адрес: 109004, Москва, Пестовский пер., д. 16, стр. 2

При использовании материалов портала ссылка на Sostav.ru обязательна!
Администрация Sostav.ru просит Вас сообщать о всех замеченных технических неполадках на E-mail
Rambler's Top100   18+   Словарь маркетинговых терминов