|
|
|
|
|
|
Постов: 8 Дата регистрации: 07.09.2007 |
Вопрос и прикладного и теоретического характера.
Когда перевзвешивание выборочных результатов производиться сразу по нескольким контролируемым признакам (3,4 и более того) почти всегда наблюдается следующее явление.
Если произвести перевзвешивание только по одному из контролируемых признаков (параметру) и проверить распределение значений других контролируемых признаков, то «перекосы» выборки по ним (относительно значений в генеральной совокупности) не всегда уменьшаются, но напротив по некоторым становятся еще больше. То есть выборка по этим признакам не «ремонтируется», а совсем наоборот. Если произвести перевзвешивание по тем параметрам которые испортились, то вновь могут обозначиться другие контролируемые признаки по которым «перекосы» выборки опять не уменьшились и так далее. То есть многопараметрическое перевзвешивание выборки почти всегда является бесполезным занятием.
Собственно вопрос: существуют ли надежные алгоритмы многопараметрического перевзвешивания выборочных совокупностей?
|
|
-------- Андрей Владимирович |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
07.09.2007 15:04 | |
|
|
|
Постов: 8 Дата регистрации: 07.09.2007 |
Неужели "гробовое" молчание в ответ
Означает, что подобных алгоритмов нет!? |
|
-------- Андрей Владимирович |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
07.09.2007 20:55 | |
|
|
|
\"Мне 300 лет, Я выполз из тьмы.\" Постов: 3598 Дата регистрации: 05.10.2004 |
для: AO©
Простите. Отсутствовал в форуме целый день.
По теме.
Каков алгоритм взвешивания? Если просто n/N то, все понятно.
Если вы учитываете и вес признака, о надо разбираться глубже. |
|
-------- \"Я согласен бегать в табуне,\ Но, не под седлом и без узды!\" |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
07.09.2007 21:43 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
Добрый день уважаемые коллеги.
для: AO©
Добрый день.
Мы уже один раз точно (около года назад) "говорили" в этом разделе форума на эту тему.
Я думаю многоуважаемый модератор раздела поможет найти ссылку на эту "старую" дискуссию о перевзвешивании. Просто не хочется начинать этот не простой разговор "с чистого листа". Подождем, не найдется дискуссия в архиве, тогда начнем обсуждать алгоритмы перевзвешивания снова. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
08.09.2007 10:51 | |
|
|
|
Постов: 8 Дата регистрации: 07.09.2007 |
для: butaev©
Спасибо за ответ!
Я внимательно прочитал то, что было написано год назад. Но!
Уже несколько лет плотно занимаюсь этим вопросом, но ни в открытой печати, ни ИНЕТЕ ответа на него нет!
Позволю себе повториться:
Цитата, автор AO:
Вопрос и прикладного и теоретического характера.
Когда перевзвешивание выборочных результатов производиться сразу по нескольким контролируемым признакам (3,4 и более того) почти всегда наблюдается следующее явление.
Если произвести перевзвешивание только по одному из контролируемых признаков (параметру) и проверить распределение значений других контролируемых признаков, то «перекосы» выборки по ним (относительно значений в генеральной совокупности) не всегда уменьшаются, но напротив по некоторым становятся еще больше. То есть выборка по этим признакам не «ремонтируется», а совсем наоборот. Если произвести перевзвешивание по тем параметрам которые испортились, то вновь могут обозначиться другие контролируемые признаки по которым «перекосы» выборки опять не уменьшились и так далее. То есть многопараметрическое перевзвешивание выборки почти всегда является бесполезным занятием.
Собственно вопрос: существуют ли надежные алгоритмы многопараметрического перевзвешивания выборочных совокупностей?
|
|
|
-------- Андрей Владимирович |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
08.09.2007 13:00 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
для: AO©
Я тоже поднял эту дискуссию http://www.forumsostav.ru/4/15340/. Там лично я говорил о использование сочетания (пол)х(род занятий)х(образование). Использование его (сочетания в расчете на 1000 жителей города) для перевзвешивания для наших тогдашних задач (в области информированности жителей) сработало. Результаты от перевзвешивания не изменились.
Но понятно, что для других задач применение этого сочетания не правильно. По моему скромному мнению, все зависит от конкретики задачи.
Может и не надо перевзвешивать, потому, что на нашем сегодняшнем уровне знаний о взаимосвязях в ГС и не понятно как это обоснованно сделать. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
08.09.2007 15:34 | |
|
|
|
Постов: 2457 Дата регистрации: 02.07.2004 |
Цитата, автор butaev:
Может и не надо перевзвешивать, потому, что на нашем сегодняшнем уровне знаний о взаимосвязях в ГС и не понятно как это обоснованно сделать. |
Золотые слова. |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
08.09.2007 15:59 | |
|
|
|
Постов: 8 Дата регистрации: 07.09.2007 |
Не хочу быть занудой, но если я правильно понимаю ситуацию алгоритмов многопараметрической корректировки
(ремонта)выборочных совокупностей на данный момент не существует?!
Интересно, кто нибудь занимается теоретическими исследованиями этого вопроса (многопараметрической корректировкой (ремонтом)выборочных данных)? |
|
-------- Андрей Владимирович |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
10.09.2007 16:10 | |
|
|
|
\"Мне 300 лет, Я выполз из тьмы.\" Постов: 3598 Дата регистрации: 05.10.2004 |
При чем тут занудство? Просто понимаете неправильно.
Ну, я занимался этим самым ремонтом. И?
Я вам вопрос задал. Вы на него не ответили, пропали на да дня, теперь возмущаетесь. ???
Что до того, чо вас не завалили информацией, так не понятно какой информации вам надо.
Вы даже ни словом не обмолвились, что за задача-то вами решается. Что за признаки? Что значит: "Если произвести перевзвешивание только по одному из контролируемых признаков (параметру) и проверить распределение значений других контролируемых признаков, то «перекосы» выборки по ним (относительно значений в генеральной совокупности) не всегда уменьшаются, но напротив по некоторым становятся еще больше." и самое главное почему так не должно быть? Ну, и многое другое. :)
|
|
-------- \"Я согласен бегать в табуне,\ Но, не под седлом и без узды!\" |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
10.09.2007 17:41 | |
|
|
|
Постов: 8 Дата регистрации: 07.09.2007 |
для: Bal©
Цитата, автор Bal:
Я вам вопрос задал. Вы на него не ответили, пропали на да дня, теперь возмущаетесь. |
Нет, нет - я не возмущаюсь. А на выходные всегда пропадаю. Чуть позже попробую опубликовать пример который иллюстрирует проблему.
|
|
-------- Андрей Владимирович |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
11.09.2007 15:59 | |
|
|
|
Постов: 2114 Дата регистрации: 01.09.2005 |
для: AO©
Добрый день.
Не люблю недоговоренностей.
И так мы посчитали все распределения, не применяя никакого перевзвешивания. После этого перевзвесили. используя, например, сочетание (пол)х(род занятий)х(образование) N% на 1000 жителей, как в ГС. "Отремонтировали", посчитали снова получили совсем другие распределения.
Какой вывод? Только тот, что результатами нашего исследования для подготовки важных управленческих решений надо пользоваться с большой (огромной) осторожностью. Или Вы какие-то другие выводы хотите из этого всего получить? |
|
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
11.09.2007 16:53 | |
|
|
|
Постов: 8 Дата регистрации: 07.09.2007 |
для: butaev©
Добрый вечер!
Нет, я все же немного о другом. Попробую на примере, хотя получится пространно.
Допустим, что «ремонт» выборки производится по двум параметрам, Х и У, которые могут принимать по четыре различных значения х1, х2, х3, х4 и у1, у2, у3, у4 соответственно. В генеральной совокупности оба параметра имеют равномерное распределение с вероятностями 0.25.
Выборки содержит 20 случайных испытаний.
В выборочной совокупности признак (параметр) Х имеет распределение относительных частот: 0.3; 0.1; 0.3; 0.3. То есть значение при знака Х равное х2 встречается в выборке 2 раза, значения х1, х3 и х4 по 6 раз.
Признак У имеет распределение относительных частот: 0.2; 0.2; 0.4; 0.4.
Для ремонта выборки по параметру Х надо либо случайным образом удалить по 4 случайных испытания из выборочной совокупности где признак Х принимает значения х1, х3, х4. Или 4 раза, случайным образом, продублировать испытания где параметр Х принимает значение х2.
Допустим, что мы выбрали второй способ.
Кстати этот прием корректен так как, если генеральная совокупность счетная, то схемы в возвращением шаров в урну, и без возвращения (т.е. повторная и бесповторная выборки) не различимы.
Для конечных ГС большого объема погрешность аппроксимации бесповторной выборки, - повторной составляет доли процента.
Итак, мы 4 раза, случайным образом, продублировали испытания из выборочной совокупности для которых признак Х принимает значение х2. Заметим, что таких испытаний в выборке 2.
Так вот, если, например, для обоих таких испытаний признак У имеет значение у4, то после ремонта по параметру Х, признак У будет иметь распределение: 0.17, 0.17, 0.33, 0.5.
Очевидно, что распределение по второму контрольному параметру стало еще больше отличаться от его распределения в ГС.
Пример конечно примитивный, но если у нас настоящая выборка, реальное распределение в генеральной совокупности, а контрольных признаков два и больше, то с точки зрение процесса вычислений нет ни каких качественных различий.
На практике бывает, что при наличии двух или иногда трех контрольных признаков которые не просто не являются независимыми случайными величинами, но и имеют корреляцию близкую к единице удается произвести двух или трехпараметрический ремонт выборки. Но в общем случае, при лобовом ремонте выборки по нескольким признакам ни чего хорошего не получается!
P.S. Если происходит перевзвешивание выборки при помощи весовых коэффициентов, на которые умножаются итоговые результаты исследования, то с точки зрения вычислительного процесса, это ни чем ни отличается от случайного удаления или дублирования испытаний в выборке. Если коэффициент меньше 1, то это аналогично удалению испытаний. Если больше 1, - то дублированию.
P.P.S. Под случайным испытанием в «местном» контексте имеется в виду опрос одного респондента, или подобное.
|
|
-------- Андрей Владимирович |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
11.09.2007 17:27 | |
|
|
|
Гость<< < |
Если я правильно поняла Вашу задачу, то посмотрите на IPF (что-то вроде Iterative Proportional Fitting). Позволяет исправить так, чтобы и по Х и по У одновременно распределение было как в генеральной совокупности. На форуме действительно что-то об этом было. |
|
<
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
12.09.2007 00:12 | |
|
|
|
Nikolas<< < |
На самом деле существуют такие методы перевзвешивания - очёнь удивлён, что никто про это не написал. Самым правильным методом является IPF (Iterative Proportional Fitting) - суть состоит в том, что мы перевзвешиваем сначала по одному признаку, затем по другому, затем опять по первому и так по кругу, пока веса не стабилизируются - такие веса уже одновременно подгоняют выборку по всем параметрам. По моему опыту после 5-10 итераций - стабилизируются всегда. Математически доказано, что если выборка совсем не убитая (нет выбитых клеток), то веса обязательно стабилизируются. Есть и другие алгоритмы - CROSS-ENTROPY method, Stone-Byron method и другие. Но моё численное моделирование показывало, что IPF работает лучше для стандартных для социсследований выборок, наборов признаков и среднего числа категорий в этих признаках.
Вообще тема на русском не раскрыта в принципе. Если есть конкретная задача - пишите novozhilov собака front.ru - подскажу в каком направлении искать.
Nikolas. |
|
<
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
12.09.2007 00:34 | |
|
|
|
Nikolas<< < |
На самом деле существуют такие методы перевзвешивания - очёнь удивлён, что никто про это не написал. Самым правильным методом является IPF (Iterative Proportional Fitting) - суть состоит в том, что мы перевзвешиваем сначала по одному признаку, затем по другому, затем опять по первому и так по кругу, пока веса не стабилизируются - такие веса уже одновременно подгоняют выборку по всем параметрам. По моему опыту после 5-10 итераций - стабилизируются всегда. Математически доказано, что если выборка совсем не убитая (нет выбитых клеток), то веса обязательно стабилизируются. Есть и другие алгоритмы - CROSS-ENTROPY method, Stone-Byron method и другие. Но моё численное моделирование показывало, что IPF работает лучше для стандартных для социсследований выборок, наборов признаков и среднего числа категорий в этих признаках.
Вообще тема на русском не раскрыта в принципе. Если есть конкретная задача - пишите novozhilov собака front.ru - подскажу в каком направлении искать.
Nikolas. |
|
<
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
12.09.2007 00:35 | |
|
|
|
Постов: 8 Дата регистрации: 07.09.2007 |
для: Nikolas
Спасибо!
Попробую разобраться. |
|
-------- Андрей Владимирович |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
12.09.2007 14:08 | |
|
|
|
Постов: 8 Дата регистрации: 07.09.2007 |
для: Nikolas
Провел почти пол дня в ИНЕТЕ, есть ссылки, и много, на Iterative Proportional Fitting,CROSS-ENTROPY method, но подробного описания не нашел ни где.
|
|
-------- Андрей Владимирович |
|
0 |
|
0 |
Комментарий понравился? |
|
0 |
|
0 |
12.09.2007 15:28 | |
|
|
|
| Только зарегистрированные пользователи могут оставлять сообщения в этом форуме |
|
|
|
|
|
© "ООО Состав.ру" 1998-2025
тел/факс: +7 495 225 1331 адрес: 109004, Москва, Пестовский пер., д. 16, стр. 2
При использовании материалов портала ссылка на Sostav.ru обязательна! Администрация Sostav.ru просит Вас сообщать о всех замеченных технических неполадках на E-mail
|
|
|