Статистические фильтры. Раздел «Общий». Форум программистов «Весельчак У»

Dimka

Деятель
Команда клуба

Offline
Пол: Мужской

Статистические фильтры

« : 09-02-2007 10:55 »

Положим, имеется последовательность случайных отсчётов времени t₁, t₂, ..., t_n. n ~ 10000. Отсчёты времени случайны в том смысле, что dt = t_i+1 - t_i, i = 1, 2, ..., n-1 есть случайная величина.

Про dt известно, что часто, но не всегда чередуются относительно малые и относительно большие значения. Например: 5 cек., 2400 сек., 3 сек., 1728 сек. Периодически случаются интервалы, на которых dt много раз подряд принимает относительно малые значения. Периодически попадаются очень большие значения dt ~ 100000 сек.

Требуется на этой последовательности статистически определить какие-то усреднённые значения, которые принять за норму, и отсеять всё, что этой норме не соответствует. А именно:
1) Отсеять очень большие значения dt.
2) Определить и отсеять подпоследовательности dt, на которых частота (или плотность) малых значений dt выше нормальной.

По 1-му вопросу всё достаточно просто. Считается среднее dt (Mdt) и стандартное отклонение dt (Sdt). Всякое dt_i > Mdt + Sdt считается очень большим и отсеивается.

А вот по 2-му вопросу пока непонятно. Мысли, конечно, есть. Но всё пока выходят тупиковые - не буду писать и тем направлять читателей. По вопросу нужно определить и некую меру нормальности и метод нахождения границ искомых подпоследовательностей.


	Записан

Программировать - значит понимать (К. Нюгард)
Невывернутое лучше, чем вправленное (М. Аврелий)
Многие готовы скорее умереть, чем подумать (Б. Рассел)

Dimka

Деятель
Команда клуба

Offline
Пол: Мужской

Re: Статистические фильтры

« Ответ #1 : 10-02-2007 05:03 »

По 2-му вопросу пока решили следующее.

Скользить вдоль t окном шириной Mdt и на каждом шаге считать количество точек, попавших в окно. Так получается распределение частоты f точек вдоль t. На этой последовательности, в свою очередь, считать среднее Mf и стандартное отклонение Sf.

Экспериментальная проверка показывает, что метод вроде бы нормальный, поскольку Mf оказывается близко к 1, что означает 1 точку на средний интервал между вводом точек - т.е. соответствует Mdt.

Затем отсеиваются все точки, для которых в окне частота f_j, j = 1, 2, ... выше Mf + Sf.

Экспериментальная проверка показала, что в общем и целом отсеивается то, что нужно. Однако имеются и погрешности, возникающие из-за использования окон. Например при пороге частоты в 5 точек/час при среднем интервале в 30 минут может быть отсеяна последовательность: 1700, 5, 3, 7, 4, 5, 2, 1698. В ней крайние точки - лишние.


	Записан

Olegator

Команда клуба

Offline
Пол: Мужской

Re: Статистические фильтры

« Ответ #2 : 15-02-2007 23:43 »

Для отбраковки недостоверной информации на переходных и неустановившихся режимах ракетных двигателей применяется метод скользящих медиан. Знаешь такой метод?

Для этого строится рядом последовательность такой же длины. на первом и последнем месте остаются такие же числа. На остальных местах выбирается ближайшее к среднему из трёх.
Например:

Код:

_______________________
"A"                "B" 
_______________________
 3                  3
 1                 "3"
1000000          1000000
_______________________

Ближайшее число к среднему "3" значит ставим "3"

И так для каждого следующего числа.
Из An-1,An,An+1 находим ближйшее к среднему. И всё. Оно ставится на n-ое место.
Потом выстраиваем ещё последовательности по тому же принципу до тех пор пока очередная последовательность не будет отличатся от предыдущей.
Количество итераций не превышает шести. Если выбирать из пяти, то может потребоваться больше.

Этот метод применяется для отбраковки грубых и случайных ошибок. Есть ещё систематические ошибки. Для них применяются функционально-аналитические методы.


« Последнее редактирование: 16-02-2007 00:35 от Olegator »	Записан

sss

Специалист

Offline

Re: Статистические фильтры

« Ответ #3 : 16-02-2007 04:36 »

Очень рекомендую скачать файл DJV Ю.Сато "Обработка сигналов" ( 1,32 МБ). Я не знаю откуда он у меня есть, но по этой теме в ней просто супер все прожевано.


	Записан

while (8==8)

Dimka

Деятель
Команда клуба

Offline
Пол: Мужской

Re: Статистические фильтры

« Ответ #4 : 18-02-2007 16:35 »

Не совсем понятно, как применить методы сглаживания к моей задаче. Мне не сглаживать нужно, а находить некорректные dt (чтобы потом их пометить на графике). Кроме того, их потом нужно "исключить" (по мысли заказчика) из дальнейшей обработки.

Отсчёты t_i есть моменты времени, в которые происходят события одного класса.

В интервалах высокой частоты t_i некорректны, поскольку не соответствуют реальному моменту времени наступления события (попадают в систему с задержкой).

Длинные интервалы без событий являются исключениями и оказывают влияние на прогноз моментов будущих событий. Прогноз получается "осторожным" - с учётом прошлых исключений. А нужен "оптимистичный" прогноз - без учёта прошлых исключений.

Впрочем, вопрос не в том, как строить прогноз, а в том, как найти некорректные интервалы. Именно найти, а не исключить сглаживанием.


	Записан

nikedeforest

Команда клуба

Offline
Пол: Мужской

Re: Статистические фильтры

« Ответ #5 : 18-02-2007 17:06 »

Хотелось бы уточнить такой момент. Все эти действия должны проводиться в реалоьнеом времени? Это раз.
Вообще по второму вопросу идея такова. В связи с тем, что при решении первого вопроса мы уже узнаем среднее сзначение dt. Делаю вывод, что все, что ниже среднего dt и есть малое значение. Затем строим график (таблицу значений) частоты появления малых значений dt. Затем тут два пути. Либо, используя численные методы, мы определяем параметры эмпирической функции и затем ищем ее экстремумы. Либо сразу, в лоб бежим по этим значениями и ищем глобальный экстремум, который удаляем после его рассмотрения. В связи с етм, что никакого сглаживания совсем не надо, то наверное второй способ подойдет, хотя он мне кажется очень ресурсоемкий.


	Записан

ещё один вопрос ...

Dimka

Деятель
Команда клуба

Offline
Пол: Мужской

Re: Статистические фильтры

« Ответ #6 : 18-02-2007 18:24 »

Цитата: nikedeforest

Хотелось бы уточнить такой момент. Все эти действия должны проводиться в реалоьнеом времени?

В реальном. Только, наверно, ты не о том думаешь. Масштаб времени - от секунд до тысяч секунд и более, а общая выборка за полгода.

Цитата: nikedeforest

Делаю вывод, что все, что ниже среднего dt и есть малое значение.

Вывод неверный. Нужно учитывать меру отклонения от среднего, иначе около 70% точек попадёт в "малые значения". Проку от этого никакого.

Обрезать по Mdt-Sdt не получится, поскольку всякое dt>=0 (отрицательных приростов времени не бывает), а Sdt>Mdt причём в разы (установлено экспериментально). Т.е. не существует таких dt, чтобы удовлетворяли неравенству dt<Mdt-Sdt.

Цитата: nikedeforest

Затем строим график (таблицу значений) частоты появления малых значений dt.

Так вот и строим.

Цитата: nikedeforest

Либо, используя численные методы, мы определяем параметры эмпирической функции и затем ищем ее экстремумы.

Мне нужные не точки экстремумов, а интервалы, на которых функция превышает некоторый определённый порог значений.

Аппроксимация дискретных значений непрерывной функцией y(f) и решение уравнения y(f)=c (где c - порог значений) численными методами в данном случае неоправданно усложнит решение, в разы повышая объём вычислений без какого-либо практического преимущества в получаемых результатах.

Цитата: nikedeforest

Либо сразу, в лоб бежим по этим значениями и ищем глобальный экстремум, который удаляем после его рассмотрения.

Не понял, причём тут глобальный экстремум... Я не разыскиваю экстремумы.

Цитата: nikedeforest

то наверное второй способ подойдет, хотя он мне кажется очень ресурсоемкий.

Пробежаться по массиву порядка 10000 целых чисел раз в 15 минут на нормальной современной workstation - не так чтобы уж очень ресурсоёмко (IMHO).

Проблема здесь в том, как от частот вернуться к интервалам времени. Сейчас, фактически, за искомые интервалы принимаются целые окна шириной Mdt со всеми попадающими в них точками - те окна, для которых определялась частота.

Сглаживание для последовательности dt здесь может помочь тем, что в интервалах с высокой чатотой ввода имеется множество dt малых значений - в этом месте сглаженная функция будет сильнее прогибаться вниз от Mdt. Если на сглаженной функции посчитать среднее и стандартное отклонение, то, в силу сглаженности, стандартное отклонение будет меньшим, чем в необработанной последовательности - тогда можно будет попытаться применить фильтр dt<Mdt-Sdt, который выдаст искомые интервалы. Вот это стоит обдумать.


« Последнее редактирование: 18-02-2007 18:28 от dimka »	Записан

Страниц: [1] Вверх

Печать

« предыдущая тема следующая тема »

Форум программистов «Весельчак У» > Программирование > Общий (Модератор: Вад) > Тема: Статистические фильтры

	Автор	Тема: Статистические фильтры (Прочитано 14455 раз)
0 Пользователей и 1 Гость смотрят эту тему.