Интересная задачка. Поиск отсутствующего уникального значения.. Страница 1. Раздел «Базы данных». Форум программистов «Весельчак У»

RXL

Технический
Администратор

Offline
Пол: Мужской

Интересная задачка. Поиск отсутствующего уникального значения.

« : 16-06-2008 20:09 »

Задачка больше академическая, т.к. можно обойтись без нее, воспользовавшись автоматической генерацией нового номера и взяв целый тип с достаточным запасом. По этому вопрос как решить эту задачу, а не о том, как сделать иначе.

Такую задачку с тем же академическим интересом я решил в далеком 2002-м и записал на бумагу, а тут мне эта задача попалась и я обнаружил в ней ошибку. Стал разбираться детальнее и оказалось, что не все так просто...

Данную задачку я решаю в MySQL, но думаю, что она примерно одинаково выглядит в любой другой СУБД.

Предположим, что есть некая таблица и в ней столбец, содержащий уникальные целые числа.

Код: (SQL)

CREATE TABLE test (id TINYINT UNSIGNED NOT NULL PRIMARY KEY); -- беззнаковое целое размеров один байт

Таблица может иметь три ключевых состояния:
1. пустая;
2. полная (значения id покрывают весь диапазон типа);
3. промежуточное состояние (в нее еще что-то можно вставить без ошибки).

Нужно сделать такой запрос (можно и не один запрос, а целый SQL-блок), который даст на выходе либо одно из свободных чисел, либо как-то сигнализирует об ошибке.

Это был первый вариант решения.

Код: (SQL)

SELECT (t1.id + 1) res
INTO id
FROM test t1
LEFT JOIN test t2 ON (t2.id = t1.id + 1)
WHERE t2.id IS NULL
HAVING res BETWEEN 0 AND 255
LIMIT 1;

Если убрать "LIMIT 1", то запрос вернет начальные значения в пустующих окнах диапазона.
Особенности запроса:
1. таблица пуста - запрос ничего не вернет;
2. таблица не пуста, но других окон, кроме начинающегося с ноля, нет - вернет 256, которое отвергнет условие в HAVING, и в итоге - ничего.
3. таблица полная - аналогично п.2.

Попробуем в другую сторону...

Код: (SQL)

SELECT (t1.id - 1) res
INTO id
FROM test t1
LEFT JOIN test t2 ON (t2.id = t1.id - 1)
WHERE t2.id IS NULL
HAVING res BETWEEN 0 AND 255
LIMIT 1;

Теперь болезнь немного изменилась: таже трабла с диапазоном - кончающимся значением 255.

Логично было бы состыковать оба запроса по UNION. Это решает проблему п.2., но не помогает различить ситуации, когда таблица пустая или полная. Решаю усложнением кода - переходом от одиночного оператора к блоку.

Код: (SQL)

DECLARE id INT;

SELECT COUNT(*)
INTO id
FROM test;

IF id = 0 THEN
SET id = 1;
ELSEIF id = 256 THEN
SET id = NULL;
ELSE
SELECT (t1.id - 1) res
INTO id
FROM test t1
LEFT JOIN test t2 ON (t2.id = t1.id - 1)
WHERE t2.id IS NULL
HAVING res BETWEEN 0 AND 255
LIMIT 1;

IF id IS NULL THEN
SELECT (t1.id + 1) res
INTO id
FROM test t1
LEFT JOIN test t2 ON (t2.id = t1.id + 1)
WHERE t2.id IS NULL
HAVING res BETWEEN 0 AND 255
LIMIT 1;
END IF;
END IF;

А может можно как-нибудь проще решить задачу?


	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #1 : 17-06-2008 03:17 »

Для оракла пишу наугад, днем проверю, если не забуду.
Select min(t.id+1) from test t where not exists (Select 1 from test tt where tt.id=t.id+1) and t.id<254


	Записан

Удачного всем кодинга! -=x[PooH]x=-

RXL

Технический
Администратор

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #2 : 17-06-2008 03:30 »

PooH, у тебя точно тот же алгоритм, только через подзапрос (MySQL до 4.1 не поддерживала подзапросов и надо было извращаться с LEFT JOIN). Траблы остаются теже: пустая таблица и окно с началом в ноле.

t.id<254

Наверно все таки - 255...


	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #3 : 17-06-2008 06:50 »

... ну ё моё =) список ограничений в студию! =)


	Записан

Удачного всем кодинга! -=x[PooH]x=-

RXL

Технический
Администратор

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #4 : 17-06-2008 07:01 »

Никаких ограничений - просто хотелось бы узнать о других алгоритмах. И твой, и мой запросы приведутся оптимизатором к одному виду.
Кстати, у него есть серьезный недостаток - одна "таблица" пойдет в full scan. Для примера я выбрал очень маленький тип, ну, а если будет что-то по больше, то скорость по мере заполнения таблицы будет быстро падать.

Смысл в этой задаче все же есть - использование малых типов дает выйгрыш, если его потом надо использовать в нескольких индексах в нескольких таблицах: индекс меньше, скорость поиска выше. Только вот выделение id какое-то гиморное получается...


« Последнее редактирование: 17-06-2008 07:04 от RXL »	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #5 : 17-06-2008 07:03 »

Цитата

если будет что-то по больше, то скорость по мере заполнения таблицы будет быстро падать

можно еще придумать вариант с аналитическим функциями - просмотр вперед/назад


	Записан

Удачного всем кодинга! -=x[PooH]x=-

Dimka

Деятель
Команда клуба

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #6 : 17-06-2008 09:35 »

Академические задачки и full-scan - вещи несовместимые Улыбаюсь

Индекса таблицы как математического понятия нет.

А вообще разрывы в упорядоченной последовательности целых чисел можно определять через разность соседних номеров. Где она больше 1, там разрыв. И на сколько она больше 1, столько там свободных мест. Но конец таблицы это не обрабатывает, всегда придётся задавать максимум.


	Записан

Программировать - значит понимать (К. Нюгард)
Невывернутое лучше, чем вправленное (М. Аврелий)
Многие готовы скорее умереть, чем подумать (Б. Рассел)

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующег&#

« Ответ #7 : 17-06-2008 10:40 »

Если диапазон чисел 0-255 (если диапазон больше, то кол-во единиц в CUBE д.б. равно спепени 2), то в оракле можно сделать "финт ушами" =)

Код:

SELECT MIN(s.cnt)
  FROM x_test t,
       (SELECT 1, (row_number() over(ORDER BY 1)) - 1 cnt
          FROM dual
         GROUP BY CUBE(1, 1, 1, 1, 1, 1, 1, 1)) s
 WHERE t.id(+) = s.cnt
 AND t.ID IS NULL

ну или

Код:

SELECT MIN(s.cnt)
  FROM x_test t,
       (SELECT xcnt - 1 cnt
          FROM (SELECT LEVEL xcnt FROM dual CONNECT BY LEVEL < 256)) s
 WHERE t.id(+) = s.cnt
       AND t.id IS NULL


« Последнее редактирование: 17-06-2008 11:31 от PooH »	Записан

Удачного всем кодинга! -=x[PooH]x=-

RXL

Технический
Администратор

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #8 : 17-06-2008 12:22 »

dimka, любая академическая задачка имеет шанс стать практической Ага

Как ты видишь подобное в SQL? Есть идеи?

PooH, зачем порезал - интересно было, хоть и не совсем то. А последнее я пока не понял - нужно мозг подключить... Здесь была моя ладья...


	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #9 : 17-06-2008 12:54 »

RXL, там явный косяк был... =)
а про последнее... там генерится ряд натуральных цисел и к нему приклеиваются существующие... ну и соответственно находится наименьшее натуральное для которого нет пары.


	Записан

Удачного всем кодинга! -=x[PooH]x=-

Dimka

Деятель
Команда клуба

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующег&#

« Ответ #10 : 17-06-2008 14:04 »

Цитата: RXL

Как ты видишь подобное в SQL? Есть идеи?

Я эту или очень близкую к ней задачу решал в 2003-м году именно через разности. Увы, сейчас не могу выделить пару часиков, чтобы восстановить. Но сразу предупреждаю, что запрос там был далёк от оптимальности и избегания full scan.

Можно посчитать разности между номером текущей строки и ID (считая, что номера строк и ID - целые числа от 1 до N). Для монотонно возрастающих номеров разность будет фиксированной (сначала 0). В месте первого разрыва она возрастает и потом опять сохраняет своё значение до следующего разрыва.

Код:

ID RowNumber Diff
1  1         0
2  2         0
4  3         1
5  4         1
6  5         1
9  6         3
10 7         3

Это была центральная идея решения. Затем группировки по разностям и определение диапазонов, заполненных номерами, через min и max для группы... Потом не помню...

Идея была почерпнута из курса "Вычислительной математики", когда там аналитические производные заменялись на численные разности, и на этом основании что-то там искалось. Положительное или отрицательное постоянное значение первой производной означает равномерное возрастание или убывание значения функции ID(RowNumber).

На код сейчас нет времени.


« Последнее редактирование: 17-06-2008 14:15 от dimka »	Записан

RXL

Технический
Администратор

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #11 : 17-06-2008 16:15 »

PooH, очень интересно.

Упростил выражение:

Код: (SQL)

SELECT LEVEL - 1 cnt FROM dual CONNECT BY LEVEL < 257

Одним подзапросом меньше.

Вариант с CUBE работает медленнее. Для генерации 256 значений потрачено 450мс, а на 65536 - более двух минут (не стал ждать).

Переписал немного в привычную форму с LEFT JOIN. Знаю, что функционал у нее в Oracle меньше, чем у конструкции "(+)", но это зато переносимо и логически понятнее.

Код: (SQL)

SELECT MIN(s.cnt)
FROM (SELECT LEVEL - 1 cnt FROM DUAL CONNECT BY LEVEL < 257) s
LEFT JOIN test t ON (t.id = s.cnt)
WHERE t.id IS NULL

-- или

SELECT MIN(s.cnt)
FROM test t, (SELECT LEVEL - 1 cnt FROM DUAL CONNECT BY LEVEL < 257) s
WHERE t.id (+) = s.cnt
AND t.id IS NULL

Запрос сильно зависим по скорости от предела диапазона: для 0..255 - мгновенно, для 0..65535 - 0.4-0.6 с, на больший диапазон задумывается надолго. Видимо, первый запрос выполняется полностью, прежде чем начнутся поиски строк в таблице test.
Очень интересный вариант. Осталось найти ему аналог в MySQL...

dimka, пока читаю...


	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

RXL

Технический
Администратор

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #12 : 17-06-2008 16:49 »

dimka, вот реализация твоей идеи. Нужно найти только одно любое значение, не присутствующее в таблице.

Код: (SQL)

SELECT s.rn
FROM (
SELECT t.id, ROWNUM - 1 rn
FROM test t
ORDER BY t.id
) s
WHERE s.id != s.rn
AND ROWNUM = 1

Работает

Но не обрабатывает диапазон (MAX(t.ID) + 1)...255 и пустую таблицу. Значит, требуется дополнительный запрос и условие. При попытке объединить запросы по UNION Oracle мне заявил, что типы столбцов в таблицах не совпадают (NULL и NUMBER).
Кроме того, есть затраты на full scan и сортировку. На таблице из 4 значений это не заметно совсем.

Надо подумать еще...


	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

RXL

Технический
Администратор

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #13 : 17-06-2008 17:09 »

Самым тупым и скоростным способом стало создание таблицы из одного столбца, содержащей все значения ID, с последующим LEFT JOIN с таблицей test. Для 2^8 значений - пустяк, для 2^16 - 128кБ минимум. Тут тоже возможны вариации: сортировать или нет перед объединением (соотв. - нужен или нет первичный ключ).


	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #14 : 18-06-2008 03:14 »

Тут фишки есть - сам по себе запрос с connect by level возвращает не более 100 значений, чтобы вернулись все нужен внешний запрос. Ты правильно изменил - я его оставил чтоб по в глаза бросился Ага

. Для генерации ряда есть менее надежный способ - выборка из большой системной таблицы, например, all_objects.

Чтобы совпадали типы нужно явное преобразование to_number(null)


	Записан

Удачного всем кодинга! -=x[PooH]x=-

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующег&#

« Ответ #15 : 18-06-2008 03:16 »

Можно сделать функцию для генерации таблицы в памяти.

Вот тема на sql.ru про генерацию ряда чисел: http://www.sql.ru/forum/actualthread.aspx?bid=3&tid=34821&pg=1


« Последнее редактирование: 18-06-2008 05:05 от PooH »	Записан

Удачного всем кодинга! -=x[PooH]x=-

Антон (LogRus)

Глобальный модератор

Offline
Пол: Мужской

Внимание! Люблю сахар в кубиках!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #16 : 18-06-2008 04:55 »

А может следует делать всё наоборот?
Заполнить таблицу свободными номерами и по мере использования их удалять? Дёшево и сердито. просто берёшь любой ну или минимальный.


	Записан

Странно всё это....

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #17 : 18-06-2008 05:00 »

вот еще вариант решения (вроде работает)

Код:

SELECT nvl(MIN(tt.id) + 1, 0) res
  FROM x_test t,
       (SELECT -1 id
          FROM dual
        UNION
        SELECT id
          FROM x_test
        UNION
        SELECT 255 FROM dual) tt
 WHERE t.id(+) = tt.id + 1
       AND t.id IS NULL


	Записан

Удачного всем кодинга! -=x[PooH]x=-

Sla

Команда клуба

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #18 : 18-06-2008 06:12 »

в продолжение идеи PooH

Код:

SELECT t.id res
  FROM        (SELECT id
          FROM xtest
        UNION
        SELECT max(id)+1
          FROM x_test
       ) t,
       (SELECT min(id)-1 id
          FROM xtest
        UNION
        SELECT id
          FROM x_test
       ) tt
 WHERE (t.id- tt.id)>2


« Последнее редактирование: 18-06-2008 06:14 от Sla »	Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #19 : 18-06-2008 07:19 »

Sla, если в таблице только 1,2 то возвращается 3, а должно 0
Если в таблице только одно значение, то запрос ничего не возвращает.


	Записан

Удачного всем кодинга! -=x[PooH]x=-

Sla

Команда клуба

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #20 : 18-06-2008 07:36 »

PooH, я не проверял, но чуть попозже проверю


	Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.

Dimka

Деятель
Команда клуба

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующег&#

« Ответ #21 : 18-06-2008 08:58 »

Мне кажется, что поиск отсутствующих значений всегда означает перебор всех имеющихся. Каким образом можно избежать full scan (исключая случай обработки самого большого или самого маленького значения)?


	Записан

Sla

Команда клуба

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #22 : 18-06-2008 09:09 »

а идея была следующая
создать две псевдотаблицы, а потом их связать
в Oracle их можно связать по rownum
усложнив запрос

Код:

SELECT t.id res
  FROM  ( select rownum r, id
      from     (SELECT id
          FROM xtest
        UNION
        SELECT max(id)+1
          FROM x_test
       ) ) t,
       (select rownum r, id 
         from (SELECT min(id)-1 id
          FROM xtest
        UNION
        SELECT id
          FROM x_test
       )) tt
 WHERE t.r=tt.r and (t.id- tt.id)>2

если не запутался в скобках Улыбаюсь


	Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #23 : 18-06-2008 09:54 » new

Sla, когда в таблице только одно значение у тебя (t.id- tt.id)>2 не выполнится... также использую min и max у тебя не обозначен диапазон, то есть, если в таблице минимальное значение например 10, у тебя 0 не вернется в запросе.


	Записан

Удачного всем кодинга! -=x[PooH]x=-

Sla

Команда клуба

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #24 : 18-06-2008 10:25 »

согласен, не дочитал условия
Поиск отсутствующего уникального значения.

нету оракла под рукой, есть mssql
а тем более 10-ки
как я понял
SELECT LEVEL xcnt FROM dual ...
генерит порядковые номера

ушел мысль думать Улыбаюсь


	Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #25 : 18-06-2008 10:36 »

Sla, хм... ну по поставленным условиям 0 и не обязан возвращаться, если минимальное в таблице 10... а вот если в таблице только одно значение (причем есть разница 0 это или не 0, я об это споткнулся), то Min-1 и Max+1 не пройдут по условиям


	Записан

Удачного всем кодинга! -=x[PooH]x=-

Sla

Команда клуба

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #26 : 18-06-2008 11:27 »

Код:

select tt.id from
  test2 tt
  left join test1 t on (tt.id=t.id)
where t.id is null

test2 - сгенерированная таблица от необходимого минимального значения до максимального значения в test1


	Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.

RXL

Технический
Администратор

Offline
Пол: Мужской

Re: ?????????? ???????. ????? ?????????????&#

« Ответ #27 : 18-06-2008 18:36 »

Цитата: PooH от 18-06-2008 03:16

Интересная тема. Жаль, что ссылки на oracle magazine и т.п. говорят not found...

Вот еще одна загадочная штука Oracle из той темы:

Код: (SQL)

SELECT Y FROM DUAL
MODEL
DIMENSION BY (0 AS X) MEASURES (0 AS Y)
RULES ITERATE (65535)
(Y[ITERATION_NUMBER + 1] = ITERATION_NUMBER + 1);

Выдает последовательность 0..65535 за 1 с.
Скорость MODEL не линейная: 100к значений выдает за 2-3 секунды, 200к - почти минуту.

LogRus, можно, но тогда идут расходы на содержание таблицы. Когда база промышленного масштаба, то лишний "метр" не жалко, а вообще - жалко. Ну, и просто не кошерный способ - слишком легко Ага

PooH, запрос работает Улыбаюсь

Код:

SELECT nvl(MIN(tt.id) + 1, 0) res
  FROM x_test t,
       (SELECT -1 id
          FROM dual
        UNION
        SELECT id
          FROM x_test
        UNION
        SELECT 255 FROM dual) tt
 WHERE t.id(+) = tt.id + 1
       AND t.id IS NULL

На таблице, где первое значение - 1 (377 разрозненных значений), потрачено 16 мс.
На таблице, где первое - 20000 (332865 значений), потрачено 2 с.
На пустой странице сработало за 16 мс.
На почти полной (0..65534) - 125 мс, на полностью полной - 216 мс.

Это оказался самый скоростной запрос для умеренных по размеру таблиц (~100000 строк).

Одна странность: таблицы с PK для id обрабатываются в 2-2.5 раза медленнее, чем таблицы без индекса.


« Последнее редактирование: 18-06-2008 18:56 от RXL »	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

PooH

Глобальный модератор

Offline

Offline
Пол: Мужской

... и можно без хлеба!

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #28 : 19-06-2008 03:07 »

Думаю время тратится на чтение индекса, надо план смотреть. Думаю на такой таблице индекс только мешает. Ещё не помешало бы статистику по таблице собрать.


	Записан

Удачного всем кодинга! -=x[PooH]x=-

RXL

Технический
Администратор

Offline
Пол: Мужской

Re: Интересная задачка. Поиск отсутствующего уникального значения.

« Ответ #29 : 19-06-2008 03:39 »

По плану индексы посмотреть забыл, но по другим вариантам смотрел. Статистика вдвое снижает стоимость (COST) full scan.


	Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.

Страниц: [1] Вверх

Печать

« предыдущая тема следующая тема »

Форум программистов «Весельчак У» > Практические разделы > Базы данных (Модераторы: x77, McZim) > Тема: Интересная задачка. Поиск отсутствующего уникального значения.

	Автор	Тема: Интересная задачка. Поиск отсутствующего уникального значения. (Прочитано 43739 раз)
0 Пользователей и 1 Гость смотрят эту тему.