sash_ko's blog: Поиск дубликатов в массиве

воскресенье, 26 октября 2008 г.

Поиск дубликатов в массиве

Задача

Есть массив целых от 1 до N. Нужно определить, есть ли в этом массиве повторяющиеся значения.

Решение

Задачу можно решить несколькими способами. Первое, что приходит в голову - отсортировать исходный массив и сравнивать соседние элементы. Затраты по времени и по расходуемой памяти будут зависеть от алгоритма сортировки, например, при быстрой сортировке временная сложность будет O(nlogn +n-1) и емкостная сложность (память) будет O(logn).

 bool has_duplicates(int *array, int len) { quicksort(array, 0, len-1); for(int i=1;i < len;i++) if(array[i-1]==array[i]) return true; return false; };
Другое решение - пошагово обходить массив и в каждой итерации проверять значение элемента, сравнивая с информацией о предыдущих итерациях, сохраняемой в дополнительном контейнере. Таким контейнером может быть массив размера N и полностью заполненный нулями. Индекс элемента в массиве - значение от 1 до N (точнее от 0 до N-1), значение элемента - количество "индекса" в исходном массиве. Это проще выглядит на примере:

// исходный массив, со значениями от 1 до 9
src_array = [1,3,8,4,2,9,3,9]

// дополнительный массив на 9 элементов (что бы уместились от 1 до 9)
add_array = [0,0,0,0,0,0,0,0,0]

// после обработки исходного массива результирующий будет выглядеть так:
// одна единица, одна двойка, две тройки, одна четверка, одна восьмерка и две девятки
add_array = [1,1,2,1,0,0,0,1,2]

 bool has_duplicates(int *src_array, int len, int minN, int maxN) { // допускаем, что входящие данные валидны int add_len = maxN-minN+1; int *add_array = new int [add_len]; // что-то не помню, можно ли по другому забить массив нулями :( for(int i=0;i < add_len;i++) add_array[i] = 0; for(int i=0;i < len;i++) if(++add_array[src_array[i]-1]>1) // здесь можно добавить return true; // но для наглядности просто выведем результат std::cout<< src_array[i]<< add_array[src_array[i]-1]<< std::endl; delete [] add_array; return false; }
Сложность такого алгоритма будет O(n), затраты памяти будут зависеть от диапазона данных - O(maxN-minN). Кроме этого, требуется, что бы было известно максимальное значение элементов из исходного массива, в противном случае либо будет затрачиваться дополнительное время на его поиск, либо понадобиться значительно больше памяти (например, что бы поместить все целые числа).

Вывод

Из двух предложенных решений первое требует дополнительно реализации сортировки, но является более универсальным и имеет преимущества при больших размерах исходного массива и большом диапазоне значений. Второй метод проще реализуем (если предположить, что в первом случае нет готовой функции сортировки), но требует дополнительной информации о диапазоне значений и при большом диапазоне - большие затраты памяти.

11 комментариев:

Анонимный комментирует...: использовать 2й вариант, только вместо массива использовать хеш (он же: map, ассоциативный массив).; 26 октября 2008 г. в 23:50
Анонимный комментирует...: Как вариант, в реализации быстрой сортировки при сравнении значений ячеек, если они равны писать значение ячейки в дополнительный массив...; 27 октября 2008 г. в 04:51
Unknown комментирует...: Можно сделать за линейное время и без ограничений, если использовать к примеру boost::unordered_map, вместо массива.
К тому-же этот алгоритм легко распараллелить :); 27 октября 2008 г. в 09:04
sash_ko комментирует...: 2Анонимный: да, использование хеша - хорошее решение, позволяющее не привязываться к типу данных исходного массива.
А вот делать свою реализацию модифицированной быстрой сортировки лень :); 27 октября 2008 г. в 12:04
sash_ko комментирует...: 2lazin: хотелось все таки обойтись без буста, не все любят его использовать в своих проектах.
распараллелить можно, но не при такой реализации как сейчас. кстати, интересно было бы услышать какие-нибудь идеи по этому поводу; 27 октября 2008 г. в 12:10
Unknown комментирует...: Для того, что-бы распараллелить, достаточно разделить массив на N частей и обработать каждую часть в своем потоке. Если использовать lock free хэш, вместо boost::unordered_map, то будет работать в N раз быстрее :); 28 октября 2008 г. в 12:40
Unknown комментирует...: Гляньте еще алгоритм Флойда http://en.wikipedia.org/wiki/Floyd%27s_cycle-finding_algorithm#Tortoise_and_hare; 29 октября 2008 г. в 23:17
Анонимный комментирует...: Если пользоваться стандартными возможностями языка, то на Python'е это можно записать так:
# создаем список (который, в отличие от обычного массива можно заполнить любыми данными)
lst = ['a',1,2,3,5.7,3,'a',2,4,5,1,5.7,1,1]
# создаем другой список, в который помещаем все элементы списка lst, встречающиеся более одного раза
a = [i for i in lst if lst.count(i) > 1]
# если такие элементы нашлись, возвращаем список a
if len(a) > 0: print a
В данном случае результатом будет:
['a', 1, 2, 3, 5.7, 3, 'a', 2, 1, 5.7, 1, 1]
Пример простой, но для решения задачи, думаю, сгодится. :-); 20 января 2009 г. в 09:18
sash_ko комментирует...: сгодится, только если не будет ограничений по скорости - для каждого элемента список будет обрабатываться заново, это равносильно вложенному циклу:

for item in lst:
count = 0
for sitem in lst:
if sitem==item:
count+=1; 20 января 2009 г. в 22:03
azusdex комментирует...: а если есть огромный массив 1000000 чисел, и нужно найти два первых одинаковых числа, сортировкой пользоватся нельзя, дополнительный массив создать можно, но только размером 5, и так же o(n)?; 19 марта 2012 г. в 14:09
Николай комментирует...: На PHP так пока только придумал:

// Генерируем
$MAX = 1000000;
$arr = []; $count = $MAX;
while( $count -- ) {
$arr [] = rand( 100000, 1500000);
}

// Находим
$tm = microtime( true );
$doubles = []; $temp = [];
foreach( $arr as $val ) {
if( ! isset( $temp [ $val ])) {
$temp [ $val ] = 1;
} elseif( ! isset( $doubles [ $val ])) {
$doubles [ $val ] = 1;
}
}
$doublesCountTime = microtime( true ) - $tm;
$doublesCount = count( $doubles);
$doubles = array_keys( $doubles );

В php isset( $a [$k]) работает быстрее чем in_array( $k, $a)

Ищу что побыстрее ))); 16 ноября 2016 г. в 12:33

Отправить комментарий

sash_ko's blog

воскресенье, 26 октября 2008 г.

Поиск дубликатов в массиве

11 комментариев:

Обо мне

Последние комментарии

Архив блога

Ярлыки

Читаемое мной

sash_ko life

sash_ko's blog

воскресенье, 26 октября 2008 г.

Поиск дубликатов в массиве

11 комментариев:

Обо мне

Последние комментарии

Архив блога

Ярлыки

Читаемое мной

sash_ko life

воскресенье, 26 октября 2008 г.