Найти длину последовательностей одинаковых значений в массиве numpy (кодирование длины прогона)

В программе pylab (которая, возможно, также была бы также программой Matlab), у меня есть числовой массив чисел, представляющих расстояния: d[t] - это расстояние в момент времени t (а период времени моих данных - len(d) временные единицы).

События, которые меня интересуют, - это расстояние ниже определенного порога, и я хочу рассчитать продолжительность этих событий. Легко получить массив логических значений с помощью b = d<threshold, и проблема сводится к вычислению последовательности длин слов True только в b. Но я не знаю, как это сделать эффективно (т.е. Используя numpy-примитивы), и я прибег к работе с массивом и для ручного обнаружения изменений (т.е. инициализирует счетчик, когда значение переходит от False к True, увеличивает счетчик, пока значение равно True, и выведите счетчик в последовательность, когда значение вернется к False). Но это очень медленно.

Как эффективно обнаруживать такие последовательности в массивах numpy?

Ниже приведен код python, который иллюстрирует мою проблему: четвертая точка занимает очень много времени (если нет, увеличивайте размер массива)

from pylab import *

threshold = 7

print '.'
d = 10*rand(10000000)

print '.'

b = d<threshold

print '.'

durations=[]
for i in xrange(len(b)):
    if b[i] and (i==0 or not b[i-1]):
        counter=1
    if  i>0 and b[i-1] and b[i]:
        counter+=1
    if (b[i-1] and not b[i]) or i==len(b)-1:
        durations.append(counter)

print '.'

Ответ 1

В то время как не numpy примитивы, функции itertools часто бывают очень быстрыми, так что дайте это попробовать (и измерьте время для различных решений, включая этот, конечно):

def runs_of_ones(bits):
  for bit, group in itertools.groupby(bits):
    if bit: yield sum(group)

Если вам нужны значения в списке, просто можете использовать список (run_of_ones (bits)), конечно; но, возможно, понимание списка может быть немного быстрее:

def runs_of_ones_list(bits):
  return [sum(g) for b, g in itertools.groupby(bits) if b]

Переходим к возможностям "numpy-native", а что:

def runs_of_ones_array(bits):
  # make sure all runs of ones are well-bounded
  bounded = numpy.hstack(([0], bits, [0]))
  # get 1 at run starts and -1 at run ends
  difs = numpy.diff(bounded)
  run_starts, = numpy.where(difs > 0)
  run_ends, = numpy.where(difs < 0)
  return run_ends - run_starts

Опять же: обязательно сравните решения друг с другом в примерах реалистичного для вас!

Ответ 2

Полностью numpy-векторный и общий RLE для любого массива (также работает со строками, булевыми и т.д.).

Выводит кортеж длины выполнения, начальных позиций и значений.

import numpy as np

def rle(inarray):
        """ run length encoding. Partial credit to R rle function. 
            Multi datatype arrays catered for including non Numpy
            returns: tuple (runlengths, startpositions, values) """
        ia = np.array(inarray)                  # force numpy
        n = len(ia)
        if n == 0: 
            return (None, None, None)
        else:
            y = np.array(ia[1:] != ia[:-1])     # pairwise unequal (string safe)
            i = np.append(np.where(y), n - 1)   # must include last element posi
            z = np.diff(np.append(-1, i))       # run lengths
            p = np.cumsum(np.append(0, z))[:-1] # positions
            return(z, p, ia[i])

Довольно быстрый (i7):

xx = np.random.randint(0, 5, 1000000)
%timeit yy = rle(xx)
100 loops, best of 3: 18.6 ms per loop

Несколько типов данных:

rle([True, True, True, False, True, False, False])
Out[8]: 
(array([3, 1, 1, 2]),
 array([0, 3, 4, 5]),
 array([ True, False,  True, False], dtype=bool))

rle(np.array([5, 4, 4, 4, 4, 0, 0]))
Out[9]: (array([1, 4, 2]), array([0, 1, 5]), array([5, 4, 0]))

rle(["hello", "hello", "my", "friend", "okay", "okay", "bye"])
Out[10]: 
(array([2, 1, 1, 2, 1]),
 array([0, 2, 3, 4, 6]),
 array(['hello', 'my', 'friend', 'okay', 'bye'], 
       dtype='|S6'))

Те же результаты, что и Алекс Мартелли выше:

xx = np.random.randint(0, 2, 20)

xx
Out[60]: array([1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1])

am = runs_of_ones_array(xx)

tb = rle(xx)

am
Out[63]: array([4, 5, 2, 5])

tb[0][tb[2] == 1]
Out[64]: array([4, 5, 2, 5])

%timeit runs_of_ones_array(xx)
10000 loops, best of 3: 28.5 µs per loop

%timeit rle(xx)
10000 loops, best of 3: 38.2 µs per loop

Чуть медленнее, чем Алекс (но все еще очень быстро) и гораздо более гибкий.

Ответ 3

На всякий случай кому-то интересно (и с тех пор, как вы упомянули MATLAB), здесь один из способов решить эту проблему в MATLAB:

threshold = 7;
d = 10*rand(1,100000);  % Sample data
b = diff([false (d < threshold) false]);
durations = find(b == -1)-find(b == 1);

Я не слишком хорошо знаком с Python, но, возможно, это может помочь вам дать некоторые идеи. =)

Ответ 4

Вот решение, использующее только массивы: он принимает массив, содержащий последовательность bools и рассчитывает длину переходов.

>>> from numpy import array, arange
>>> b = array([0,0,0,1,1,1,0,0,0,1,1,1,1,0,0], dtype=bool)
>>> sw = (b[:-1] ^ b[1:]); print sw
[False False  True False False  True False False  True False False False
  True False]
>>> isw = arange(len(sw))[sw]; print isw
[ 2  5  8 12]
>>> lens = isw[1::2] - isw[::2]; print lens
[3 4]

sw содержит значение true, где есть переключатель, isw преобразует их в индексы. Элементы isw затем вычитаются попарно в lens.

Обратите внимание, что если последовательность начинается с 1, она будет подсчитывать длину последовательностей 0s: это может быть исправлено при индексировании для вычисления объектива. Кроме того, я не тестировал угловые случаи таких последовательностей длины 1.

Полная функция, которая возвращает начальные позиции и длины всех True -subarrays.

import numpy as np

def count_adjacent_true(arr):
    assert len(arr.shape) == 1
    assert arr.dtype == np.bool
    if arr.size == 0:
        return np.empty(0, dtype=int), np.empty(0, dtype=int)
    sw = np.insert(arr[1:] ^ arr[:-1], [0, arr.shape[0]-1], values=True)
    swi = np.arange(sw.shape[0])[sw]
    offset = 0 if arr[0] else 1
    lengths = swi[offset+1::2] - swi[offset:-1:2]
    return swi[offset:-1:2], lengths

Протестировано для разных массивов bool 1D (пустые массивы: одиночные/множественные элементы, четные/нечетные длины, начинаются с True/False, только с элементами True/False).

Ответ 5

durations = []
counter   = 0

for bool in b:
    if bool:
        counter += 1
    elif counter > 0:
        durations.append(counter)
        counter = 0

if counter > 0:
    durations.append(counter)