- У меня есть матрица numpy с формой (4601, 58).
- Я хочу разбить матрицу случайным образом на 60%, 20%, 20% на основе количества строк
- Это для задачи машинного обучения, в которой я нуждаюсь.
- Есть ли функция numpy, которая произвольно выбирает строки?
Numpy: Как случайное разбиение/выбор матрицы на n-различные матрицы
Ответ 1
вы можете использовать numpy.random.shuffle
import numpy as np
N = 4601
data = np.arange(N*58).reshape(-1, 58)
np.random.shuffle(data)
a = data[:int(N*0.6)]
b = data[int(N*0.6):int(N*0.8)]
c = data[int(N*0.8):]
Ответ 2
Дополнение к ответу HYRY, если вы хотите последовательно перетасовать несколько массивов x, y, z с таким же первым измерением: x.shape[0] == y.shape[0] == z.shape[0] == n_samples
.
Вы можете сделать:
rng = np.random.RandomState(42) # reproducible results with a fixed seed
indices = np.arange(n_samples)
rng.shuffle(indices)
x_shuffled = x[indices]
y_shuffled = y[indices]
z_shuffled = z[indices]
И затем продолжайте разделение каждого перетасованного массива, как в ответе HYRY.
Ответ 3
Если вы хотите случайным образом выбирать строки, вы можете просто использовать random.sample
из стандартной библиотеки Python:
import random
population = range(4601) # Your number of rows
choice = random.sample(population, k) # k being the number of samples you require
random.sample
образцы без замены, поэтому вам не нужно беспокоиться о повторных рядах, заканчивающихся в choice
. Учитывая массив numpy с именем matrix
, вы можете выбирать строки путем нарезки, например: matrix[choice]
.
Of, course, k
может быть равно числу полных элементов в совокупности, а затем choice
будет содержать случайное упорядочение индексов для ваших строк. Затем вы можете разделить choice
, как вам угодно, если это все, что вам нужно.
Ответ 4
Так как вам это нужно для машинного обучения, вот метод, который я написал:
import numpy as np
def split_random(matrix, percent_train=70, percent_test=15):
"""
Splits matrix data into randomly ordered sets
grouped by provided percentages.
Usage:
rows = 100
columns = 2
matrix = np.random.rand(rows, columns)
training, testing, validation = \
split_random(matrix, percent_train=80, percent_test=10)
percent_validation 10
training (80, 2)
testing (10, 2)
validation (10, 2)
Returns:
- training_data: percentage_train e.g. 70%
- testing_data: percent_test e.g. 15%
- validation_data: reminder from 100% e.g. 15%
Created by Uki D. Lucas on Feb. 4, 2017
"""
percent_validation = 100 - percent_train - percent_test
if percent_validation < 0:
print("Make sure that the provided sum of " + \
"training and testing percentages is equal, " + \
"or less than 100%.")
percent_validation = 0
else:
print("percent_validation", percent_validation)
#print(matrix)
rows = matrix.shape[0]
np.random.shuffle(matrix)
end_training = int(rows*percent_train/100)
end_testing = end_training + int((rows * percent_test/100))
training = matrix[:end_training]
testing = matrix[end_training:end_testing]
validation = matrix[end_testing:]
return training, testing, validation
# TEST:
rows = 100
columns = 2
matrix = np.random.rand(rows, columns)
training, testing, validation = split_random(matrix, percent_train=80, percent_test=10)
print("training",training.shape)
print("testing",testing.shape)
print("validation",validation.shape)
print(split_random.__doc__)
- обучение (80, 2)
- тестирование (10, 2)
- валидация (10, 2)