Я пытаюсь реализовать большое количество матрично-матричных умножений в Python. Первоначально я предполагал, что NumPy будет автоматически использовать мои потоковые библиотеки BLAS, поскольку я построил их для этих библиотек. Однако, когда я смотрю top или что-то еще, похоже, что код не использует потоковую передачу вообще.
Любые идеи, что не так, или что я могу сделать, чтобы легко использовать производительность BLAS?