Что вы понимаете под низким временем доступа к данным?
Я действительно запутался в определении термина "LATENCY".
Кто-нибудь может уточнить термин "Задержка".
Что вы понимаете под низким временем доступа к данным?
Я действительно запутался в определении термина "LATENCY".
Кто-нибудь может уточнить термин "Задержка".
Классический пример:
Вагон, полный резервных лент, имеет высокую задержку и высокую пропускную способность. Там много информации в этих резервных лентах, но для получения универсала требуется много времени.
Сети с малой задержкой важны для потоковых служб. Для потоковой передачи голоса требуется очень низкая пропускная способность (4 кбит/с для качества AFAIR для телефона), но для быстрого получения пакетов требуется быстрый доступ. Голосовой вызов в сети с высокой задержкой приводит к задержке времени между динамиками, даже если имеется достаточная пропускная способность.
Другие приложения, в которых важна латентность:
LATENCY -
количество время, чтобы получить ответ [us]
BANDWIDTH -
объем потока данных за единицу времени [GB
/s
] `LATENCY
Задержка времени может быть запутана, если не принимать во внимание этот весь жизненный цикл транзакции: участвующие линейные сегменты {усиление | ремитирование | переключение | MUX/MAP-ing | маршрутизация | EnDec-обработка (не говоря о криптографии) | статистическое (де) сжатие}, длительность потока данных и обрамление/защитные надстройки с линейным кодом /(opt. procotol, если есть, инкапсуляция и повторная кадрирование) дополнительные избыточные накладные расходы, , которые постоянно увеличиваются latency, но также увеличивайте данные <<26 > .
Как пример, возьмите любой маркетинг с графическим процессором. Огромные числа, которые представлены в разделе GigaBytes DDR5
и GHz
. его молчаливо передаются жирным шрифтом, о чем они не говорят, что, несмотря на все эти дваллионы вещей, каждый из ваших SIMT
многожильных, да, всех ядер, должен заплатить жестокий latency - > +400-800
[GPU-clk]
просто для получения первого байта с GPU-over-hyped-GigaHertz-Fast-DDRx- ECC-защищенный банк памяти.
Да, ваш Super-Engine GFLOPs/TFLOPs
должен ждать!... из-за (скрытого) LATENCY
И вы ждете со всем полным параллельным цирком... из-за LATENCY
(... и любой маркетинговый звонок или свисток не могут помочь, поверьте или нет (забудьте о кеше promises тоже, они не знают, какого черта там будет в далекой/поздней/отдаленной ячейке памяти, так что не может дать вам одну битовую копию такой латентности - "далекую" загадку из их мелких локальных карманов))
LATENCY
(и налоги) нельзя избежатьВысокопрофессиональный HPC
-designs только помогает платить меньше, а все еще не может избежать LATENCY
(как налоги) штраф за рамки некоторых принципов разумного переустройства.
CUDA Device:0_ has <_compute capability_> == 2.0.
CUDA Device:0_ has [ Tesla M2050] .name
CUDA Device:0_ has [ 14] .multiProcessorCount [ Number of multiprocessors on device ]
CUDA Device:0_ has [ 2817982464] .totalGlobalMem [ __global__ memory available on device in Bytes [B] ]
CUDA Device:0_ has [ 65536] .totalConstMem [ __constant__ memory available on device in Bytes [B] ]
CUDA Device:0_ has [ 1147000] .clockRate [ GPU_CLK frequency in kilohertz [kHz] ]
CUDA Device:0_ has [ 32] .warpSize [ GPU WARP size in threads ]
CUDA Device:0_ has [ 1546000] .memoryClockRate [ GPU_DDR Peak memory clock frequency in kilohertz [kHz] ]
CUDA Device:0_ has [ 384] .memoryBusWidth [ GPU_DDR Global memory bus width in bits [b] ]
CUDA Device:0_ has [ 1024] .maxThreadsPerBlock [ MAX Threads per Block ]
CUDA Device:0_ has [ 32768] .regsPerBlock [ MAX number of 32-bit Registers available per Block ]
CUDA Device:0_ has [ 1536] .maxThreadsPerMultiProcessor [ MAX resident Threads per multiprocessor ]
CUDA Device:0_ has [ 786432] .l2CacheSize
CUDA Device:0_ has [ 49152] .sharedMemPerBlock [ __shared__ memory available per Block in Bytes [B] ]
CUDA Device:0_ has [ 2] .asyncEngineCount [ a number of asynchronous engines ]
A POTS
телефонная служба была основана на синхронном синхронном исправлении LATENCY
(конец 70-х годов слилось глобальные, в противном случае синхронизируемые сети Plesiochronous Digital Hierarchy между японскими стандартами -стандарт, Continental- PDH
- E3
, а US- PDH
- T3
, которые, в конечном счете, избегали многих головных болей с помощью джиттера/проскальзывания/перехвата услуг международной несущей/синхронной синхронизации и выбывания)
SDH
/SONET-STM1 / 4 / 16
, перенесены на схемы SyncMUX 155/622/2488 [Mb/s]
BANDWIDTH
.
Прохладной идеей на SDH
была глобально закрепленная структура исправления выстроенного по времени кадрирования, которая была как детерминированной, так и стабильной.
Это позволило просто скопировать карту памяти (кросс-коммутирующий коммутатор) компоненты-контейнеры-контейнеры нижнего порядка из входящих STMx на исходящие служебные данные STMx/PDHy на перекрестных соединениях SDH (помните, что это было так глубоко, как в конце 70-х годов, так что производительность процессора и DRAM были за десятилетия до обработки GHz
и подошвы ns
). Такое отображение полезной нагрузки в коробке внутри коробки и внутри коробки обеспечивало как низкоуровневые накладные расходы на аппаратном обеспечении, так и предоставляло также некоторые средства для повторного выравнивания во временной области (были некоторые бит-промежутки между полем, в-коробках, чтобы обеспечить некоторую эластичность, хорошо под стандартным заданным максимальным перекосом во времени)
Хотя может быть трудно объяснить красоту этой концепции в нескольких словах, AT & T и другие крупные глобальные операторы пользовались большой синхронизацией SDH и красотой глобальной синхронной сети SDH и локальной стороны Add- Отображения Drop-MUX.
Сказав это,
дизайн с задержкой
заботится:
- ACCESS-LATENCY :
, сколько времени занимает прибыть для первого бита : [s]
- TRANSPORT-BANDWIDTH :
сколько бит может передать / доставитькаждый следующий отрезок времени : [b/s]
- VOLUME OF DATA :
, сколько битов данных имеется в общей сложности для транспорта : [b]
- TRANSPORT DURATION :
сколько единиц времени требуется
- ___________________ :
для перемещения / доставить весь VOLUME OF DATA
тому, кто спросил : [s]
Очень приятная иллюстрация основной независимости THROUGHPUT (BANDWIDTH
[GB/s]
) на LATENCY[ns]
находится в Рис .4 в прекрасном документе ArXiv на Улучшении задержки от Ericsson, тестировании того, как много RISC -процессорная архитектура Epiphany-64 от Adapteva может помочь в управлении LATENCY при обработке сигналов.
Понимание Рис .4, расширенное по размеру ядра, может также показать возможные сценарии
- как увеличить BANDWIDTH[GB/s]
, используя более-ядерные ядра, задействованные в ускоренной /TDMux -ed[Stage-C]
-переработке (чередующиеся во времени), а также
- что LATENCY[ns]
не может быть короче суммы основныхSEQ
-процессов-продолжительности== [Stage-A]
+[Stage-B]
+[Stage-C]
, независимо от количества доступных (одного/много) -кодов, которые архитектура позволяет использовать.
благодаря Андреасу Олофссону и парням из Эрикссон. ХРАНИТЕ ПРОГУЛКИ, МУЖЧИНЫ МУЖЧИН!