Подтвердить что ты не робот

Значения амплитуды звука PCM?

Я начинаю записывать аудио с помощью своего Android-смартфона.

Я успешно сохранил записи голоса в файл PCM. Когда я разбираю данные и распечатываю подписанные 16-битные значения, я могу создать график, подобный приведенному ниже. Однако я не понимаю значения амплитуды вдоль оси y.

  • Что именно представляют собой единицы для значений амплитуды? Значения подписаны 16-битными, поэтому они должны варьироваться от -32K до + 32K. Но что представляют собой эти значения? Децибел?

  • Если я использую 8-битные значения, значения должны находиться в диапазоне от -128 до +128. Как это будет отображаться на громкость/ "громкость" 16-битных значений? Вы использовали бы только квантование квантования 16 к 1?

  • Почему существуют отрицательные значения? Я думаю, что полное молчание приведет к значениям 0.

Если кто-то может указать мне на сайт с информацией о том, что записывается, я был бы признателен. Я нашел веб-страницы в формате файла PCM, но не те значения данных.

enter image description here

4b9b3361

Ответ 1

Подумайте о поверхности микрофона. Когда он молчит, поверхность остается неподвижной в нулевом положении. Когда вы говорите, это заставляет воздух вокруг вашего рта вибрировать. Вибрации spring похожи и имеют движение в обоих направлениях, как взад и вперед, так и вверх и вниз, или в и из. Вибрации в воздухе заставляют поверхность микрофона также вибрировать, как при движении вверх и вниз. Когда он перемещается вниз, это может быть измерено или выбрано положительное значение. Когда он перемещается вверх, который может быть отображен как отрицательное значение. (Или это может быть наоборот). Когда вы перестаете говорить, поверхность возвращается обратно в нулевое положение.

Какие цифры, которые вы получаете от ваших данных записи PCM, зависят от коэффициента усиления системы. С обычными 16-разрядными образцами диапазон составляет от -32768 до 32767 для максимально возможного отклонения вибрации, которая может быть записана без искажений, отсечения или переполнения. Обычно усиление устанавливается немного ниже, так что максимальные значения не соответствуют границе искажения.

ДОБАВЛЕНО:

8-битный звук PCM часто является неподписанным типом данных с диапазоном от 0..255, со значением 128, указывающим "тишина". Таким образом, вы должны добавить/вычесть это смещение, а также масштабировать примерно на 256 для преобразования между 8-битными и 16-битными звуковыми формами PCM.

Ответ 2

Необработанные числа являются артефактом процесса квантования, используемого для преобразования аналогового аудиосигнала в цифровой. Имеет смысл думать о звуковом сигнале как о вибрации вокруг 0, вплоть до +1 и -1 для максимального отклонения сигнала. Снаружи, вы получаете отсечение, которое искажает гармоники и звучит ужасно.

Однако компьютеры не работают так хорошо, как фракции, поэтому для отображения этого диапазона используются дискретные целые числа от 0 до 65536. В большинстве приложений, подобных этому, +32767 считается максимальным положительным удалением микрофона или диафрагмы динамика. Нет никакой корреляции между точкой отсчета и уровнем звукового давления, если вы не начнете факторировать характеристики схем записи (или воспроизведения).

(BTW, 16-битный звук является очень стандартным и широко используется. Это хороший баланс отношения сигнал-шум и динамический диапазон. 8-бит является шумным, если вы не делаете какое-то фанковое нестандартное масштабирование.)

Ответ 3

Why are there negative values? I would think that complete silence

приведет к значениям 0

Диафрагма на микрофоне вибрирует в обоих направлениях и как результат создает положительное и отрицательное напряжения. Значение 0 - тишина поскольку это указывает на то, что диафрагма не движется. Посмотрите, как микрофоны работа

Небольшое пояснение: записывается положение диафрагмы. Тишина возникает, когда нет вибрации, когда нет изменения в позиции. Таким образом, вибрация, которую вы видите, это то, что подталкивает воздух и создает изменения давления воздуха с течением времени. Воздух больше не толкает верхние и нижние пики любой вибрации, поэтому пики возникают, когда происходит тишина. Самая громкая часть сигнала - это когда положение меняет самый быстрый, который находится где-то посередине пиков. Скорость, с которой диафрагма перемещается от одного пика к другому, определяет величину давления, создаваемого диафрагмой. Когда верхний и нижний пики сводятся к нулю (или какой-то другой номер, который они разделяют), тогда нет никакой вибрации и никакого звука вообще. Также, когда диафрагма замедляется так, что между пиками будет больше свободного времени, создается или записывается меньшее звуковое давление.

Я рекомендую Руководство по усилению звука Yamaha для более глубокого чтения. Понимание идеи исчисления также поможет понять звук и вибрацию.

Ответ 4

Здесь есть много хороших ответов, но они не позволяют прямо решать ваши вопросы простым способом.

Что такое единицы измерения амплитуд? Значения 16-бит, поэтому они должны варьироваться от От -32 до + 32К. Но что представляют собой эти значения? Децибел?

Значения не имеют единицы. Они просто представляют собой номер, который вышел из аналого-цифрового преобразователя. Цифры от аналого-цифрового преобразователя зависят от характеристик микрофона и предусилителя.

Если я использую 8-битные значения, то значения должен варьироваться от -128 до +128. Как будет отображаться на громкость/ "громкость" 16-битного значения? Вы бы использовали 16-в-1 отображение квантования?

Я не понимаю этот вопрос. Если вы записываете 8-битный звук, ваши значения будут 8 бит. Вы конвертируете 8-битный звук в 16-разрядный?

Почему существуют отрицательные значения? я бы думаю, что полная тишина приводят к значениям 0

Диафрагма на микрофоне вибрирует в обоих направлениях и в результате создает положительное и отрицательное напряжения. Значение 0 является тишиной, так как указывает на то, что диафрагма не движется. См. как работают микрофоны

Подробнее о том, как звук представлен в цифровом виде, см. здесь.

Ответ 5

16-битные номера - это значения конвертера A/D от вашего микрофона (вы знали это). Знайте также, что усилитель между вашим микрофоном и аналого-цифровым преобразователем имеет автоматическое регулирование усиления (AGC). AGC будет активно изменять усиление сигнала микрофона, чтобы предотвратить чрезмерное напряжение от аналого-цифрового преобразователя (обычно < 2Volts dc). Кроме того, существует декомпозиция напряжения постоянного тока, которая устанавливает входной сигнал в середине диапазона преобразователей A/D (скажем, 1Volt dc).

Итак, когда звук микрофона не звучит, усилитель АРУ посылает сигнал постоянного тока с напряжением 1,0 В постоянного тока в АЦП. Когда звуковые волны попадают в микрофон, он создает соответствующую волну переменного напряжения. Усилитель AGC принимает волну переменного напряжения, центрирует его на 1,0 В постоянного тока и отправляет его в АЦП. Образцы A/D (измеряет напряжение постоянного тока со скоростью 44 000 в секунду) и выплющают значения напряжения +/- 16 бит. Таким образом -65536 = 0,0 В пост. Тока и +65536 = 2,0 В пост. Значение +100 = 1.00001529 В пост. Тока и -100 = 0.99998474 Vdc, попадающее в аналого-цифровой преобразователь.

+ Значения выше 1.0 Vdc, -Values ​​ниже 1.0 Vdc.

Примечание. Большинство аудиосистем используют формулу журнала, чтобы кривая звуковой волны логарифмически, поэтому человеческое ухо может лучше ее слышать. В цифровых аудиосистемах (с АЦП) цифровая обработка сигналов помещает эту кривую в сигнал. Чипы DSP являются крупным бизнесом, TI добился успеха, используя их для всех видов приложений, а не только для обработки звука. DSP могут работать с очень сложной математикой в ​​потоке данных в реальном времени, которые задушили бы процессор iPhone ARM7. Скажем, вы отправляете 2 МГц импульсы в массив из 256 ультразвуковых датчиков/приемников - вы получаете идею.