Как известно для записи видео, поступающего с камер наблюдения, используются различные видео кодеки. Самые современные и наиболее продуктивные из них H.264, H.265 и H.265+.

Однако сегодня вместе с видео камеры видеонаблюдения в большинстве своем пишут и звук, который также требуется сжимать, для уменьшения размера файла и экономии места на жестком диске видеорегистратора или компьютера.

К тому же с развитием современных каналов связи и ip-видеонаблюдения задача передачи аудио-сигнала в цифровом виде весьма актуальна. Если прежде в обычных аналоговых видеокамерах звук передавался как аналоговый сигнал, то в современных цифровых видеокамерах требуется сжатие и передача звука через интернет-канал в виде кода. Для этой задачи используются различные форматы аудио-сжатия.

Запись звука в видеонаблюдении сегодня используется для разных нужд. Чаше всего он необходим для видеоаналитики бизнес-процессов, позволяя, например, выяснить как сотрудники предлагают товары по акции или как соблюдают корпоративные стандарты.

Впрочем сегодня звук в видеонаблюдении применяется повсеместно. Используют его для контроля дорожного движения, на охраняемых предприятиях, в офисах, даже для охраны жилья. Легче перечислить где звук и видеозаписи не нужен. Поэтому сжатие аудиоданных имеет столь важное значение.

Нужно отметить, что сжатие звука представляет собой процесс уменьшения скорости цифрового потока за счет сокращения статистической и психоакустической избыточности цифрового звукового сигнала.

Методы сокращения статистической избыточности аудиоданных также называют сжатием без потерь, а,  методы сокращения психоакустической избыточности — сжатием с потерями.

Сегодня для сжатия звука в основном исполузуется два кодека:

 

  • G.726, который использует передачу аудио с адаптивной импульсно-кодовой модуляцией (ADPCM) и в основном применяется для международных звонков и в IP-видеонаблюдении с передачей сигнала на скоростях 16, 24, 32 и 40 кбит/с.
  • G.729 – это узкополосный стандарт для голосовой передачи кодирования с диапазоном от 300 до 3400 Гц, скоростью данных 8 кбит/с. Используется для телефонных разговоров с большим объемом данных, передается по Интернет сетям (Voice over Internet Protocol), при ограниченной полосе пропускания.

Обобщенная структура кодера звукового сигнала с компрессией цифровых аудиоданных выглядит следующим образом:

Исходный цифровой звуковой сигнал разделяется на частотные поддиапазоны и сегментируется по времени в блоке временной и частотной сегментации. Длина кодируемой выборки зависит от формы временной функции звукового сигнала.

При отсутствии резких выбросов по амплитуде используется так называемая длинная выборка, обеспечивающая высокое разрешение по частоте. В случае же резких изменений амплитуды сигнала длина кодируемой выборки резко уменьшается, что дает более высокое разрешение по времени.

Решение об изменении длины кодируемой выборки принимает блок психоакустического анализа, вычисляя значение психоакустической энтропии сигнала.

После сегментации сигналы частотных поддиапазонов нормируются, квантуются и кодируются. В наиболее эффективных алгоритмах компрессии кодированию подвергаются не сами отсчеты выборки звукового сигнала, а соответствующие им коэффициенты МДКП.

Учет закономерностей слухового восприятия звукового сигнала выполняется в блоке психоакустического анализа. Здесь по специальной процедуре для каждого частотного поддиапазона рассчитывается максимально допустимый уровень искажений (шумов) квантования, при котором они еще маскируются полезным сигналом данного поддиапазона.

Блок динамического распределения бит в соответствии с требованиями психоакустической модели для каждого поддиапазона кодирования выделяет такое минимально возможное их количество, при котором уровень искажений, вызванных квантованием, не превышал порога их слышимости, рассчитанного психоакустической моделью.

Также могут использоваться:

  • матрицирование стерео — сложение и вычитание левого и правого канала для устранения повторяющейся информации
  • специальные процедуры итерационных циклов, позволяющие управлять величиной энергии искажений квантования в поддиапазонах при недостаточном числе доступных для кодирования бит
    процедуры линейного и обратного адаптивного предсказаний
  • техника сглаживания переходных шумов во временной области (Temporal Noise Shaping — TNS), позволяющая управлять микроструктурой искажений квантования внутри каждого поддиапазона кодирования

Многие другие приёмы могут послужить способом сократить объём данных звуковой информации. Даже простое сужение полосы частот сигнала вместе с уменьшением динамического диапазона может уже называться сжатием аудиоданных. Например, в стандарте сжатия звука в сотовой связи используется и то и другое.

Таким образом, приобретая оборудование для видеонаблюдения вы еще получаете возможность аудио прослушивания территории, где расположена видеокамера. Это позволяет более полно контролировать обстановку на охраняемом объекте, а значит более тщательно следить за ситуацией на нем.

Кстати, приобрести видеокамеры с возможностью записи звука Вы можете прямо на этом сайте, перейдя в наш интернет-магазин.