Speex: Ein kostenloser Codec für freie Meinungsäußerung

November 17 , 2021

Überblick


Speex ist ein patentfreies Open-Source-/Free-Software-Audiokompressionsformat, das für Sprache entwickelt wurde. Das Speex-Projekt zielt darauf ab, die Eintrittsbarriere für Sprachanwendungen zu senken, indem es eine kostenlose Alternative zu teuren proprietären Sprachcodecs bietet. Darüber hinaus ist Speex gut an Internetanwendungen angepasst und bietet nützliche Funktionen, die in den meisten anderen Codecs nicht vorhanden sind. Schließlich ist Speex Teil des GNU-Projekts und steht unter der überarbeiteten BSD-Lizenz.


Speex ist auf Voice over IP (VoIP) und dateibasierte Komprimierung ausgerichtet. Die Entwurfsziele bestanden darin, einen Codec zu entwickeln, der für hohe Sprachqualität und niedrige Bitrate optimiert ist. Um dies zu erreichen, verwendet der Codec mehrere Bitraten und unterstützt Ultrabreitband, Breitband und Schmalband. Der Codec ist robust gegenüber verlorenen Paketen, aber schwach gegenüber beschädigten Paketen. All dies führte zur Wahl der Code-angeregten linearen Prädiktion (CELP) als Kodiertechnik für Speex.

Merkmale


Abtastrate
Speex ist hauptsächlich für drei verschiedene Abtastraten ausgelegt: 8 kHz (die gleiche Abtastrate für die Übertragung von Telefongesprächen), 16 kHz und 32 kHz. Diese werden jeweils als Schmalband, Breitband und Ultrabreitband bezeichnet.


Qualität
Die Speex-Codierung wird die meiste Zeit durch einen Qualitätsparameter im Bereich von 0 bis 10 gesteuert. Beim Betrieb mit konstanter Bitrate (CBR) ist der Qualitätsparameter eine ganze Zahl, während bei variabler Bitrate (VBR) der Parameter a . ist reelle (Gleitkomma-) Zahl.


Komplexität (variabel)
Mit Speex ist es möglich, die für den Encoder zulässige Komplexität zu variieren. Dies geschieht, indem gesteuert wird, wie die Suche mit einer Ganzzahl im Bereich von 1 bis 10 durchgeführt wird, ähnlich wie bei den Optionen -1 bis -9 bei gzip-Komprimierungsdienstprogrammen. Bei normaler Verwendung ist der Rauschpegel bei Komplexität 1 zwischen 1 und 2 dB höher als bei Komplexität 10, aber die CPU-Anforderungen für Komplexität 10 sind etwa fünfmal höher als für Komplexität 1. In der Praxis besteht der beste Kompromiss zwischen Komplexität 2 und 4,[13] obwohl höhere Einstellungen oft nützlich sind, wenn Nicht-Sprache-Sounds wie DTMF-Töne kodiert werden oder wenn die Kodierung nicht in Echtzeit erfolgt.


Variable Bitrate (VBR)
Variable Bitrate (VBR) ermöglicht einem Codec, seine Bitrate dynamisch zu ändern, um sich an die "Schwierigkeit" des zu kodierenden Audios anzupassen. Im Beispiel von Speex erfordern Klänge wie Vokale und energiereiche Transienten eine höhere Bitrate, um eine gute Qualität zu erreichen, während Frikative (z. B. s- und f-Laute) mit weniger Bits adäquat codiert werden können. Aus diesem Grund kann VBR bei gleicher Qualität eine niedrigere Bitrate oder bei einer bestimmten Bitrate eine bessere Qualität erreichen. Trotz seiner Vorteile hat VBR drei Hauptnachteile: Erstens gibt es keine Garantie für die endgültige durchschnittliche Bitrate, indem nur die Qualität angegeben wird. Zweitens zählt für einige Echtzeitanwendungen wie Voice over IP (VoIP) die maximale Bitrate, die für den Kommunikationskanal niedrig genug sein muss. Drittens kann die Verschlüsselung von VBR-codierter Sprache möglicherweise keine vollständige Vertraulichkeit gewährleisten, da Phrasen immer noch identifiziert werden können, zumindest in einer kontrollierten Umgebung mit einem kleinen Wörterbuch von Phrasen[14], indem das Variationsmuster der Bitrate analysiert wird.


Durchschnittliche Bitrate (ABR)
Die durchschnittliche Bitrate löst eines der Probleme von VBR, da sie die VBR-Qualität dynamisch anpasst, um eine bestimmte Zielbitrate zu erreichen. Da die Qualität/Bitrate in Echtzeit (Open-Loop) angepasst wird, ist die globale Qualität etwas niedriger als bei der Codierung in VBR mit genau der richtigen Qualitätseinstellung, um die durchschnittliche Zielbitrate zu erreichen.


Sprachaktivitätserkennung (VAD)
Wenn aktiviert, erkennt die Sprachaktivitätserkennung, ob es sich bei dem codierten Audio um Sprache oder Stille/Hintergrundgeräusche handelt. VAD ist bei der Codierung in VBR immer implizit aktiviert, daher ist die Option nur im Nicht-VBR-Betrieb sinnvoll. In diesem Fall erkennt Speex Nicht-Sprachperioden und codiert sie mit gerade genug Bits, um das Hintergrundrauschen zu reproduzieren. Dies wird als "Komfortgeräuscherzeugung" (CNG) bezeichnet. Die letzte Version von VAD funktionierte einwandfrei ist 1.1.12, seit v 1.2 wurde sie durch einfache Any Activity Detection ersetzt.


Diskontinuierliche Übertragung (DTX)
Die diskontinuierliche Übertragung ist eine Ergänzung zum VAD/VBR-Betrieb, die es ermöglicht, die Übertragung vollständig einzustellen, wenn das Hintergrundgeräusch stillsteht. In einer Datei werden für jeden fehlenden Frame 5 Bit verwendet (entsprechend 250 Bit/s).


Wahrnehmungsverbesserung
Die Wahrnehmungsverbesserung ist ein Teil des Decoders, der, wenn er eingeschaltet ist, versucht, das durch den Codierungs-/Decodierungsprozess erzeugte Rauschen (die Wahrnehmung davon) zu reduzieren. In den meisten Fällen entfernt die Wahrnehmungsverbesserung den Klang objektiv weiter vom Original (Signal-Rausch-Verhältnis), aber am Ende klingt er immer noch besser (subjektive Verbesserung).


Algorithmische Verzögerung
Jeder Codec führt zu einer Verzögerung bei der Übertragung. Für Speex ist diese Verzögerung gleich der Rahmengröße zuzüglich einer gewissen "Vorausschau", die erforderlich ist, um jeden Rahmen zu verarbeiten. Im Schmalbandbetrieb (8 kHz) beträgt die Verzögerung 30 ms, bei Breitband (16 kHz) beträgt die Verzögerung 34 ms. Diese Werte berücksichtigen nicht die CPU-Zeit, die zum Kodieren oder Dekodieren der Frames benötigt wird.


TONMIND, Designer und Hersteller vonIPS Spitzenreiter seit 2014. Die SIP Speaker haben Speex-Audioverarbeitung angewendet, um die Klangqualität zu verbessern.


Unsere IP-Paging-Lautsprecher Codec enthält OPUS, G711U, G711A, G722, GSM, MP1, MP2, MP3, WAV, LPCM s16le. Die verschiedenen Codecs sorgen zudem für eine hervorragende Klangqualität.


Etwas ausmachen SIP-Lautsprecher kann auf verschiedene Anwendungsfälle angewendet werden, z. B. Schule, Geschäftsgalopp, Kundendienstzentrum, Hotel, Krankenhaus, große Veranstaltungsorte usw. Benutzer können die SIP-Lautsprecher mit IPPBX oder der von unserem R&D-Team entwickelten PA-Systemsoftware verbinden . Es kann auch mit der Axis-Software über RTP-Multicasting arbeiten.


Die Kernstärke von Tonmind umfasst:

• Über 10 Jahre VoIP-Audio- und Video-Erfahrung

Exklusiver technischer Support.
Gut geschultes Kundenteam.
Kundenorientiert.
Schnelle Marktreaktion.


hinterlass eine Nachricht
hinterlass eine Nachricht
WENN Sie sind an unseren Produkten interessiert und möchten mehr Details erfahren, bitte hinterlassen Sie hier eine Nachricht, wir antworten Ihnen so schnell wie wir.

Heim

Produkte

skype

whatsapp