Skip to content

Téléphonie et voix sur IP

I- Introduction :

Historique de la téléphonie :

1854 : Inspiré du système du télégraphe, Charles Bourseul employé de la poste française décrit les principes d'une machine permettant de transmettre de la voix entre plusieurs équipements.

1860 : Philipp Reis, instituteur allemand est le premier à transmettre un son (de la musique) entre deux équipements mais le son est de trop mauvaise qualité pour transmettre de la voix.

1876 : Graham Bell et Elisha Gray inventent le téléphone et réussissent à transmettre une phrase sur leur appareil. Après une bataille juridique, Bell obtiendra d'être le seul détenteur du brevet et le nom d'Elisha Gray sera oublié.

1877 : Premiers centraux téléphoniques, des opératrices « commutent » les téléphones des correspondants manuellement. Les premiers réseaux téléphoniques naissent aux États-Unis, en France puis dans les autres pays d'Europe.

1891 : Premier commutateur mécanique ou central téléphonique automatique inventé par Strowger.

1957 : Les Bell-Labs effectuent les premières démonstrations d'autocommutateur électronique.

Téléphonie « classique » : POTS

POTS signifie en anglais Plain Old Telephone Service que l'on traduit par téléphonie classique. Il s'agit de la technologie historique, et incontournable avant l'avènement d'Internet et de la téléphonie mobile.

La téléphonie classique utilise le réseau téléphonique commuté (RTC). Il permet de faire passer de la voix sur des câbles électriques entre le téléphone de l'abonné et le central téléphonique.

« Convergence » vers le réseau :

Depuis les années 2000, la plupart des entreprises font le choix de la convergence entre trois types de réseaux fonctionnant en parallèle :

  • Le réseau téléphonique (téléphones, conférences, ...)
  • Le réseau vidéo (surveillance, diffusion de vidéos, ...)
  • Le réseau informatique (données)

Le terme de convergence désigne la volonté de faire supporter au réseau informatique les autres types de média. L'avantage est qu'il n'y a plus qu'un réseau à gérer, cela permet de regrouper les activités et les techniciens.

Du coup, ce type de réseau supportant tous les média doit être d'autant plus fiable.

On appelle l'intégration de la téléphonie dans le réseau informatique TOIP (Telephony over IP -- Téléphonie sur IP) ou VOIP (Voice over IP -- Voix sur IP).

On appelle l'intégration de la vidéo dans le réseau informatique Video over IP.

La convergence existe également chez les particuliers dans la mesure où les fournisseurs d'accès à Internet offrent pour la plupart d'entre eux des accès « Triple play » regroupant l'accès à Internet, la téléphonie et la télévision (et video à la demande).

Différence entre Voip et Toip

La voix sur IP concerne la partie du cœur de réseau, c'est à dire tous les équipements d'interconnexion permettant à un poste d'en appeler un autre.

La téléphonie sur IP concerne le poste téléphonique, dans le LAN (voir la liste des terminaux en partie II).

II- Les équipements :

Terminaux :

Les terminaux sont divers et très souvent hétérogènes car les entreprises ne renouvellent pas forcément régulièrement leur parc de téléphones. On peut donc y trouver :

  • des téléphones analogiques
  • des téléphones numériques
  • des téléphones IP
  • des téléphones sans fil DECT
  • des téléphones portables
  • des softphones (logiciels installés sur des ordinateurs).

Interconnexion :

PaBX ou PBX :

Private automatic branch exchange - Autocommutateur téléphonique privé.

Il s'agit de l'équipement historique, toujours présent dans de nombreuses entreprises. C'est un serveur de téléphonie qui permet d'interconnecter tous les téléphones. On peut y appliquer les paramètres concernant toute la téléphonie de l'entreprise.

IPBX :

Le PaBX tend à être remplacé par l'IPBX. La fonction n'a pas changé : On enregistre tous les terminaux téléphoniques et on leur applique des paramètres. La différence est que celui-ci étant sur IP, il est directement intégré au réseau informatique existant.

Il peut être sous la forme d'un logiciel sur un serveur ou intégré dans un équipement matériel.

Passerelle :

La passerelle sert à interconnecter le réseau téléphonique, le réseau IP, le PBX, et la ligne téléphonique de l'opérateur.

Borne DECT :

Le DECT est une norme de téléphonie sans fil pour les particuliers et les entreprises.

Le DECT standard utilise le profile GAP (generic access profile).

On peut également fournir plusieurs bornes pour assurer l'itinérance (handover) avec le profil CAP (cordless access profile).

Enfin, le réseau DECT peut être interconnecté avec les réseaux publics de téléphonie :

  • Profil RAP pour faire une boucle locale
  • Profil IAP pour l'interconnexion avec le réseau RNIS
  • Profil GIP pour l'interconnexion avec le réseau GSM

PoE : Power over Ethernet :

En terme de câblage, les téléphones IP sont connectés au réseau informatique, donc par des câbles Ethernet. Il faut aussi que ces téléphones soient alimentés en électricité. Le Power over Ethernet (courant par l'Ethernet) est la technologie permettant d'alimenter électriquement un terminal (caméra, téléphone, borne WiFi) directement par le câble Ethernet.

III- Lignes téléphoniques :

Le réseau téléphonique commuté (RTC) et l'ADSL

Le RTC est le réseau historique du téléphone. Il permettait de transmettre la voix entre les téléphones des abonnés, relayés par les centraux téléphoniques. La voix n'étant pas compressée par des systèmes informatiques, et la ligne étant réservée uniquement pour la voix, la qualité du signal est très bonne par rapport aux autres systèmes de transmission de la voix.

Le RTC a ensuite été utilisé pour transmettre des données via un modem (au choix, on pouvait utiliser la ligne soit pour téléphoner, soit pour aller sur Internet).

Puis sur la même ligne téléphonique, les fournisseurs d'accès ont pu faire passer des réseaux de données haut débit (ADSL) car le RTC utilise une bande de fréquence située autour de 4 kHz tandis que l'ADSL utilise une bande de fréquence de 20 kHz à 1,1 MHz. On peut donc faire passer de la voix et de la donnée sur la même ligne en même temps.

RNIS BRI et PRI

Le RNIS est le réseau numérique à intégration de services. Sa particularité (surtout avant l'avènement de l'ADSL), était de pouvoir faire passer sur une même ligne numérique, plusieurs types de données : voix, données, vidéo, fax, ...

Aujourd'hui il disparaît petit à petit au profit des liaisons xDSL mais on peut encore le rencontrer notamment pour les liaisons de secours et de sauvegardes.

En France, deux type de connexions peuvent se louer :

  • L'accès de base T0 (Basic Rate Interface) est un accès à 128kb/s (deux canaux B à 64kbit et un canal D de signalisation à 16 kb/s).
  • L'accès primaire T2 (Primary Rate Interface) est à 2 Mb/s (30 canaux B et 2 canaux D).

On considère d'une manière générale qu'une ligne téléphonique à besoin de 64 kb/s donc le BRI permet un accès pour deux lignes téléphoniques, tandis qu'un lien PRI permet un accès pour environ 30 lignes.

SDSL

Les liaisons SDSL sont plus adaptées aux besoins d'entreprises. Il s'agit d'une connexion à débits symétriques de 2 à 8 Mb/s.

Trunking SIP

Un Trunk SIP ou aggrégat de compte SIP, est un type d'abonnement pris chez un opérateur de téléphonie sur IP, permettant aux entreprises de relier plusieurs sites distants avec des IPBX, pour téléphoner sans passer par le réseau téléphonique classique .

IV- Principaux protocoles :

Parmi les protocoles listés ci-dessous, il faut distinguer les protocoles ...

  • de signalisation et de mise en relation des clients (H323, SIP, MGCP et IAX)
  • de transport des données multimédia (RTP, RTCP)

Globalement, la pile de protocole est la suivante :

+------------------------------------+
|       Applications multimedia      |
| Audio ou vidéo ou autre temps réel |
+------------------------------------+
        ^                  ^       
+---------------+  +-----------------+
|  MGCP ou SIP  |  |Codecs audio :   |
|   ou H323     |  |G711, G723, G728,|
|   ou IAX      |  |Mpeg, ...        |
|               |  |                 |
|               |  |Codecs viédos :  |
|               |  |H261, H263, MPEG,|
|               |  |...              |
|               |  +-----------------+
|               |          ^
|               |  +-----------------+
|               |  |  RTP ou RTCP    |
+---------------+  +-----------------+
     ^        ^            ^
+---------+ +------------------------+
|   TCP   | |          UDP           |
+---------+ +------------------------+
     ^                  ^
+------------------------------------+
|                IP                  |
+------------------------------------+

H.323

Il s'agit plus exactement d'une famille de protocoles concernant la voix et la vidéo sur IP. La pile de protocoles possibles est la suivante :

Il a été inventé en 1996. Très utilisé à ses débuts, il cède de plus en plus de place au protocole SIP. L'application la plus connue utilisant H.323 est Microsoft Netmeeting.

Aujourd'hui, il est principalement utilisé par les opérateurs mais peu en entreprise.

IAX

Inter-Asterisk Exchange a été créé par l'équipe de développement du serveur IPBX Asterisk.

Il permet de faire transiter voix et vidéo sur des débits plus faibles. D'autre part, il évite les problèmes de NAT posés par SIP car il n'utilise qu'un port UDP.

Il est de plus en plus utilisé même s'il est encore jeune, pas normalisé et pas implémenté sur tous les équipements.

SIP

Il s'agit du protocole de référence en matière de téléphonie. Il a été développé en 1997 dans le but d'être utilisé sur Internet, donc il est tout à fait adapté à ce genre d'application (contrairement à d'autres protocoles hérités de la téléphonie classique).

Il est moins lourd à configurer que les protocoles historiques issus de la téléphonie classique.

Il est implémenté dans tous les matériels actuels (téléphones IP, softphones, IPBX).

Il est lui aussi capable de transporter de la voix et de la vidéo.

Il est adopté par de nombreux fournisseurs de services Internet :

  • Free fournit un compte SIP à ses abonnés
  • Skype l'a adopté depuis sa création
  • Utilisé par AOL, Yahoo, Microsoft, Wanadoo, Free, Orange, Iliad, ...

MGCP

Ce protocole n'est pas énormément utilisé en entreprise, il est plutôt utilisé par les fournisseurs d'accès à Internet.

Il a la particularité de fonctionner en client / serveur, contrairement à SIP ou H323 qui fonctionnent en poste à poste et de nécessiter un agent d'appel (MG) qui est souvent installé sur les box.

SCCP

Il s'agit d'un protocole propriétaire de Cisco mis en place pour éviter le protocole H323 trop compliqué à mettre en place.

Il est très léger, utilise peu de bande passante et est principalement utilisé pour les communications entre les téléphones et le call manager, ainsi que pour le contrôle des conférences.

RTP/RTCP

RTP est un protocole normalisé par l'IETF, permettant de transporter tout média de type temps réel (audio, vidéo, ...). Son rôle est :

  • identifier le type de contenu
  • vérifier si des segments se sont perdus
  • contrôler le contenu à l'arrivée.

RTP est complémentaire aux protocoles vus précédemment, il ne fait qu'assurer le transport des informations alors que les autres protocoles assurent l'appel, l'authentification et la mise en relation des hôtes.

RTCP permet de contrôler les flux RTP au moyen de paquets basiques concernant les participants et la QoS.

V- Les codecs :

Un codec est un algorithme de codage et de décodage des données multimédia. Les différents équipements de téléphonie sur IP peuvent prendre en charge un ou plusieurs de ces codecs audio et vidéo.

Certains codecs sont propriétaires, d'autre sont libres.

Les codecs suivants (la liste n'est pas exhaustive) sont utilisables avec Asterisk et sont classés par ordre de qualité audio (voir tableau récapitulatif).

G711

Ce codec existant dans Asterisk donne les meilleurs résultats en terme de qualité d'écoute. Sa qualité égale presque le réseau téléphonique commuté. D'autre part, il ne génère que très peu de travail pour le processeur. Ces résultats sont dus au peu de compression qu'il génère. Autre avantage, il est implémenté dans la plupart des équipements.

En contrepartie, son défaut est d'utiliser une bande passante élevée de plus de 64 kbit/s soit plus importante que le RTC. Ce codec est donc plutôt utilisé pour le réseau local.

G729a

Ce codec gratuit, à condition qu'il n'y ait pas de transcodage (passage d'un codec à un autre), est un très bon compromis entre la qualité du signal et l'utilisation de la bande passante.

Avec G711, ils représentent les codecs les plus utilisés en téléphonie sur IP.

G726

Ce codec gratuit, moins commun que les deux premiers, permet un bon rapport entre bande passante, qualité du signal et consommation du processeur.

G723.1

Ce codec est payant. Il est utilisé pour le transcodage et à l'avantage d'utiliser une bande passante très faible.

En contrepartie, la qualité audio n'est pas très bonne.

GSM

Le codec par défaut d'Asterisk présente lui aussi une qualité audio moyenne mais une bande passante très faible. Il est plutôt utile pour les communications distantes.

Tableau récapitulatif et scores MOS :


Algorithme : Licence : Bande passante : Score Mos /5 G.711 Libre (UIT-T) 64 kbit/s 4,1 (Excellent) G.729a Gratuit sauf si transcodage 8 kbit/s 3,9 (Bon) ILBC Libre (non standard) 15 kbit/s 3,9 (Bon) G.726 Libre (UIT-T) 32 kbit/s 3,85 (Bon) G.723.1 Payant utilisé pour transcodage 5.3 kbit/s 3,6 (Moyen) GSM Libre (Asterisk) 6,3 kbit/s 3,5 (Moyen)


Codecs de vidéo et d'images :

Pour les autres flux multimédia, voici une liste des principaux codecs :

Les codecs vidéos supportés par la plupart des équipements sont :

  • ITU-T H261
  • ITU-T H263
  • ITU-T H264
  • MPEG4

Les codecs d'images supportés la plupart du temps sont :

  • JPEG
  • PNG

VI- Problèmes posés par la convergence dans le réseau :

Délais de transmission de la voix :

Le délai concerne la transmission du paquet de bout en bout (de l'utilisateur à l'utilisateur).

Voici la liste des étapes dans la communication téléphonique sur IP et le temps moyen de chacune d'elles :


Étape Temps moyen Numérisation 1 ms Codage et Compression 42,5 ms Encapsulation 5 ms Transmission 2 ms Traversée du réseau Inconnu Réception 2 ms Buffer de gigue 60 ms Décapsulation 5 ms Décompression 12,5 ms Conversion numérique → analogique 1 ms Total 142 ms + temps de traversée


D'après le tableau suivant, on peut avoir une idée des délais acceptables pour transmettre de la voix sur un réseau :


Délai de transmission de la voix Qualité d'écoute < à 300 ms Excellente Entre 300 et 500 ms Moyenne Entre 500 ms et 1s Faible

à 1s Inaudible


En conclusion, si on veut avoir une bonne qualité en téléphonie, le temps de traversée du réseau ne doit pas dépasser 150 ms ce qui est court.

Gigue

La Gigue est la variation dans le délai d'acheminement de paquets appartenant au même flot.

En téléphonie ou vidéo, le flux de données se doit d'être constant mais avec une gigue importante, le flux devient inconstant et perturbe l'application finale.

Le retard :

A chaque passage à travers un équipement d'interconnexion, l'acheminement des paquets peut être retardé pendant une ou plusieurs de ces quatre phases :

Traitement

En entrant dans l'équipement, le paquet est vérifié puis on recherche dans les tables à quoi il correspond.

Attente (voir congestion)

L'équipement a choisi sur quelle interface il devait transmettre le paquet mais il se peut qu'il y ait une file d'attente en sortie de cette interface, qui retarde le départ du paquet.

Transmission

Selon la longueur du paquet et le débit sortant, le temps de transmission peut être plus ou moins long.

Propagation

Le paquet est transmis sur le câble dans un temps qui dépend de la longueur du câble et du type de câble (de sa vitesse de propagation).

Congestion

La congestion d'un réseau informatique est liée à une augmentation temporaire du trafic sur un équipement réseau. Quand la file d'attente (buffer) en sortie de l'équipement (ou de l'interface) arrive à saturation, les nouveaux paquets arrivant sont supprimés.

Le principe même du protocole TCP complique la résolution d'une congestion :

Chaque segment fait l'objet d'un accusé de réception. Si l'un d'eux manque parce qu'il a été supprimé, il doit être renvoyé par l'émetteur ce qui continue la saturation l'équipement réseau.

Bande passante en téléphonie

En téléphonie classique, la voix nécessite une bande passante de 64kb. En fonction de l'algorithme de compression utilisé, les débits de la téléphonie sur IP varient entre 64 et 5kb/s.

Quand le signal est très compressé, le temps de compression ou décompression est long, demande des ressources en processeur et la qualité de la vidéo ou la voix est plus faible.

Les pertes de paquets :

Les équipements d'interconnexion sont chargés de transmettre les paquets d'une interface à une autre. Chaque interface est dotée d'une mémoire tampon, sorte de file d'attente. Tant que cette mémoire n'est pas remplie, les paquets sont transmis sur la base du premier arrivé, premier servi (FIFO).

Si la mémoire tampon déborde, les nouveaux paquets arrivant sont supprimés, ce qui crée des pertes de données.

En travaillant sur la voix ou la vidéo (technologies en temps réel), la perte n'a pas le même sens que quand il s'agit d'informatique.

En informatique, si je transmet un fichier et qu'un seul paquet manque à l'arrivée, tout est à refaire, on ne pourra pas utiliser le fichier partiellement arrivé. On s'arrange alors pour vérifier au fur et à mesure qu'il ne manque pas de paquets et si un paquet est manquant, on le redemande.

En téléphonie, si un paquet n'est pas acheminé, c'est un tout petit échantillon de voix qui n'est pas passé. S'il ne s'agit que d'un paquet, ce sera inaudible pour l'interlocuteur.

Pour une perte inférieure à 7% de paquets, le signal est audible.

Pour une perte inférieure à 20% de paquets, le signal est mauvais (micro-coupures).

Pour une perte supérieure à 20%, le signal devient inaudible.

VII- Notions sur la QoS :

Définition

La qualité de service correspond à la possibilité de transporter dans les meilleures conditions possibles tous types d'informations n'ayant pas les mêmes contraintes.

Elle est surtout très utilisée pour les réseaux transportant des données de types voix ou vidéo, pour que ce type de trafic soit prioritaire par rapport aux données informatiques.

Mise en place :

La QoS s'applique sur les équipements de niveau 3 du modèle OSI, les routeurs. Pour différencier le trafic, on utilise particulièrement le champs ToS de IP (type of service) comme le fait le modèle Diffserv.

La mise en place de la QoS consiste d'abord à différencier le trafic réseau en effectuant une reconnaissance des paquets qui transitent :

  • Par IP
  • Par protocole de niveau 3 ou 4 (TCP, UDP, ICMP, ...)
  • Par port
  • Par date et heure
  • En fonction de la congestion
  • En fonction de la bande passante
  • En fonction du temps de latence

La plupart du temps est mis en place le lissage de trafic, qui réserve une certaine quantité de bande passante à chaque service et évite les trop pleins de bande passante. On utilise pour cela les algorithmes Token Bucket ou Leaky Bucket (seau à jeton ou seau percé).