Voix IP
Introduction
Suite à
l'explosion de la bande passante sur les réseaux IP et à l'avènement du haut
débit chez les particuliers, de nouvelles techniques de communications sont
apparues ces dernières années. L'une les plus en vogue actuellement, est ce que
l'on appelle « Voix sur IP ».
L'expression « Voix sur
IP » a tellement été galvaudée que donner une définition précise relève du
parcours du combattant.
Le
développement de la voix sur IP est parti d’un constat simple : Comment
faire en sorte d’utiliser les potentialités extraordinaires du réseau des
réseaux Internet afin de téléphoner moins cher voir gratuitement ?
Après
des balbutiements anarchiques où les diverses solutions proposées (NetMeeting
de Microsoft et CoolTalk de Netscape par exemple) étaient complètement
incompatibles entre elles, la norme H323 a fait son apparition et a permit
ainsi l’interopérabilité des différents systèmes s’appuyant sur cette
technologie. Mais ce protocole issu des grands opérateurs nationaux est
beaucoup moins flexible que le monde IP et beaucoup trop proche de la
téléphonie classique pour une convergence globale des flux transportés. Ainsi
est apparu quelques années plus tard le protocole SIP, issu cette fois ci des grands
opérateurs Réseaux. Il est souple, évolutif et il a un grand avenir devant lui.
Mais il souffre du fait de l’implantation majoritaire des solution à base de
H323.
La
quelle de ses deux solutions protocolaire supplantera l’autre, tous le monde se
lance dans les pronostiques les plus fous. Mais, il y a fort à parier qu’une
fois encore les critères « Economiques » l’emporterons sur les
critères « Technologiques ».
SOMMAIRE
I. Généralités
A. Qu'appelle t'on voix sur IP ?
a. De poste informatique à poste informatique :
b. De Poste informatique à téléphone (ou vice-versa):
c. De téléphone à téléphone :
B. Comparaison IP/X25
C. Une donnée particulière : la voix
D. Les enjeux
a. Réduction des coûts d’appel
b. Mutualisation des réseaux, simplification de l'architecture
c. Prépondérance de la téléphonie et convergence voix-données
E. Un cas concret : INES
a. Prise de décision
b. Ce que leur apportera la téléphonie IP
II. Etat de l'art
A. Le protocole H323
a. Présentation générale:
b. H.320 et H.323 :
c. Les principaux apports de H.323 :
d. Les fonctions :
e. Le gatekeeper :
B. Protocole SIP (RFC 2543)
a. Architecture de SIP
b. Etablissement d’une communication en mode client serveur
c. Les messages SIP
d. LES EN-TETES SIP
e. Exemple de transaction
III. Perspectives
A. Le challenge de la VoIP :
B. Les difficultés de VoIP :
C. VoIP chez les exploitants de réseau :
D. Développements prévisibles :
CONCLUSION
BIBLIOGRAPHIE
I. Généralités
A. Qu'appelle t'on voix sur IP ?
Le terme
générique VOIP (Voice Over Internet Protocole) est souvent utilisé dans son
sens le plus général pour désigner toutes les solutions permettant le transport
de la parole sur un réseau IP. On peut distinguer en vrac:
la voix sur IP : transport de la parole sur un réseau IP de type privé (intranet/extranet).
la voix sur Internet : le transport de la parole via Internet.
la téléphonie sur IP : en plus de la parole, les fonctions téléphoniques (signalisation, fax, multi appel) sur IP de type privé (intranet/extranet).
la téléphonie sur Internet : propose les services téléphoniques de base via Internet.
la voix sur IP : transport de la parole sur un réseau IP de type privé (intranet/extranet).
la voix sur Internet : le transport de la parole via Internet.
la téléphonie sur IP : en plus de la parole, les fonctions téléphoniques (signalisation, fax, multi appel) sur IP de type privé (intranet/extranet).
la téléphonie sur Internet : propose les services téléphoniques de base via Internet.
Les subtilités sont telles que
nous retiendrons toutefois qu'il existe Trois grandes familles de Voix sur IP.
a. De poste informatique à poste informatique :
Cela nécessite
que les deux interlocuteur soient équipés informatiquement et dialoguent en
utilisant de simple applications genre « NetMeeting » ou
« Skype » utilisant pour cela un simple micro et des hauts parleurs.
Ce genre de communication est gratuite exception faite du coût du logiciel.
b. De Poste informatique à téléphone (ou vice-versa):
Cela nécessite
la mise en oeuvre d'une passerelle soit au départ de l'appel soit a l'arrivée
afin de faire transiter la communication d'un réseau IP à un réseau
téléphonique. L'appel est taxé uniquement pour la traversée du réseau
téléphonique. Ainsi, pour les appels internationaux, plus la proportion du
segment IP est grande, plus l'économie réalisée sera importante.
c. De téléphone à téléphone :
Lorsque
l'appelant et l'appelé sont tous les deux sur téléphone, le réseau de transport
devient transparent, cela nécessite la mise en oeuvre de plusieurs passerelle.
La tarification dépend de l'opérateur, s'il s'agit d'un réseau privé, c'est
gratuit. Mais c'est la solution qui permet le plus l'intégration voix données.
Le fait de
mettre en œuvre des postes téléphoniques IP a engendré le terme TOIP (Telefony
Over IP) qui est une « sous branche » de la voix sur IP mais qui est
plus largement utilisée. Ainsi parler de téléphonie ou de voix sur IP bien que
l’un soit plus spécifique que l’autre revient dans le langage courant au même.
B. Comparaison IP/X25
C. Une donnée particulière : la voix
La qualité de
la voix comparée à celle de la vidéo est plus exigée par les utilisateurs. Tout
service doit alors garantir une intelligibilité et une interactivité
acceptable. Pour arriver à ce niveau de qualité, il est nécessaire d'analyser
les problèmes rencontrés sur le réseau de transport (IP dans notre cas) et sur
les équipements terminaux.
Le réseau IP à
la base, n'était pas conçu pour les applications temps réels. Transporter la
voix sur ces réseaux engendre alors des défauts de transmission que sont
principalement le délai, la gigue, les pertes de paquets et l'écho.
Le délai ou latence :
C’est le temps que met
la voix entre le moment ou elle est émise par les cordes vocales et le moment
ou le tympan du destinataire se met à vibrer à l’autre bout de la
« ligne ». Afin de garantir une communication active, il ne doit pas
dépasser les 150 ms. Ce temps comprend le délai réseau (retard engendré par la
propagation sur le support, la commutation et le séjour dans les files
d'attente des routeurs, au séjour dans les tampons de compensation de gigue
etc.) et des terminaux (temps de numérisation, de codage, de compression, de
mise en paquet, de transmission, de décompression, de conversion numérique
analogique, etc.)
La gigue :
C’est la variation de
la latence. Dans une transmission par paquet, les routes utilisées ne sont pas
les mêmes en fonction des paquets. Les routages se font de manière dynamique.
Il n’est pas rare que des paquets prennent des routes différentes et que
certains arrivent avant d’autre. Cet écart ne doit pas dépasser les 100ms.
La perte des
paquets :
Afin de pouvoir assurer
un temps de latence minimal, il est nécessaire que l’on ne perde pas de temps à
réémettre des paquets perdus. Le protocole TCP a donc été écarté au profil du
protocole UDP qui ne gère pas les demandes d’acquittement et de retransmission
de paquets perdus ou erronés. C’est ce qu’on appelle un protocole sans
correction d’erreur. Mais dans un soucis de qualité, il est tout de même
préférable que le taux de perte n’excède pas les 20%.
L’écho :
Il résulte du passage
d’une transmission dans un tronçon analogique (le reste étant numérique). Il est causé par un changement d’impédance.
Il s’agit d’un phénomène électrique que les passerelles doivent tant bien que
mal gérer et qui ne doit pas dépasser les 50 ms
La bande
passante :
La voix nécessite un
débit de 64kb/s. En la compressant, on peut réduire ce débit à 5kb/s. Cela
s’accompagne d’un abaissement de la qualité et d’une augmentation du temps de
latence dû au rajout de la compression/décompression.
Illustration des différents problèmes relatifs à IP
D. Les enjeux
Avec tant de
problèmes technologiques, pourquoi donc s’escrimer à vouloir à tout prix
utiliser le protocole IP afin de transporter la voix. Alors que les réseaux
téléphoniques le font très bien et pour des coût en constante diminution ?
a. Réduction des coûts d’appel
Dans le cas
d’une communication via IP, il n’est facturé en terme de téléphonie que la
transition sur les réseaux téléphoniques classiques. Ainsi que vous appeliez
votre voisin ou bien un client à l’autre bout du monde, il ne vous en coûtera
que le prix d’une communication locale. Ces solutions s’avèrent donc beaucoup
plus avantageuses si vos appels téléphoniques
se font sur longue distance.
b. Mutualisation des réseaux, simplification de l'architecture
Le réseau
téléphonique d’une entreprise qui a choisi la Voix sur IP est dorénavant géré
comme un réseau informatique. Il n’existe plus un réseau téléphonique et un
réseau informatique mais belle et bien, un système d’information dans sa
globalité qui s’avère bien plus facile à gérer. Il n’y a plus besoin que d’une
équipe informatique qui gère l’ensemble. Cela permet également d’alléger les
coûts d’infrastructure en terme de réseau capillaire (le câblage).
c. Prépondérance de la téléphonie et convergence voix-données
Quelques
soient les époques, le dialogue de vive voix a toujours été le mode de
communication préféré des Hommes. Lorsque vous essayer de résoudre un problème
à distance avec votre interlocuteur via des solution de messagerie instantanée
par exemple, vous avez toujours plus ou moins envie de prendre le téléphone et
d’appeler votre correspondant, meilleur interactivité, meilleur moyen de
s’exprimer, rapidité également. Les téléphones peuvent maintenant appeler les
Ordinateur et les ordinateurs appeler des téléphones. La communication s’en
trouve ainsi encore facilitée. De plus, le nouveau cap à franchir est la
convergence globale voix données. Beaucoup d’application son basée autour de la
communication téléphonique. Votre messagerie ne comportera plus que des emails,
mais également des messages enregistrés. La vidéo conférence se généralisera
également.
E. Un cas concret : INES
Ines Internet
Evolutive Solution est une société dont l’activité principale est
l’édition de logiciels. Leur principal
produit est la suite INES-FullWeb. Cette société est actuellement en pleine.
Ayant eu
connaissance de leur volonté de migrer leur téléphonie sur IP, nous avons décidé
de les rencontrer afin de connaître leur vision de la voix sur IP et de savoir
quelles sont leurs attentes en la matière.
a. Prise de décision
Lors d’un
voyage d’affaire en Uruguay, Max Patissier, président d’Inès a pu rester en
contact gratuitement avec ses collaborateurs restés en France. Il a utilisé
pour cela Skype, une nouvelle application gratuite de voix sur IP Poste à
Poste.
Mais cette
solution a montrée vite ces limites : comment appeler un client ou un
future qui n’a pas forcément les logiciels d’installés.
Afin que cela
soit transparent pour les appelants et les appelés, la solution Téléphonie IP
s’est imposée d’elle-même.
b. Ce que leur apportera la téléphonie IP
Dans le cadre
de son évolution, Ines va déménager dans de nouveaux locaux tout en gardant les
anciens. Une succursale est également en place en Uruguay. Les solutions VoIP
leurs sont fournies par leurs opérateurs : LDCOM et COLT en collaboration
avec leur fournisseur d’accès AIC.
Chaque site
possédera une double connexion ADSL, l’une pour Internet et l’autre dédiée à la
Voix sur IP afin de garantir un débit suffisant. Les communications inter sites
se feront uniquement via un réseau intranet.
De plus un
numéro spécial a été mis à leur disposition (0825 ### ###) qui permettra
un routage automatique des appels entrants. En effet, ou que soient les clients
dans le monde, ils appelleront un unique numéro qui selon la source aboutira
soit en France, soit en Uruguay.
Ils attendent
en outre de pouvoir, en fonction du numéro de l’appelant, voir apparaître
directement leur fiche client sur leur écran avant même de décrocher. Ainsi que
d’autres fonctionnalités qui restent pour l’instant confidentielles.
II.
Etat de l'art
Trois protocoles
se partagent actuellement le marché de la voix sur IP. Il s’agit des protocoles
MGCP/MEGACO, H323 et SIP. H323 et SIP ont chacun leurs avantages et leurs
inconvénients. Il est impossible à l’heure actuelle de prédire qui sera le
grand vainqueur final de la guerre acharnée que leurs promoteurs se livrent.
MEGACO est quand à lui un peu a part se contentant uniquement de gérer les
passerelles Monde IP / Monde Tel. C’est pourquoi nous n’en parlerons pas ici.
A. Le protocole H323
a. Présentation générale:
H.323 est un
protocole de communication englobant un ensemble de normes utilisées pour
l’envoi de données audio et vidéo sur Internet. Il existe depuis 1996 et a été
initié par l’ITU (International Communication Union), un groupe international
de téléphonie qui développe des standards de communication. Concrètement, il
est utilisé dans des programmes tels que Microsoft Netmeeting ou encore dans
des équipements tels que les routeurs Cisco.
Il existe un
projet OpenH.323 qui développe un client H.323 en logiciel libre pour que les
utilisateurs et les petites entreprises puissent avoir accès à ce protocole
sans avoir à débourser beaucoup d’argent.
b. H.320 et H.323 :
Le protocole
H.323 est utilisé pour l’interactivité en temps réel, notamment la
visioconférence (signalisation, enregistrement, contrôle d’admission, transport
et encodage). C’est le leader du marché pour la téléphonie IP. Il s’inspire du
protocole H.320 qui proposait une solution pour la visioconférence sur un
réseau numérique à intégration de service (RNIS ou ISDN en anglais), comme le
service Numéris proposé par France Telecom.
Le protocole
H.323 est une adaptation de H.320 pour les réseaux IP. A l’heure actuelle, la
visioconférence sur liaison RNIS est toujours la technique la plus déployée.
Elle existe depuis 1990. Les réseaux utilisés sont à commutation de circuits.
Ils permettent ainsi de garantir une Qualité de Service (QoS) aux utilisateurs
(pas de risque de coupure du son ou de l'image). Aujourd'hui, c'est encore un
avantage indiscutable. Par contre, comme pour le téléphone, la facturation est
fonction du débit utilisé, du temps de communication et de la distance entre
les appels.
c. Les principaux apports de H.323 :
Définition des normes de compression des flux audio et vidéo que les équipements doivent nécessairement supporter.
Définition des protocoles de signalisation pour l'interopérabilité des équipements.
Limitation de la bande passante réservée pour chaque type de communication.
Indépendance vis-à-vis des applications et systèmes d'exploitation.
Indépendance vis-à-vis du réseau physique supportant la communication.
d. Les fonctions :
L'architecture
H.323 fonctionne selon une stratégie bout en bout qui lui confère une
transparence vis-à-vis des évolutions du réseau. Elle s’appuie sur des protocoles
de communications (RTP, RTCP, …), mais également sur des codecs audio (G.711
obligatoire,G723.1, G.728,…) et des codecs vidéo (H.261 et H.263).
Les fonctions dédiées à H.323
sont les suivantes :
Ø
Contrôle de la procédure
d'appel : requête, établissement et suivi de l'appel.
Ø
Gestion des flux
multimédias : liste de codecs recommandés ou obligatoires.
Ø
Gestion des conférences
multipoint : modèle de conférence géré par une entité centrale.
Ø
Gestion de la bande
passante : le gatekeeper devient un centre de contrôle et a les moyens de
limiter les connexions et d'allouer la bande passante disponible.
Ø
Interconnexion à
d'autres réseaux : ATM, RNIS, RTC.
Ø
H.323 définit quatre
composants majeurs qui interagissent dans un réseau de paquets:
o
les "endpoints",
qui initient un appel audio, vidéo ou visioconférence.
o
une passerelle (
"gateway" ) pour l’interaction avec un réseau téléphonique commuté
o
un élément optionnel (
"gatekeeper" ) qui permet la connectivité entre des équipements ISDN
externes qui appellent dans le réseau de paquets pour atteindre un élément
H.323.
o
les MCUs ( "
Multipoint Control Units " ) pour la conduite de visioconférences en
multipoints.
Les
différents protocoles sont représentés ci-dessous par rapport à l’architecture
H323 puis par rapport au modèle OSI :
La signalisation se fait avec les protocoles suivants :
Ø
RAS : Gère
l’admission et l’état des communications.
Ø
Q.931 : Gère les
appels et le raccrochage.
Ø
H.245 : Gère
l’utilisation des canaux et leur capacité.
Des fonctions
optionnelles sont également proposées par les protocoles H.235 (sécurité et
authentification) et H.450.x (divers services supplémentaires).
e. Le gatekeeper :
Un gatekeeper
agit comme un moniteur de tout appel H323 dans la partie du LAN qu’il gère. Il
fournit deux services principaux :
Ø
la gestion des permissions,
Ø
la résolution d’adresses.
Le gatekeeper
est aussi responsable de la sécurité. Quand un client H323 veut émettre un
appel, il doit le faire au travers du gatekeeper. C’est alors que celui-ci
fournit une résolution d’adresse du client de destination.
Dans le cas
où il y aurait plusieurs gateways sur le réseau, il peut rediriger l’appel vers
un autre couple gateway/gatekeeper qui essaiera à son tour de router l’appel.
Pendant la résolution d’adresse,
le gatekeeper peut aussi attribuer une certaine quantité de bande passante pour
l’appel et sélectionne les codecs à utiliser. Il peut agir comme un
administrateur de la bande passante disponible sur le réseau.
Le gatekeeper, de par
ses fonctionnalités de routage et de sécurité, doit gérer ces gateways pour
faire en sorte que tout appel atteigne sa destination avec la meilleure qualité
de service possible.
Ainsi, le
gatekeeper peut remplacer le classique PABX. Il est capable de router les appels
entrant et de les rediriger vers leur destination ou une autre passerelle.
Mais, il peut gérer bien d’autres fonctions telles que la conférence ou le
double appel. Il n’existe pas les mêmes contraintes avec un gatekeeper qu’avec
un PABX.
En effet, ce
premier est administré de façon logiciel et l’opérateur peut implémenter autant
de services qu’il le désire. Alors qu’avec un PABX, l’évolutivité est limitée
par le matériel propriétaire de chaque constructeur.
Avec un
gatekeeper, l’amélioration des services d’un réseau de téléphonie IP n’a pas de
limites. Ci dessous, nous présentons le diagramme d’un établissement de
connexion point à point avec H323. Le schéma ne s’appuie que sur les groupes de
messages importants et ne détaille pas la négociation des codecs par exemple.
Pourtant la négociation des codecs existe et le flux de données peut être
contrôlé sur tout le réseau.
Dans cet exemple, Endpoint1
essaye d’appeler Endpoint2.
Commençons
par comprendre les bases d’un appel point à point .
L’établissement
d’appel se fait à 3 niveaux différents. Endpoint1 commence par établir une
connexion TCP sur le port classique pour H323 (1720). Endpoint2 et Endpoint1
s’envoient alors des paquets Q931 sur cette connexion.
Durant cet
échange, Endpoint2 et Endpoint1 envoient aussi un numéro de port temporaire et
supérieur à 1024 qui servira pour les échanges H245. Si l’on respecte le
standard, dès que la connexion H245 est établie, la connexion Q931 s’achève
(sans envoi de message particulier), sans affecter le reste de la connexion
H323. En pratique, la connexion Q931 est simplement laissée de coté.
La connexion
H245 est établie par l’appelant sur le port temporaire négocié lors de la
connexion Q931. H245 transmet tous les paramètres à utiliser lors de l’appel et
négocie donc l’usage de tels ou tels codecs par exemple. H245 permet aussi
d’établir la connexion UDP qui servira à la transmission de la voix (et de la
vidéo).
En fait, une
fois que les codecs et les autres paramètres de l’appel ont été négociés, la
session H245 exécute une séquence d’opérations visant à ouvrir un canal de
transmission en UDP (Open Logical Channel). Cette séquence permet de déterminer
les adresses RTP et RTCP de l’envoyeur et du receveur ainsi que le port sur
lequel se fera la transmission du flux de données (audio ou vidéo). On notera
qu’avec H323, chaque canal logique est considéré comme une voie.
C’est à dire,
que pour que deux personnes échangent de la parole, il faut ouvrir 2 canaux logiques
: l’un pour aller de Endpoint2 vers Endpoint1 et l’autre pour aller de
Endpoint1 vers Endpoint2. Aussi, le protocole RTP requière 2 connections UDP
adjacentes. L’une des connexions est utilisée pour RTP (transport du flux de
données), l’autre pour RTCP (contrôle des données) et qui est bidirectionnelle.
Les ports utilisés par RTP et RTCP doivent être deux ports distincts, on
choisit souvent n+1 comme port RTCP si le port RTP est n.
Comme nous
pouvons le voir, l’établissement d’un appel n’a rien de trivial si l’on n'est
pas familier avec les bases de la téléphonie classique. Mais ce type de
protocoles assure une grande efficacité et une bonne qualité de service
puisqu’ils utilisent les principes de la téléphonie classique. Ceci est une
révolution dans le monde de l’informatique. Le problème est que cela
complexifie le développement d’une plate-forme de téléphonie IP.
L'origine
télécom de H.323 fait que son adaptation à IP est complexe et lourde à gérer ce
qui la rend incompatible avec la simplicité du monde IP. C'est pourquoi, des
recherches ont été effectuées sur des normes de signalisation mieux adaptées à
la philosophie IP.
B. Protocole SIP (RFC 2543)
Le SIP
(Session Initiation Protocol) est la nouvelle norme de communication IP. On le
retrouve principalement dans la téléphonie IP, mais il sert également pour la
vidéoconférence, l’indication de disponibilité, et la messagerie instantanée.
L’idée de
départ du SIP était de développer un protocole englobant toutes les fonctions
de traitement des appels actuellement offertes par le réseau téléphonique
public commuté. Ainsi, le SIP gère les fonctions standard de signalisation
téléphonique telles que la composition du numéro, la sonnerie, le signal
d’appel et la tonalité qui indique lorsque la ligne est occupée.
Ce protocole
a par ailleurs été conçu pour fournir de nombreuses fonctionnalités SS7
(Signalling System 7) de gestion des appels incluant les services de traduction
de numéros, mais aussi des options beaucoup plus complexes telles que
l’identification de l’appelant. De plus, puisque le SIP fonctionne avec un
grand nombre de protocoles de transmission multimédia, il permet d’initier, de
gérer et de terminer un large éventail de services multimédia.
Le protocole
SIP permet de localiser les utilisateurs d’Internet et d’établir des sessions
entre eux. Une « session » peut être un appel téléphonique basé sur IP, du «
chat » via la messagerie instantanée, un partage de pages et de documents Web,
voire une importante vidéoconférence réunissant des centaines de participants.
Tandis que la plupart des protocoles utilisés sur Internet fonctionnent grâce à
la connexion établie entre un client et un serveur distant, le SIP permet aux
clients de communiquer entre eux. Ainsi,
un utilisateur équipé d’un ordinateur, portable ou non, ou même d’un PDA relié
au réseau, peut établir une session multimédia directement avec un autre
utilisateur.
Le SIP permet
une interaction multimédia en temps réel, intégrant en toute transparence la
voix, les données et la vidéo en une session spécifique. Par exemple, vous
pouvez inclure dans une même session SIP, une vidéo conférence avec un groupe
de collègues, la distribution de documents électroniques et l’envoi d’un
message confidentiel instantané à l’un d’eux. Tout cela grâce à une connexion
unique dédiée.
Chaque
utilisateur SIP se voit attribuer une identité unique comparable à une adresse
e-mail. Elle est utilisée par le serveur SIP pour l’identifier quel que soit le
moyen de connexion au réseau utilisé. En pratique, cela se traduit par un accès
à des services multimédia personnalisés et homogènes depuis quasiment n’importe
où.
a. Architecture de SIP
Pour établir et terminer des communications
multimédia, SIP utilise les 5 fonctions suivantes :
User location : permet de localiser le poste terminal
utilisé pour communiquer
User capabilities : détermine quels média vont être
échangés(voix, vidéo, données…) ainsi que les paramètres associés ;
User availability :
détermine si le poste appelé souhaite communiquer et autorise l’appelant à la
contacter ;
Call setup ou
" ringing ": avertit les parties appelant et appelé de
la demande d’ouverture de session (sonnerie ou message de réception d’appel) et
mise en place des paramètres d’appel.
Call handling :
gère le transfert et la fermeture des appels.
SIP permet l’ouverture de sessions entre :
2 utilisateurs unicast : communication entre 2
stations.
plusieurs utilisateurs en multicast : via une unité
de contrôle M.C.U.(Multipoint Control Unit) .
plusieurs utilisateurs pleinement interconnectés en
multicast via un réseau à maillage complet de connexions.
Notons que les utilisateurs reliés au Réseau
Téléphonique Commuté Public (P.S.T.N. pour Public Switched Telephone
Network) peuvent utiliser SIP car le PSTN est interconnecté au réseau des
réseaux grâce à des passerelles (gateways).
L’architecture en couches de SIP, telle que la présente le modèle
OSI, fait apparaître une palette de nombreux protocoles :
APPLICATIONS
MULTIMEDIA
AUDIO VIDEO DONNEES
SIP
RSVP RTP RTCP SAP SDP
UDP TCP
IP
A chacune des couches de l’architecture SIP sont
associés des protocoles tels que :
Ø
RSVP est un
protocole utilisé pour réserver les ressources réseaux sur IP avec une excellente
qualité de service (QoS).
Ø
R.T.P.(Real-time
Transport Protocol) pour transporter des informations en temps réel avec une
excellente qualité de services.
Ø
R.T.C.P.(Real-Time
streaming Control Protocol) pour assurer le contrôle de flux des données multimédia .
Ø
S.A.P.(Session
Announcement Protocol) pour préciser si les sessions multimédia ouvertes le
sont en multicast .
Ø
S.D.P.(Session
Description Protocol) est un protocole de description des sessions multimédia.
b. Etablissement d’une communication en mode client serveur
Pour établir une
communication, l’appelant, que l’on désignera par client, adressera sa
requête à un serveur SIP, qui lui donnera les moyens de communiquer.
Seulement il existe 5 types de serveurs :
Ø l’U.A.S.(User Agent Server) : c'est l'application du
terminal d'abonné qui reçoit les requêtes et l'U.A.C.(User Agent Client)
est l'application de ce même terminal qui émet les requêtes.
Ø
le relais mandataire
ou P.S. (Proxy Server) : auquel est relié un terminal fixe ou
mobile (lors de son déplacement, le terminal est relié au PS le plus proche et
change constamment de PS) agit à la fois comme client et serveur. Un tel
serveur peut interpréter et modifier les messages qu’il reçoit avant de les
retransmettre.
Ø le R.S.(Redirect Server) : réalise simplement une
association (mapping) d’adresses vers une ou plusieurs nouvelles
adresses ( lorsqu’un client appelle un terminal mobile - redirection vers le PS
le plus proche - ou en mode multicast - le message émis est redirigé vers
toutes les sorties auxquelles sont reliés les destinataires - ). Notons qu’un
Redirect Server est consulté par l'UAC comme un simple serveur et ne peut
émettre de requêtes contrairement au PS.
Ø le L.S.(Location Server)fournit la position courante des
utilisateurs dont la communication traverse les RS et PS auxquels il est
rattaché : cette fonction est assurée par le service de localisation.
Ø
le RG(Registrar) est
un serveur qui accepte les requêtes REGISTER et offre également un
service de localisation comme le LS. Chaque PS ou RS est généralement relié à
un Registrar.
L’ouverture
d’une session à l’aide du protocole SIP peut s’effectuer de façon directe entre
deux User Agents jouant le rôle du
client et du serveur ou de façon
indirecte au travers d’un serveur proxy. Dans ce dernier cas, le serveur à en
charge la localisation du serveur B (Exemple II.2.1) dont l’adresse est passé
dans le message INVITE. Dans le cas de changement de localisation , le serveur
proxy est renseigné sur l’adresse de l’utilisateur à l’aide du serveur de localisation.
Et le serveur proxy adresse un message 302 MOVE TEMPORARILY avec les nouvelles
coordonnées de localisation.
c. Les messages SIP
Un message SIP peut être à la fois une requête d’un client vers un serveur ou une réponse d’un serveur vers un client. Ces deux types de messages SIP utilisent le format suivant :
Ligne de requête ou ligne d’état
|
Entête de requête ou de réponse
|
CRLF : Balise indiquant le début de corps
du message
|
Corps du message
|
Ø Les requêtes :
Les méthodes utilisées par les requêtes SIP sont les suivantes :
-
INVITE : indique que l’application ou utilisateur est
invité à participer à une session. Le Corps
du message contient la description de la session (média supportés par
l’appelant entre autres).
-
ACK : confirme que le client a reçu ue réponse
définitive à une requête INVITE.
-
OPTIONS : un PS en mesure de contacter l’UAS appelé,
doit répondre à une requête OPTIONS en précisant ses capacités à contacter
l’UAS.
-
BYE : est utilisée par l’UAS de l'appelé pour
signaler au PS local qu’il ne souhaite plus participer à la session.
-
CANCEL : la requête CANCEL permet d’annuler une requête non validée par une
réponse finale d’état.
-
REGISTER : cette méthode est utilisée par le client
pour enregistrer l’adresse listée dans l’URL TO par le serveur auquel il est
relié.
Ø Les réponses :
Chaque réponse
aux requêtes reçues est caractérisée par ce qu’on appelle un code et un motif ,
appelés respectivement Code d’état et Reason Phrase. Le motif étant la
définition en clair du code d’état. Il existe
6 classes de réponses.
- 1xx = Information : la requête a
été reçue et continue à être traitée ;
- 2xx = Succès : l’action a été
reçue avec succès, comprise et acceptée ;
- 3xx = Redirection : une autre
action doit être menée afin de valider la requête ;
- 4xx = Erreur du client : la requête contient une syntaxe erronée ou
ne peut pas être traitée par ce serveur ;
- 5xx = Erreur du serveur : le
serveur n’a pas réussi à traiter une requête apparemment correcte ;
- 6xx = Echec général : la requête
ne peut être traitée par aucun serveur.
d. LES EN-TETES SIP
Les différents champs
d'en-tête qu'utilise SIP ne nécessitent pas d'ordre particulier sauf dans le
cas de l'en-tête général Via où l'ordre des champs d'en-tête importe. En
particulier, l'on distingue les champs d'en-têtes des message transmis saut par
saut (c'est-à-dire qui sont interprétés et peuvent être modifiés ou ajoutés par
tous les serveurs qu'ils traversent) des en-têtes des messages transmis de bout
en bout (interprétés par les émetteurs et destinataires uniquement et non
modifiables par les serveurs traversés). Les champs d'en-tête saut par saut
doivent apparaître avant les champs d'en-tête de bout en bout. Les PS ne
doivent pas réordonner les champs d'en-tête mais peuvent ajouter éventuellement
des champs Via ou autres champs de type "saut par saut".
Chaque méthode (ACK, BYE,
CANCEL, INVITE, OPTIONS, REGISTER) requière, ne supporte pas ou supporte de
façon optionnelle certains champs d'en-tête. Par exemple, les champs d'en-tête
CALL-ID, Cseq, FROM, TO et Via sont requis par toutes les méthodes (dans le cas de la méthode OPTIONS, il faut ajouter
en plus le champ d'en-tête Allow ). Ces champs d'en-tête sont de type "de
bout en bout".
Il existe 4 types de champs d'en-tête:
Ø
En-tête général s’applique
à la fois aux messages de requête et de réponse : Accept ou
Accept-Encoding ou Accept-Language ou CALL-ID ou Contact ou Cseq ou Date ou
Encryption ou Expires ou From ou Record-Route ou Timestamp ou To ou Via
Ø
En-tête d’entité définit le type d'informations contenues dans le
Corps du message ou la ressource identifiée par la requête en l'absence du
Corps du message : Content-Encoding ou Content-Lenght ou Content-Type
Ø
En-tête de requête Le champ
d'en-tête de requête autorise le client à ajouter des informations concernant
sa requête et lui même à destination du serveur : Authorization ou Contact
ou Hide ou Max-Forwards ou Organization ou Priority ou Proxy-Authorization ou
Proxy-Require ou Route ou Require ou Response-Key ou Subject ou User-Agent
Ø
En-tête de réponse Le champ d'en-tête de réponse autorise le
serveur à ajouter des informations concernant sa réponse, qui ne peuvent pas
être placées dans la ligne d'état, sur lui même et sur l'accès à la ressource
identifiée par la requête URI : Allow ou Proxy-Authorization ou Retry-After
ou Server ou Unsupported ou Warning ou WWW-Authenticate.
Contrairement aux protocoles
standards tels que IP ou TCP, où le format des paquets ou segments est bien
déterminé, le format des messages SIP
n’est pas standard. Les champs d’en-tête sont choisis " à la
carte " selon un panelle de champs. Lorsque les messages SIP sont
transportés par UDP, avec authentification et une description de session
complexe, il arrive que la taille du message SIP de requête ou réponse dépasse
la MTU.
Pour résoudre ce problème, un format compact a été défini utilisant
des abréviations pour certains champs.
e. Exemple de transaction
Pour faire appel à SIP,
l’application de l’UAC appelant envoie une requête
INVITE au Proxy Server (PS) auquel
il est relié. Ce serveur, via d'autres PS, transmet cette requête à l'UAS
auquel est relié l’appelé. Cette requête demande à l’appelé s’il veut rejoindre
un forum de discussion, assister à une visioconférence ou établir simplement
une communication privée avec l’appelant. Si l’appelé est d’accord, il renvoie
une réponse OK (code 200) à
l’appelant qui confirme alors qu’il a bien reçu la réponse de l’appelant. Pour
cela, il envoie une requête ACK, acquittement (acknowledgement) à
l’appelé. De la même manière, si l’utilisateur souhaite se déconnecter, l’application
de l’utilisateur émet une requête BYE
au lieu de ACK.
La requête INVITE contient la
description de la session ouverte qui stipule quels sont les médias et formats
des messages SIP utilisés (protocole SDP). Pour une communication unicast, la
requête INVITE précise les types de média et formats que l’appelant utilisera
et vers où il souhaite que les données soient envoyées. Si l’appelé est
d’accord avec cette description, sa réponse contiendra les mêmes
paramètres(toutes les requêtes et leur réponses ont le même Call-ID) . En
multicast, l’appelé répondra que si sa description est différente.
Ø Exemple de fonctionnement d’une requête INVITE en mode Proxy
Server(PS)
1)
Le client appelant (UAC) envoie au
PS une requête INVITE avec
l’adresse SIP du destinataire henning@columbia.edu
2)
Le PS contacte le Location Serveur
et lui fournit toute ou une partie de l’adresse SIP du destinataire :
henning;
3)
Le PS obtient alors une adresse
plus précise hgs@play.
4)
Le PS envoie une requête INVITE au
serveur destinataire dont l’adresse lui a été fournie par le service de
localisation du Location Server : play;
5) L’UAS du destinataire avertit l'appelé;
6)
Et retourne au PS de l'appelant
l’accord du destinataire pour communiquer par une réponse OK (code 200);
7) Ce PS retourne alors au client appelant l’accord du
destinataire.
8) La réception de l’accord
du destinataire est acquittée par le client appelant par une requête ACK.
9) Cet acquittement est transmis directement à l’appelé ;
10) Communication établie.
Ø Exemple de fonctionnement d’une requête INVITE en mode Redirect
Server
1) Le client appelant (UAC) envoie
une requête INVITE au redirect serveur (RS) avec l’adresse destinataire.
2) et 3) Le RS contacte le
Location Server qui lui fournit l’adresse du serveur destinataire :
columbia.edu.
4) Le RS renvoie au client
appelant la nouvelle adresse par une réponse
Moved (code 302) signalant que le terminal destinataire a changé de PS.
5) Le client appelant envoie une requête
ACK au RS pour aquitter .
6) Puis ce client envoie une
requête INVITE au serveur du destinataire. Cette requête possède le même
Call-ID que la première mais son numéro de séquence Cseq est plus élevé.
7) Le PS du destinataire avertit
l'UAS de l’appelé, qui retourne au PS son accord pour communiquer par une
réponse OK (code 200).Le PS retourne au client appelant l’accord du
destinataire.
9) La réception de l’accord du destinataire est acquittée par le client appelant par une requête ACK,
9) La réception de l’accord du destinataire est acquittée par le client appelant par une requête ACK,
Cet acquittement est transmis directement à
l’appelé.
Nous venons de voir, à travers ces 2 exemples que
si certains paramètres de la session doivent être changés, un nouveau INVITE
est émis tout en conservant le Call-ID mais un Cseq plus grand doit être
utilisé. Pour localiser un utilisateur SIP, notons d’abord qu’un terminal
utilisateur peut constamment se déplacer. Sa position doit être enregistrée
dynamiquement par un location server.
Un tel serveur enregistre plusieurs positions pour un même terminal, qui est
relié à plusieurs PS à la fois lorsqu’il se déplace (les PS les plus proches). Lorsqu'un
serveur SIP interroge son location server, il établit une liste des postions
possibles de l’utilisateur à partir des résultats reçus. Cette liste contient 0
position ou plus. Pour communiquer sa nouvelle position au serveur SIP, le
terminal de l’utilisateur lui envoie une requête REGISTER.
III. Perspectives
A. Le challenge de la VoIP :
L'application
"voix sur IP" peut s'intégrer aux offres de réseaux privés virtuels
des entreprises, ou bien elle peut être ouverte à tout utilisateur de poste
téléphonique ordinaire, ou d'ordinateur connecté à un réseau public. Cette
multiplicité de choix explique la confusion des jugements de valeur qui sont
émis aujourd'hui encore en faveur ou contre l'usage de la téléphonie sur
Internet.
Il est
certain que l'évolution des réseaux conduit à un changement des usages. Nous
passons très progressivement du règne des classiques réseaux publics en
commutation de circuits à l'émergence de la technologie des réseaux en mode
paquets, dont l'évolution est encore loin d'être achevée et dont les
performances devraient progressivement s'améliorer. La téléphonie sur Internet
ouvre donc des applications nouvelles qui vont conduire l'évolution des réseaux
IP.
De plus, la
communication de type vocal étant l'une des applications de communications les
plus exigeantes en qualité de service, les réseaux de paquets en IP doivent
évoluer (techniquement et économiquement) pour rendre cette application
acceptable en toute circonstance et en tout lieu, quel que soit le réseau et la
chaîne de connexion utilisés. Des classes de service de VoIP sont en cours
d'étude, offrant des délais de transmission variés. L’Union Internationale des
Télécommunications (UIT-T G114) a fixé la limite entre service téléphonique et
transport de la voix à 150ms.
Nom
|
Latence
|
Utilisation recommandée
|
Class 1
|
0 à 150 ms
|
Communications normales
|
Class 2
|
150 à 300 ms
|
Bidirectionnel peu interactif
|
Class 3
|
300 à 700 ms
|
Half Duplex
|
Class 4
|
700 à +
ms
|
Radio Amateur et militaires.
|
Aujourd'hui,
vu sous l'aspect global, le marché semble s'orienter vers l'interconnexion
permanente de tous les systèmes possibles au coût le plus faible, de façon à
faciliter le transfert d'informations en tout lieu vers toute personne qui le
souhaite, ouvrant ainsi les possibilités d'achats et de ventes de marchandises
ou de biens au meilleur prix. La connectivité permanente à haut débit
(supérieur à 200 ou 400 kbit/s selon les auteurs) devrait permettre des
applications voix, données et images propices au télétravail, à la télémédecine
(e-health), au téléenseignement (e-education), à l'aide de la gestion des
collectivités (e-gouvernment), etc.
La première
étape qui précède ces projets grandioses concerne l'adaptation de chacun des
réseaux d'accès régionaux aux techniques de haut débit les plus appropriées,
compte tenu de la densité d'usage en hauts débits (Gbit/s / km2) et de la
répartition des populations visées.
Ensuite,
vient le choix des protocoles de communications adaptés aux applications
sélectionnées, opération qui s'effectuera progressivement dans le temps, après
plusieurs évolutions, probablement.
B. Les difficultés de VoIP :
Plusieurs
problèmes subsistent pour le développement de VoIP. La VoIP demande l'emploi de
terminaux spéciaux qui sont encore coûteux. La numérotation des terminaux VoIP
doit être gérée par un bureau unique et en général, un préfixe commun (le 050,
au Japon par exemple) leur est alloué, encore à titre provisoire.
Dernier
inconvénient majeur connu, les services d'urgence demeurent seulement
joignables par le réseau classique. Les abonnés sont astreints à conserver le
terminal classique pour la réception des appels non-VoIP. Le statut
d'exploitant de service vocal sur IP ne peut donc pas couvrir un service qui
est attaché à des obligations de service public. Pas question également de
parler de "service universel" ! VoIP demeure encore considéré
juridiquement comme un service d'information de données sur liaison à haut
débit. La question aujourd'hui est de savoir si VoIP doit recevoir un statut
particulier, avec des contraintes inhérentes, ou bien, s'il est préférable de
ne pas imposer de réglementation sur cette application. La réglementation
pourrait simplement accepter que le paiement ne se fasse plus à la durée, mais
sur la base d'une contribution fixe mensuelle attachée à la valeur d'un débit
permanent délivré.
Comment
doit-on considérer un fournisseur d'accès à Internet qui proposerait des accès
de téléphonie en VoIP ? Aux Etats-Unis, cette réglementation se décide au
niveau de chacun des Etats, de sorte que des opinions contradictoires sur VoIP
ont été émises. Ce désordre n'est pas favorable à l'extension internationale de
VoIP, car il tend à soutenir la position des exploitants historiques qualifiés
de "dinosaures" par les partisans de VoIP. Pourtant, parmi cela, ils
y en a qui offrent déjà des applications VoIP car ils ont compris que
l'objectif d'un exploitant dynamique est de créer de la valeur ajoutée !
L'Europe
semble avoir une attitude plus souple à cet égard que les Etats-Unis. Bruxelles
se montre plus sévère pour les exploitants qui ont pris une position dominante
(les exploitants dits "puissants") que pour ceux qui s'essaient au
développement de nouveaux services. VoIP devrait logiquement trouver un terrain
favorable en Europe, poussé par l'essor des réseaux d'accès numériques.
Malheureusement,
il y a loin de la théorie à la pratique et pendant que certains traitent de l'évolution possible des notions
juridiques du service universel au XXIème siècle, considéré comme un obstacle
majeur, les spécialistes en normalisation ont abandonné leurs études sur le
VCoDSL (Voice Channelization on DSL), jugées commercialement
"lourdes et inopportunes " !
C. VoIP chez les exploitants de réseau :
Chacun peut imaginer qu'un
exploitant historique ne tournera pas le dos à une innovation qui, concurrence
ou pas, peut lui rapporter beaucoup d'argent. La plupart des exploitants
historiques ont construit leurs réseaux pilote en IP et depuis plusieurs
années, les industriels ont été sollicités pour résoudre les problèmes
identifiés. Cisco, par ses nouveaux équipements, a été à l'origine de la
nouvelle attitude des exploitants. Il est d'ailleurs plus facile et plus
rentable à se propos de se servir d'un réseau fédérateur en IP, qui est capable
de tout avaler, la voix, les données, les images, etc. que d'utiliser des
morceaux de réseau disparates. Les investissements sont en général modérés, car
les exploitants historiques disposent en général de forte disponibilité en
capacité de transport. Le protocole SIP (Session Initiation Protocol) fait le
travail nécessaire. Et l'avenir apportera de nouvelles opportunités.
MCI, qui utilise un réseau
fédérateur en protocole IP, l’exploite déjà pour 10 % de ses appels vocaux et
vise les 25 % d'ici la fin de l'année 2004, et entend progresser davantage les
années suivantes. De même, Verizon construit un réseau fédérateur en IP avec le
même objectif. Et bien d'autres, pourtant cotés en Bourse, ne claironnent pas
leurs efforts dans ce sens.
D. Développements prévisibles :
Beaucoup de
développements techniques se sont produits dans un passé récent et il a
toujours été difficile de formuler des prévisions sur ce qu'il est susceptible
de se produire dans le domaine des communications. Mais VoIP est sans doute
l'un des fleurons des applications de la technologie numérique qui devrait
engendrer, dès 2004, de nombreux développements dans les réseaux et dans notre
société.
Il y a deux
types de statistiques à rapprocher. D'abord, on estime que le nombre
d'utilisateurs de VoIP sur des connexions à haut débit devrait atteindre les
200 000 dans le monde et 20 000 en Europe. Le Japon est plus optimiste et
estime que son parc actuel de 2,3 millions de terminaux IP en usage à la fin de
2002 parviendra au chiffre de 23 millions dès 2007.
Malgré
l'incohérence du rapprochement de ces chiffres, on remarque que la croissance
de l'usage de VoIP semble être corrélée à la croissance du parc d'ordinateurs
et des terminaux mobiles de troisième génération. Ceci ne fait pas encore de
VoIP un outil réellement efficace pour réduire la fracture numérique ou pour
élargir l'audience d'Internet.
Il y a donc
(et fort heureusement !) encore de nombreux problèmes à résoudre ! Au travail !
CONCLUSION
Jusqu’à très
récemment, les entreprises ou organisations qui migraient leur téléphonie
classique en téléphonie sur IP étaient plus ou moins considérée comme des
avant-gardistes, des pionniers, voire des fous. Mais maintenant, la Voix sur IP
est une réalité.
Le terme
« voix sur IP » a été utilisé de façon abusive par beaucoup de monde.
Nous avons vu les trois familles de Voix sur IP.
De plus en
plus nombreuses sont les sociétés qui optent pour cette alternative. En grande
majorité pour des réductions de coûts. Mais également pour améliorer leurs
systèmes d’information en englobant d’autres fonctionnalités que la simple
voix. C’est la cas notamment de la société INES.
Nous sommes à
un tournant majeur de la technologie Voix sur IP et il semble que la guerre qui
couve entre les Pro H323 et Pro SIP (le monde téléphonique et le monde IP)
risque de faire des dégâts. Entre le plus répandu et le plus prometteur en
terme d’évolution, bien fou celui qui se risquera émettre le moindre
pronostique.
Mais ce qui
est sûr, c’est que la Voix sur IP va prendre dans les années avenir une
proportion énorme par rapport au réseau classique téléphonique !
BIBLIOGRAPHIE
- Actes du JRESS 2003 (
Téléphonie et Visio)
- http://perso.club-internet.fr/f_bailly/interface/inter_voip.htm
- www.guill.net
- http://reseaucitoyen.be/index.php?VoiceOverIp
- http://www.urec.cnrs.fr/telip/telip-presentation/sld016.htm
- http://cric.grenoble.cnrs.fr/utilisateurs/visio/h323/h323.html
- www.chez.com/jaaayyy/html/ProjetSIP/SommaireSIP.html
- www.01net.com
- 01 Informatique n°1745