Voix IP


Introduction


Suite à l'explosion de la bande passante sur les réseaux IP et à l'avènement du haut débit chez les particuliers, de nouvelles techniques de communications sont apparues ces dernières années. L'une les plus en vogue actuellement, est ce que l'on appelle « Voix sur IP ».
L'expression « Voix sur IP » a tellement été galvaudée que donner une définition précise relève du parcours du combattant.

          Le développement de la voix sur IP est parti d’un constat simple : Comment faire en sorte d’utiliser les potentialités extraordinaires du réseau des réseaux Internet afin de téléphoner moins cher voir gratuitement ?

      Après des balbutiements anarchiques où les diverses solutions proposées (NetMeeting de Microsoft et CoolTalk de Netscape par exemple) étaient complètement incompatibles entre elles, la norme H323 a fait son apparition et a permit ainsi l’interopérabilité des différents systèmes s’appuyant sur cette technologie. Mais ce protocole issu des grands opérateurs nationaux est beaucoup moins flexible que le monde IP et beaucoup trop proche de la téléphonie classique pour une convergence globale des flux transportés. Ainsi est apparu quelques années plus tard le protocole SIP, issu cette fois ci des grands opérateurs Réseaux. Il est souple, évolutif et il a un grand avenir devant lui. Mais il souffre du fait de l’implantation majoritaire des solution à base de H323.

           La quelle de ses deux solutions protocolaire supplantera l’autre, tous le monde se lance dans les pronostiques les plus fous. Mais, il y a fort à parier qu’une fois encore les critères « Economiques » l’emporterons sur les critères « Technologiques ».

SOMMAIRE

I.      Généralités
A.    Qu'appelle t'on voix sur IP ?
a.     De poste informatique à poste informatique :
b.     De Poste informatique à téléphone (ou vice-versa):
c.     De téléphone à téléphone :
B.    Comparaison IP/X25
C.    Une donnée particulière : la voix
D.    Les enjeux
a.     Réduction des coûts d’appel
b.     Mutualisation des réseaux, simplification de l'architecture
c.     Prépondérance de la téléphonie et convergence voix-données
E.     Un cas concret : INES
a.     Prise de décision
b.     Ce que leur apportera la téléphonie IP
II.    Etat de l'art
A.    Le protocole H323
a.     Présentation générale:
b.     H.320 et H.323 :
c.     Les principaux apports de H.323 :
d.     Les fonctions :
e.     Le gatekeeper :
B.    Protocole SIP  (RFC 2543)
a.     Architecture de SIP
b.     Etablissement d’une communication en mode client serveur
c.     Les messages SIP
d.     LES EN-TETES SIP
e.     Exemple de transaction
III.       Perspectives
A.    Le challenge de la VoIP :
B.    Les difficultés de VoIP :
C.    VoIP chez les exploitants de réseau :
D.    Développements prévisibles :
CONCLUSION


BIBLIOGRAPHIE

I.      Généralités

A.     Qu'appelle t'on voix sur IP ?

Le terme générique VOIP (Voice Over Internet Protocole) est souvent utilisé dans son sens le plus général pour désigner toutes les solutions permettant le transport de la parole sur un réseau IP. On peut distinguer en vrac:

la voix sur IP : transport de la parole sur un réseau IP de type privé (intranet/extranet).
la voix sur Internet : le transport de la parole via Internet.
la téléphonie sur IP : en plus de la parole, les fonctions téléphoniques (signalisation, fax, multi appel) sur IP de type privé (intranet/extranet).
la téléphonie sur Internet : propose les services téléphoniques de base via Internet.

Les subtilités sont telles que nous retiendrons toutefois qu'il existe Trois grandes familles de Voix sur IP.

a.      De poste informatique à poste informatique :

Cela nécessite que les deux interlocuteur soient équipés informatiquement et dialoguent en utilisant de simple applications genre « NetMeeting » ou « Skype » utilisant pour cela un simple micro et des hauts parleurs. Ce genre de communication est gratuite exception faite du coût du logiciel.

b.     De Poste informatique à téléphone (ou vice-versa):

Cela nécessite la mise en oeuvre d'une passerelle soit au départ de l'appel soit a l'arrivée afin de faire transiter la communication d'un réseau IP à un réseau téléphonique. L'appel est taxé uniquement pour la traversée du réseau téléphonique. Ainsi, pour les appels internationaux, plus la proportion du segment IP est grande, plus l'économie réalisée sera importante.

c.      De téléphone à téléphone :

Lorsque l'appelant et l'appelé sont tous les deux sur téléphone, le réseau de transport devient transparent, cela nécessite la mise en oeuvre de plusieurs passerelle. La tarification dépend de l'opérateur, s'il s'agit d'un réseau privé, c'est gratuit. Mais c'est la solution qui permet le plus l'intégration voix données.
Le fait de mettre en œuvre des postes téléphoniques IP a engendré le terme TOIP (Telefony Over IP) qui est une « sous branche » de la voix sur IP mais qui est plus largement utilisée. Ainsi parler de téléphonie ou de voix sur IP bien que l’un soit plus spécifique que l’autre revient dans le langage courant au même.

B.    Comparaison IP/X25




C.    Une donnée particulière : la voix

La qualité de la voix comparée à celle de la vidéo est plus exigée par les utilisateurs. Tout service doit alors garantir une intelligibilité et une interactivité acceptable. Pour arriver à ce niveau de qualité, il est nécessaire d'analyser les problèmes rencontrés sur le réseau de transport (IP dans notre cas) et sur les équipements terminaux.
Le réseau IP à la base, n'était pas conçu pour les applications temps réels. Transporter la voix sur ces réseaux engendre alors des défauts de transmission que sont principalement le délai, la gigue, les pertes de paquets et l'écho.

Le délai ou latence :
C’est le temps que met la voix entre le moment ou elle est émise par les cordes vocales et le moment ou le tympan du destinataire se met à vibrer à l’autre bout de la « ligne ». Afin de garantir une communication active, il ne doit pas dépasser les 150 ms. Ce temps comprend le délai réseau (retard engendré par la propagation sur le support, la commutation et le séjour dans les files d'attente des routeurs, au séjour dans les tampons de compensation de gigue etc.) et des terminaux (temps de numérisation, de codage, de compression, de mise en paquet, de transmission, de décompression, de conversion numérique analogique, etc.)

La gigue :
C’est la variation de la latence. Dans une transmission par paquet, les routes utilisées ne sont pas les mêmes en fonction des paquets. Les routages se font de manière dynamique. Il n’est pas rare que des paquets prennent des routes différentes et que certains arrivent avant d’autre. Cet écart ne doit pas dépasser les 100ms.

La perte des paquets :
Afin de pouvoir assurer un temps de latence minimal, il est nécessaire que l’on ne perde pas de temps à réémettre des paquets perdus. Le protocole TCP a donc été écarté au profil du protocole UDP qui ne gère pas les demandes d’acquittement et de retransmission de paquets perdus ou erronés. C’est ce qu’on appelle un protocole sans correction d’erreur. Mais dans un soucis de qualité, il est tout de même préférable que le taux de perte n’excède pas les 20%.

L’écho :
Il résulte du passage d’une transmission dans un tronçon analogique (le reste étant numérique).  Il est causé par un changement d’impédance. Il s’agit d’un phénomène électrique que les passerelles doivent tant bien que mal gérer et qui ne doit pas dépasser les 50 ms

La bande passante :
La voix nécessite un débit de 64kb/s. En la compressant, on peut réduire ce débit à 5kb/s. Cela s’accompagne d’un abaissement de la qualité et d’une augmentation du temps de latence dû au rajout de la compression/décompression.

Illustration des différents problèmes relatifs à IP



D.   Les enjeux

Avec tant de problèmes technologiques, pourquoi donc s’escrimer à vouloir à tout prix utiliser le protocole IP afin de transporter la voix. Alors que les réseaux téléphoniques le font très bien et pour des coût en constante diminution ?

a.      Réduction des coûts d’appel

Dans le cas d’une communication via IP, il n’est facturé en terme de téléphonie que la transition sur les réseaux téléphoniques classiques. Ainsi que vous appeliez votre voisin ou bien un client à l’autre bout du monde, il ne vous en coûtera que le prix d’une communication locale. Ces solutions s’avèrent donc beaucoup plus avantageuses si vos appels téléphoniques  se font sur longue distance.

b.     Mutualisation des réseaux, simplification de l'architecture

Le réseau téléphonique d’une entreprise qui a choisi la Voix sur IP est dorénavant géré comme un réseau informatique. Il n’existe plus un réseau téléphonique et un réseau informatique mais belle et bien, un système d’information dans sa globalité qui s’avère bien plus facile à gérer. Il n’y a plus besoin que d’une équipe informatique qui gère l’ensemble. Cela permet également d’alléger les coûts d’infrastructure en terme de réseau capillaire (le câblage).

c.      Prépondérance de la téléphonie et convergence voix-données

Quelques soient les époques, le dialogue de vive voix a toujours été le mode de communication préféré des Hommes. Lorsque vous essayer de résoudre un problème à distance avec votre interlocuteur via des solution de messagerie instantanée par exemple, vous avez toujours plus ou moins envie de prendre le téléphone et d’appeler votre correspondant, meilleur interactivité, meilleur moyen de s’exprimer, rapidité également. Les téléphones peuvent maintenant appeler les Ordinateur et les ordinateurs appeler des téléphones. La communication s’en trouve ainsi encore facilitée. De plus, le nouveau cap à franchir est la convergence globale voix données. Beaucoup d’application son basée autour de la communication téléphonique. Votre messagerie ne comportera plus que des emails, mais également des messages enregistrés. La vidéo conférence se généralisera également.

E.    Un cas concret : INES

Ines Internet Evolutive Solution est une société dont l’activité principale est l’édition  de logiciels. Leur principal produit est la suite INES-FullWeb. Cette société est actuellement en pleine.
Ayant eu connaissance de leur volonté de migrer leur téléphonie sur IP, nous avons décidé de les rencontrer afin de connaître leur vision de la voix sur IP et de savoir quelles sont leurs attentes en la matière.

a.      Prise de décision

Lors d’un voyage d’affaire en Uruguay, Max Patissier, président d’Inès a pu rester en contact gratuitement avec ses collaborateurs restés en France. Il a utilisé pour cela Skype, une nouvelle application gratuite de voix sur IP Poste à Poste.


                 

Mais cette solution a montrée vite ces limites : comment appeler un client ou un future qui n’a pas forcément les logiciels d’installés.
Afin que cela soit transparent pour les appelants et les appelés, la solution Téléphonie IP s’est imposée d’elle-même.

b.     Ce que leur apportera la téléphonie IP

Dans le cadre de son évolution, Ines va déménager dans de nouveaux locaux tout en gardant les anciens. Une succursale est également en place en Uruguay. Les solutions VoIP leurs sont fournies par leurs opérateurs : LDCOM et COLT en collaboration avec leur fournisseur d’accès AIC.

Chaque site possédera une double connexion ADSL, l’une pour Internet et l’autre dédiée à la Voix sur IP afin de garantir un débit suffisant. Les communications inter sites se feront uniquement via un réseau intranet.

De plus un numéro spécial a été mis à leur disposition (0825 ### ###) qui permettra un routage automatique des appels entrants. En effet, ou que soient les clients dans le monde, ils appelleront un unique numéro qui selon la source aboutira soit en France, soit en Uruguay.

Ils attendent en outre de pouvoir, en fonction du numéro de l’appelant, voir apparaître directement leur fiche client sur leur écran avant même de décrocher. Ainsi que d’autres fonctionnalités qui restent pour l’instant confidentielles.

II.      Etat de l'art


Trois protocoles se partagent actuellement le marché de la voix sur IP. Il s’agit des protocoles MGCP/MEGACO, H323 et SIP. H323 et SIP ont chacun leurs avantages et leurs inconvénients. Il est impossible à l’heure actuelle de prédire qui sera le grand vainqueur final de la guerre acharnée que leurs promoteurs se livrent. MEGACO est quand à lui un peu a part se contentant uniquement de gérer les passerelles Monde IP / Monde Tel. C’est pourquoi nous n’en parlerons pas ici.

A.    Le protocole H323

a.      Présentation générale:

H.323 est un protocole de communication englobant un ensemble de normes utilisées pour l’envoi de données audio et vidéo sur Internet. Il existe depuis 1996 et a été initié par l’ITU (International Communication Union), un groupe international de téléphonie qui développe des standards de communication. Concrètement, il est utilisé dans des programmes tels que Microsoft Netmeeting ou encore dans des équipements tels que les routeurs Cisco.
Il existe un projet OpenH.323 qui développe un client H.323 en logiciel libre pour que les utilisateurs et les petites entreprises puissent avoir accès à ce protocole sans avoir à débourser beaucoup d’argent.

b.     H.320 et H.323 :

Le protocole H.323 est utilisé pour l’interactivité en temps réel, notamment la visioconférence (signalisation, enregistrement, contrôle d’admission, transport et encodage). C’est le leader du marché pour la téléphonie IP. Il s’inspire du protocole H.320 qui proposait une solution pour la visioconférence sur un réseau numérique à intégration de service (RNIS ou ISDN en anglais), comme le service Numéris proposé par France Telecom.
Le protocole H.323 est une adaptation de H.320 pour les réseaux IP. A l’heure actuelle, la visioconférence sur liaison RNIS est toujours la technique la plus déployée. Elle existe depuis 1990. Les réseaux utilisés sont à commutation de circuits. Ils permettent ainsi de garantir une Qualité de Service (QoS) aux utilisateurs (pas de risque de coupure du son ou de l'image). Aujourd'hui, c'est encore un avantage indiscutable. Par contre, comme pour le téléphone, la facturation est fonction du débit utilisé, du temps de communication et de la distance entre les appels.

c.      Les principaux apports de H.323 :

Définition des normes de compression des flux audio et vidéo que les équipements doivent nécessairement supporter.

Définition des protocoles de signalisation pour l'interopérabilité des équipements.

Limitation de la bande passante réservée pour chaque type de communication.

Indépendance vis-à-vis des applications et systèmes d'exploitation.

Indépendance vis-à-vis du réseau physique supportant la communication.


d.     Les fonctions :

L'architecture H.323 fonctionne selon une stratégie bout en bout qui lui confère une transparence vis-à-vis des évolutions du réseau. Elle s’appuie sur des protocoles de communications (RTP, RTCP, …), mais également sur des codecs audio (G.711 obligatoire,G723.1, G.728,…) et des codecs vidéo (H.261 et H.263).
Les fonctions dédiées à H.323 sont les suivantes :

Ø  Contrôle de la procédure d'appel : requête, établissement et suivi de l'appel.
Ø  Gestion des flux multimédias : liste de codecs recommandés ou obligatoires.
Ø  Gestion des conférences multipoint : modèle de conférence géré par une entité centrale.
Ø  Gestion de la bande passante : le gatekeeper devient un centre de contrôle et a les moyens de limiter les connexions et d'allouer la bande passante disponible.
Ø  Interconnexion à d'autres réseaux : ATM, RNIS, RTC.
Ø  H.323 définit quatre composants majeurs qui interagissent dans un réseau de paquets:

o   les "endpoints", qui initient un appel audio, vidéo ou visioconférence.
o   une passerelle ( "gateway" ) pour l’interaction avec un réseau téléphonique commuté
o   un élément optionnel ( "gatekeeper" ) qui permet la connectivité entre des équipements ISDN externes qui appellent dans le réseau de paquets pour atteindre un élément H.323.
o   les MCUs ( " Multipoint Control Units " ) pour la conduite de visioconférences en multipoints.





Les différents protocoles sont représentés ci-dessous par rapport à l’architecture H323 puis par rapport au modèle OSI :






La signalisation se fait avec les protocoles suivants :

Ø  RAS : Gère l’admission et l’état des communications.
Ø  Q.931 : Gère les appels et le raccrochage.
Ø  H.245 : Gère l’utilisation des canaux et leur capacité.

Des fonctions optionnelles sont également proposées par les protocoles H.235 (sécurité et authentification) et H.450.x (divers services supplémentaires).

e.      Le gatekeeper :

Un gatekeeper agit comme un moniteur de tout appel H323 dans la partie du LAN qu’il gère. Il fournit deux services principaux :

Ø  la gestion des permissions,
Ø  la résolution d’adresses.

Le gatekeeper est aussi responsable de la sécurité. Quand un client H323 veut émettre un appel, il doit le faire au travers du gatekeeper. C’est alors que celui-ci fournit une résolution d’adresse du client de destination.
Dans le cas où il y aurait plusieurs gateways sur le réseau, il peut rediriger l’appel vers un autre couple gateway/gatekeeper qui essaiera à son tour de router l’appel.
Pendant la résolution d’adresse, le gatekeeper peut aussi attribuer une certaine quantité de bande passante pour l’appel et sélectionne les codecs à utiliser. Il peut agir comme un administrateur de la bande passante disponible sur le réseau.
Le gatekeeper, de par ses fonctionnalités de routage et de sécurité, doit gérer ces gateways pour faire en sorte que tout appel atteigne sa destination avec la meilleure qualité de service possible.



Ainsi, le gatekeeper peut remplacer le classique PABX. Il est capable de router les appels entrant et de les rediriger vers leur destination ou une autre passerelle. Mais, il peut gérer bien d’autres fonctions telles que la conférence ou le double appel. Il n’existe pas les mêmes contraintes avec un gatekeeper qu’avec un PABX.

En effet, ce premier est administré de façon logiciel et l’opérateur peut implémenter autant de services qu’il le désire. Alors qu’avec un PABX, l’évolutivité est limitée par le matériel propriétaire de chaque constructeur.

Avec un gatekeeper, l’amélioration des services d’un réseau de téléphonie IP n’a pas de limites. Ci dessous, nous présentons le diagramme d’un établissement de connexion point à point avec H323. Le schéma ne s’appuie que sur les groupes de messages importants et ne détaille pas la négociation des codecs par exemple. Pourtant la négociation des codecs existe et le flux de données peut être contrôlé sur tout le réseau.

Dans cet exemple, Endpoint1 essaye d’appeler Endpoint2.




Commençons par comprendre les bases d’un appel point à point .
L’établissement d’appel se fait à 3 niveaux différents. Endpoint1 commence par établir une connexion TCP sur le port classique pour H323 (1720). Endpoint2 et Endpoint1 s’envoient alors des paquets Q931 sur cette connexion.
Durant cet échange, Endpoint2 et Endpoint1 envoient aussi un numéro de port temporaire et supérieur à 1024 qui servira pour les échanges H245. Si l’on respecte le standard, dès que la connexion H245 est établie, la connexion Q931 s’achève (sans envoi de message particulier), sans affecter le reste de la connexion H323. En pratique, la connexion Q931 est simplement laissée de coté.
La connexion H245 est établie par l’appelant sur le port temporaire négocié lors de la connexion Q931. H245 transmet tous les paramètres à utiliser lors de l’appel et négocie donc l’usage de tels ou tels codecs par exemple. H245 permet aussi d’établir la connexion UDP qui servira à la transmission de la voix (et de la vidéo).
En fait, une fois que les codecs et les autres paramètres de l’appel ont été négociés, la session H245 exécute une séquence d’opérations visant à ouvrir un canal de transmission en UDP (Open Logical Channel). Cette séquence permet de déterminer les adresses RTP et RTCP de l’envoyeur et du receveur ainsi que le port sur lequel se fera la transmission du flux de données (audio ou vidéo). On notera qu’avec H323, chaque canal logique est considéré comme une voie.
C’est à dire, que pour que deux personnes échangent de la parole, il faut ouvrir 2 canaux logiques : l’un pour aller de Endpoint2 vers Endpoint1 et l’autre pour aller de Endpoint1 vers Endpoint2. Aussi, le protocole RTP requière 2 connections UDP adjacentes. L’une des connexions est utilisée pour RTP (transport du flux de données), l’autre pour RTCP (contrôle des données) et qui est bidirectionnelle. Les ports utilisés par RTP et RTCP doivent être deux ports distincts, on choisit souvent n+1 comme port RTCP si le port RTP est n.
Comme nous pouvons le voir, l’établissement d’un appel n’a rien de trivial si l’on n'est pas familier avec les bases de la téléphonie classique. Mais ce type de protocoles assure une grande efficacité et une bonne qualité de service puisqu’ils utilisent les principes de la téléphonie classique. Ceci est une révolution dans le monde de l’informatique. Le problème est que cela complexifie le développement d’une plate-forme de téléphonie IP.
L'origine télécom de H.323 fait que son adaptation à IP est complexe et lourde à gérer ce qui la rend incompatible avec la simplicité du monde IP. C'est pourquoi, des recherches ont été effectuées sur des normes de signalisation mieux adaptées à la philosophie IP.


B.    Protocole SIP  (RFC 2543)

Le SIP (Session Initiation Protocol) est la nouvelle norme de communication IP. On le retrouve principalement dans la téléphonie IP, mais il sert également pour la vidéoconférence, l’indication de disponibilité, et la messagerie instantanée.

L’idée de départ du SIP était de développer un protocole englobant toutes les fonctions de traitement des appels actuellement offertes par le réseau téléphonique public commuté. Ainsi, le SIP gère les fonctions standard de signalisation téléphonique telles que la composition du numéro, la sonnerie, le signal d’appel et la tonalité qui indique lorsque la ligne est occupée.

Ce protocole a par ailleurs été conçu pour fournir de nombreuses fonctionnalités SS7 (Signalling System 7) de gestion des appels incluant les services de traduction de numéros, mais aussi des options beaucoup plus complexes telles que l’identification de l’appelant. De plus, puisque le SIP fonctionne avec un grand nombre de protocoles de transmission multimédia, il permet d’initier, de gérer et de terminer un large éventail de services multimédia.

Le protocole SIP permet de localiser les utilisateurs d’Internet et d’établir des sessions entre eux. Une « session » peut être un appel téléphonique basé sur IP, du « chat » via la messagerie instantanée, un partage de pages et de documents Web, voire une importante vidéoconférence réunissant des centaines de participants. Tandis que la plupart des protocoles utilisés sur Internet fonctionnent grâce à la connexion établie entre un client et un serveur distant, le SIP permet aux clients de communiquer entre eux.  Ainsi, un utilisateur équipé d’un ordinateur, portable ou non, ou même d’un PDA relié au réseau, peut établir une session multimédia directement avec un autre utilisateur.

Le SIP permet une interaction multimédia en temps réel, intégrant en toute transparence la voix, les données et la vidéo en une session spécifique. Par exemple, vous pouvez inclure dans une même session SIP, une vidéo conférence avec un groupe de collègues, la distribution de documents électroniques et l’envoi d’un message confidentiel instantané à l’un d’eux. Tout cela grâce à une connexion unique dédiée.

Chaque utilisateur SIP se voit attribuer une identité unique comparable à une adresse e-mail. Elle est utilisée par le serveur SIP pour l’identifier quel que soit le moyen de connexion au réseau utilisé. En pratique, cela se traduit par un accès à des services multimédia personnalisés et homogènes depuis quasiment n’importe où.

a.      Architecture de SIP

Pour établir et terminer des communications multimédia, SIP utilise les 5 fonctions suivantes :
User location : permet de localiser le poste terminal utilisé pour communiquer 
User capabilities : détermine quels média vont être échangés(voix, vidéo, données…) ainsi que les paramètres associés ;
User availability : détermine si le poste appelé souhaite communiquer et autorise l’appelant à la contacter ;
Call setup ou " ringing ": avertit les parties appelant et appelé de la demande d’ouverture de session (sonnerie ou message de réception d’appel) et mise en place des paramètres d’appel.
Call handling : gère le transfert et la fermeture des appels.
SIP permet l’ouverture de sessions entre :
2 utilisateurs  unicast : communication entre 2 stations. 
plusieurs utilisateurs en multicast : via une unité de contrôle M.C.U.(Multipoint Control Unit) .
plusieurs utilisateurs pleinement interconnectés en multicast via un réseau à maillage complet de connexions.


Notons que les utilisateurs reliés au Réseau Téléphonique Commuté Public (P.S.T.N. pour Public Switched Telephone Network) peuvent utiliser SIP car le PSTN est interconnecté au réseau des réseaux grâce à des passerelles (gateways).
L’architecture en couches de SIP, telle que la présente le modèle OSI, fait apparaître une palette de nombreux protocoles :

APPLICATIONS MULTIMEDIA
    AUDIO      VIDEO DONNEES 

SIP
RSVP RTP RTCP SAP SDP
UDP  TCP         
IP
SIP peut être également utilisé sur ATM(AAL5), X25 et frame relay.
A chacune des couches de l’architecture SIP sont associés des protocoles tels que :
Ø  RSVP est un protocole utilisé pour réserver les ressources réseaux sur IP avec une excellente qualité de service (QoS).
Ø  R.T.P.(Real-time Transport Protocol) pour transporter des informations en temps réel avec une excellente qualité de services.
Ø  R.T.C.P.(Real-Time streaming Control Protocol) pour assurer le contrôle de flux des données multimédia .
Ø  S.A.P.(Session Announcement Protocol) pour préciser si les sessions multimédia ouvertes le sont en multicast .
Ø  S.D.P.(Session Description Protocol) est un protocole de description des sessions multimédia.

b.     Etablissement d’une communication en mode client serveur

Pour établir une communication, l’appelant, que l’on désignera par client, adressera sa requête à un serveur SIP, qui lui donnera les moyens de communiquer. Seulement il existe 5 types de serveurs :
Ø  l’U.A.S.(User Agent Server) : c'est l'application du terminal d'abonné qui reçoit les requêtes et l'U.A.C.(User Agent Client) est l'application de ce même terminal qui émet les requêtes.
Ø  le relais mandataire ou P.S. (Proxy Server) : auquel est relié un terminal fixe ou mobile (lors de son déplacement, le terminal est relié au PS le plus proche et change constamment de PS) agit à la fois comme client et serveur. Un tel serveur peut interpréter et modifier les messages qu’il reçoit avant de les retransmettre.
Ø  le R.S.(Redirect Server) : réalise simplement une association (mapping) d’adresses vers une ou plusieurs nouvelles adresses ( lorsqu’un client appelle un terminal mobile - redirection vers le PS le plus proche - ou en mode multicast - le message émis est redirigé vers toutes les sorties auxquelles sont reliés les destinataires - ). Notons qu’un Redirect Server est consulté par l'UAC comme un simple serveur et ne peut émettre de requêtes contrairement au PS.
Ø  le L.S.(Location Server)fournit la position courante des utilisateurs dont la communication traverse les RS et PS auxquels il est rattaché : cette fonction est assurée par le service de localisation.
Ø  le RG(Registrar) est un serveur qui accepte les requêtes REGISTER et offre également un service de localisation comme le LS. Chaque PS ou RS est généralement relié à un Registrar.

L’ouverture d’une session à l’aide du protocole SIP peut s’effectuer de façon directe entre deux  User Agents jouant le rôle du client et du serveur ou  de façon indirecte au travers d’un serveur proxy. Dans ce dernier cas, le serveur à en charge la localisation du serveur B (Exemple II.2.1) dont l’adresse est passé dans le message INVITE. Dans le cas de changement de localisation , le serveur proxy est renseigné sur l’adresse de l’utilisateur à l’aide du serveur de localisation. Et le serveur proxy adresse un message 302 MOVE TEMPORARILY avec les nouvelles coordonnées de localisation.


c.      Les messages SIP

Un message SIP peut être à la fois une requête d’un client vers un serveur ou une réponse d’un serveur vers un client. Ces deux types de messages SIP utilisent le format suivant :

Ligne de requête ou ligne d’état
Entête de requête ou de réponse
CRLF : Balise indiquant le début de corps du message
Corps du message

Ø  Les requêtes :

Les méthodes utilisées par les requêtes SIP sont les suivantes :

- INVITE : indique que l’application ou utilisateur est invité à participer à une session. Le Corps du message contient la description de la session (média supportés par l’appelant entre autres).

- ACK : confirme que le client a reçu ue réponse définitive à une requête INVITE.

- OPTIONS : un PS en mesure de contacter l’UAS appelé, doit répondre à une requête OPTIONS en précisant ses capacités à contacter l’UAS.

- BYE : est utilisée par l’UAS de l'appelé pour signaler au PS local qu’il ne souhaite plus participer à la session.

- CANCEL : la requête CANCEL permet  d’annuler une requête non validée par une réponse finale d’état.

- REGISTER : cette méthode est utilisée par le client pour enregistrer l’adresse listée dans l’URL TO par le serveur auquel il est relié.

Ø  Les réponses :

Chaque réponse aux requêtes reçues est caractérisée par ce qu’on appelle un code et un motif , appelés respectivement Code d’état et Reason Phrase. Le motif étant la définition en clair du code d’état. Il existe  6 classes de réponses.

- 1xx = Information : la requête a été reçue et continue à être traitée ;
- 2xx = Succès : l’action a été reçue avec succès, comprise et acceptée ;
- 3xx = Redirection : une autre action doit être menée afin de valider la requête ;
- 4xx = Erreur du client : la requête contient une syntaxe erronée ou ne peut pas être traitée par ce serveur ;
- 5xx = Erreur du serveur : le serveur n’a pas réussi à traiter une requête apparemment correcte ;
- 6xx = Echec général : la requête ne peut être traitée par aucun serveur.

d.     LES EN-TETES SIP

Les différents champs d'en-tête qu'utilise SIP ne nécessitent pas d'ordre particulier sauf dans le cas de l'en-tête général Via où l'ordre des champs d'en-tête importe. En particulier, l'on distingue les champs d'en-têtes des message transmis saut par saut (c'est-à-dire qui sont interprétés et peuvent être modifiés ou ajoutés par tous les serveurs qu'ils traversent) des en-têtes des messages transmis de bout en bout (interprétés par les émetteurs et destinataires uniquement et non modifiables par les serveurs traversés). Les champs d'en-tête saut par saut doivent apparaître avant les champs d'en-tête de bout en bout. Les PS ne doivent pas réordonner les champs d'en-tête mais peuvent ajouter éventuellement des champs Via ou autres champs de type "saut par saut".
Chaque méthode (ACK, BYE, CANCEL, INVITE, OPTIONS, REGISTER) requière, ne supporte pas ou supporte de façon optionnelle certains champs d'en-tête. Par exemple, les champs d'en-tête CALL-ID, Cseq, FROM, TO et Via sont requis par toutes les méthodes (dans le cas de la méthode OPTIONS, il faut ajouter en plus le champ d'en-tête Allow ). Ces champs d'en-tête sont de type "de bout en bout".
Il existe 4 types de champs d'en-tête:
Ø     En-tête général s’applique à la fois aux messages de requête et de réponse : Accept ou Accept-Encoding ou Accept-Language ou CALL-ID ou Contact ou Cseq ou Date ou Encryption ou Expires ou From ou Record-Route ou Timestamp ou To ou Via
Ø     En-tête d’entité définit le type d'informations contenues dans le Corps du message ou la ressource identifiée par la requête en l'absence du Corps du message : Content-Encoding ou Content-Lenght ou Content-Type
Ø     En-tête de requête  Le champ d'en-tête de requête autorise le client à ajouter des informations concernant sa requête et lui même à destination du serveur : Authorization ou Contact ou Hide ou Max-Forwards ou Organization ou Priority ou Proxy-Authorization ou Proxy-Require ou Route ou Require ou Response-Key ou Subject ou User-Agent
Ø     En-tête de réponse Le champ d'en-tête de réponse autorise le serveur à ajouter des informations concernant sa réponse, qui ne peuvent pas être placées dans la ligne d'état, sur lui même et sur l'accès à la ressource identifiée par la requête URI : Allow ou Proxy-Authorization ou Retry-After ou Server ou Unsupported ou Warning ou WWW-Authenticate.
Contrairement aux protocoles standards tels que IP ou TCP, où le format des paquets ou segments est bien déterminé, le format des messages SIP n’est pas standard. Les champs d’en-tête sont choisis " à la carte " selon un panelle de champs. Lorsque les messages SIP sont transportés par UDP, avec authentification et une description de session complexe, il arrive que la taille du message SIP de requête ou réponse dépasse la MTU.
Pour résoudre ce problème, un format compact a été défini utilisant des abréviations pour certains champs.

e.      Exemple de transaction

Pour faire appel à SIP, l’application de l’UAC appelant envoie une requête INVITE au Proxy Server (PS) auquel il est relié. Ce serveur, via d'autres PS, transmet cette requête à l'UAS auquel est relié l’appelé. Cette requête demande à l’appelé s’il veut rejoindre un forum de discussion, assister à une visioconférence ou établir simplement une communication privée avec l’appelant. Si l’appelé est d’accord, il renvoie une réponse OK (code 200) à l’appelant qui confirme alors qu’il a bien reçu la réponse de l’appelant. Pour cela, il envoie une requête ACK, acquittement (acknowledgement) à l’appelé. De la même manière, si l’utilisateur souhaite se déconnecter, l’application de l’utilisateur émet une requête BYE au lieu de ACK.
La requête INVITE contient la description de la session ouverte qui stipule quels sont les médias et formats des messages SIP utilisés (protocole SDP). Pour une communication unicast, la requête INVITE précise les types de média et formats que l’appelant utilisera et vers où il souhaite que les données soient envoyées. Si l’appelé est d’accord avec cette description, sa réponse contiendra les mêmes paramètres(toutes les requêtes et leur réponses ont le même Call-ID) . En multicast, l’appelé répondra que si sa description est différente.
Ø  Exemple de fonctionnement d’une requête INVITE en mode Proxy Server(PS)



1)      Le client appelant (UAC) envoie au PS une requête INVITE  avec l’adresse SIP du destinataire henning@columbia.edu
2)      Le PS contacte le Location Serveur et lui fournit toute ou une partie de l’adresse SIP du destinataire : henning;
3)      Le PS obtient alors une adresse plus précise  hgs@play.
4)      Le PS envoie une requête INVITE au serveur destinataire dont l’adresse lui a été fournie par le service de localisation du Location Server : play;
5)      L’UAS du destinataire avertit l'appelé;
6)      Et retourne au PS de l'appelant l’accord du destinataire pour communiquer par une réponse OK (code 200);
7)      Ce PS retourne alors au client appelant l’accord du destinataire.
8)       La réception de l’accord du destinataire est acquittée par le client appelant par une requête ACK.
9)      Cet acquittement est transmis directement à l’appelé ;
10)  Communication établie.
Ø  Exemple de fonctionnement d’une requête INVITE en mode Redirect Server




           
1) Le client appelant (UAC) envoie une requête INVITE au redirect serveur (RS) avec l’adresse destinataire.
2) et 3) Le RS contacte le Location Server qui lui fournit l’adresse du serveur destinataire : columbia.edu.
4) Le RS renvoie au client appelant la nouvelle adresse par une réponse Moved (code 302) signalant que le terminal destinataire a changé de PS.
5) Le client appelant envoie une requête ACK au RS pour aquitter .
6) Puis ce client envoie une requête INVITE au serveur du destinataire. Cette requête possède le même Call-ID que la première mais son numéro de séquence Cseq est plus élevé.
7) Le PS du destinataire avertit l'UAS de l’appelé, qui retourne au PS son accord pour communiquer par une réponse OK (code 200).Le PS retourne au client appelant l’accord du destinataire.
9) La réception de l’accord du destinataire est acquittée par le client appelant par une requête ACK,
 Cet acquittement est transmis directement à l’appelé.
Nous venons de voir, à travers ces 2 exemples que si certains paramètres de la session doivent être changés, un nouveau INVITE est émis tout en conservant le Call-ID mais un Cseq plus grand doit être utilisé.  Pour localiser un utilisateur SIP, notons d’abord qu’un terminal utilisateur peut constamment se déplacer. Sa position doit être enregistrée dynamiquement par un location server. Un tel serveur enregistre plusieurs positions pour un même terminal, qui est relié à plusieurs PS à la fois lorsqu’il se déplace (les PS les plus proches). Lorsqu'un serveur SIP interroge son location server, il établit une liste des postions possibles de l’utilisateur à partir des résultats reçus. Cette liste contient 0 position ou plus. Pour communiquer sa nouvelle position au serveur SIP, le terminal de l’utilisateur lui envoie une requête REGISTER.


III.      Perspectives

A.    Le challenge de la VoIP :

L'application "voix sur IP" peut s'intégrer aux offres de réseaux privés virtuels des entreprises, ou bien elle peut être ouverte à tout utilisateur de poste téléphonique ordinaire, ou d'ordinateur connecté à un réseau public. Cette multiplicité de choix explique la confusion des jugements de valeur qui sont émis aujourd'hui encore en faveur ou contre l'usage de la téléphonie sur Internet.
Il est certain que l'évolution des réseaux conduit à un changement des usages. Nous passons très progressivement du règne des classiques réseaux publics en commutation de circuits à l'émergence de la technologie des réseaux en mode paquets, dont l'évolution est encore loin d'être achevée et dont les performances devraient progressivement s'améliorer. La téléphonie sur Internet ouvre donc des applications nouvelles qui vont conduire l'évolution des réseaux IP.
De plus, la communication de type vocal étant l'une des applications de communications les plus exigeantes en qualité de service, les réseaux de paquets en IP doivent évoluer (techniquement et économiquement) pour rendre cette application acceptable en toute circonstance et en tout lieu, quel que soit le réseau et la chaîne de connexion utilisés. Des classes de service de VoIP sont en cours d'étude, offrant des délais de transmission variés. L’Union Internationale des Télécommunications (UIT-T G114) a fixé la limite entre service téléphonique et transport de la voix à 150ms.

Nom
Latence
Utilisation recommandée
Class 1
0 à 150 ms
Communications normales
Class 2
150 à 300 ms
Bidirectionnel peu interactif
Class 3
300 à 700 ms
Half Duplex
Class 4
700 à   +   ms
Radio Amateur et militaires.

Aujourd'hui, vu sous l'aspect global, le marché semble s'orienter vers l'interconnexion permanente de tous les systèmes possibles au coût le plus faible, de façon à faciliter le transfert d'informations en tout lieu vers toute personne qui le souhaite, ouvrant ainsi les possibilités d'achats et de ventes de marchandises ou de biens au meilleur prix. La connectivité permanente à haut débit (supérieur à 200 ou 400 kbit/s selon les auteurs) devrait permettre des applications voix, données et images propices au télétravail, à la télémédecine (e-health), au téléenseignement (e-education), à l'aide de la gestion des collectivités (e-gouvernment), etc.
La première étape qui précède ces projets grandioses concerne l'adaptation de chacun des réseaux d'accès régionaux aux techniques de haut débit les plus appropriées, compte tenu de la densité d'usage en hauts débits (Gbit/s / km2) et de la répartition des populations visées.
Ensuite, vient le choix des protocoles de communications adaptés aux applications sélectionnées, opération qui s'effectuera progressivement dans le temps, après plusieurs évolutions, probablement.

B.    Les difficultés de VoIP :

Plusieurs problèmes subsistent pour le développement de VoIP. La VoIP demande l'emploi de terminaux spéciaux qui sont encore coûteux. La numérotation des terminaux VoIP doit être gérée par un bureau unique et en général, un préfixe commun (le 050, au Japon par exemple) leur est alloué, encore à titre provisoire.
Dernier inconvénient majeur connu, les services d'urgence demeurent seulement joignables par le réseau classique. Les abonnés sont astreints à conserver le terminal classique pour la réception des appels non-VoIP. Le statut d'exploitant de service vocal sur IP ne peut donc pas couvrir un service qui est attaché à des obligations de service public. Pas question également de parler de "service universel" ! VoIP demeure encore considéré juridiquement comme un service d'information de données sur liaison à haut débit. La question aujourd'hui est de savoir si VoIP doit recevoir un statut particulier, avec des contraintes inhérentes, ou bien, s'il est préférable de ne pas imposer de réglementation sur cette application. La réglementation pourrait simplement accepter que le paiement ne se fasse plus à la durée, mais sur la base d'une contribution fixe mensuelle attachée à la valeur d'un débit permanent délivré.
Comment doit-on considérer un fournisseur d'accès à Internet qui proposerait des accès de téléphonie en VoIP ? Aux Etats-Unis, cette réglementation se décide au niveau de chacun des Etats, de sorte que des opinions contradictoires sur VoIP ont été émises. Ce désordre n'est pas favorable à l'extension internationale de VoIP, car il tend à soutenir la position des exploitants historiques qualifiés de "dinosaures" par les partisans de VoIP. Pourtant, parmi cela, ils y en a qui offrent déjà des applications VoIP car ils ont compris que l'objectif d'un exploitant dynamique est de créer de la valeur ajoutée !
L'Europe semble avoir une attitude plus souple à cet égard que les Etats-Unis. Bruxelles se montre plus sévère pour les exploitants qui ont pris une position dominante (les exploitants dits "puissants") que pour ceux qui s'essaient au développement de nouveaux services. VoIP devrait logiquement trouver un terrain favorable en Europe, poussé par l'essor des réseaux d'accès numériques.
Malheureusement, il y a loin de la théorie à la pratique et pendant que certains traitent  de l'évolution possible des notions juridiques du service universel au XXIème siècle, considéré comme un obstacle majeur, les spécialistes en normalisation ont abandonné leurs études sur le VCoDSL (Voice Channelization on DSL), jugées commercialement  "lourdes et inopportunes " !

C.    VoIP chez les exploitants de réseau :

Chacun peut imaginer qu'un exploitant historique ne tournera pas le dos à une innovation qui, concurrence ou pas, peut lui rapporter beaucoup d'argent. La plupart des exploitants historiques ont construit leurs réseaux pilote en IP et depuis plusieurs années, les industriels ont été sollicités pour résoudre les problèmes identifiés. Cisco, par ses nouveaux équipements, a été à l'origine de la nouvelle attitude des exploitants. Il est d'ailleurs plus facile et plus rentable à se propos de se servir d'un réseau fédérateur en IP, qui est capable de tout avaler, la voix, les données, les images, etc. que d'utiliser des morceaux de réseau disparates. Les investissements sont en général modérés, car les exploitants historiques disposent en général de forte disponibilité en capacité de transport. Le protocole SIP (Session Initiation Protocol) fait le travail nécessaire. Et l'avenir apportera de nouvelles opportunités.
MCI, qui utilise un réseau fédérateur en protocole IP, l’exploite déjà pour 10 % de ses appels vocaux et vise les 25 % d'ici la fin de l'année 2004, et entend progresser davantage les années suivantes. De même, Verizon construit un réseau fédérateur en IP avec le même objectif. Et bien d'autres, pourtant cotés en Bourse, ne claironnent pas leurs efforts dans ce sens.

D.   Développements prévisibles :

Beaucoup de développements techniques se sont produits dans un passé récent et il a toujours été difficile de formuler des prévisions sur ce qu'il est susceptible de se produire dans le domaine des communications. Mais VoIP est sans doute l'un des fleurons des applications de la technologie numérique qui devrait engendrer, dès 2004, de nombreux développements dans les réseaux et dans notre société.
Il y a deux types de statistiques à rapprocher. D'abord, on estime que le nombre d'utilisateurs de VoIP sur des connexions à haut débit devrait atteindre les 200 000 dans le monde et 20 000 en Europe. Le Japon est plus optimiste et estime que son parc actuel de 2,3 millions de terminaux IP en usage à la fin de 2002 parviendra au chiffre de 23 millions dès 2007.
Malgré l'incohérence du rapprochement de ces chiffres, on remarque que la croissance de l'usage de VoIP semble être corrélée à la croissance du parc d'ordinateurs et des terminaux mobiles de troisième génération. Ceci ne fait pas encore de VoIP un outil réellement efficace pour réduire la fracture numérique ou pour élargir l'audience d'Internet.

Il y a donc (et fort heureusement !) encore de nombreux problèmes à résoudre ! Au travail !




CONCLUSION


Jusqu’à très récemment, les entreprises ou organisations qui migraient leur téléphonie classique en téléphonie sur IP étaient plus ou moins considérée comme des avant-gardistes, des pionniers, voire des fous. Mais maintenant, la Voix sur IP est une réalité.


Le terme « voix sur IP » a été utilisé de façon abusive par beaucoup de monde. Nous avons vu les trois familles de Voix sur IP.


De plus en plus nombreuses sont les sociétés qui optent pour cette alternative. En grande majorité pour des réductions de coûts. Mais également pour améliorer leurs systèmes d’information en englobant d’autres fonctionnalités que la simple voix. C’est la cas notamment de la société INES.


Nous sommes à un tournant majeur de la technologie Voix sur IP et il semble que la guerre qui couve entre les Pro H323 et Pro SIP (le monde téléphonique et le monde IP) risque de faire des dégâts. Entre le plus répandu et le plus prometteur en terme d’évolution, bien fou celui qui se risquera émettre le moindre pronostique.


Mais ce qui est sûr, c’est que la Voix sur IP va prendre dans les années avenir une proportion énorme par rapport au réseau classique téléphonique !



BIBLIOGRAPHIE


Actes du JRESS 2003 ( Téléphonie et Visio)
http://perso.club-internet.fr/f_bailly/interface/inter_voip.htm
- www.guill.net
- http://reseaucitoyen.be/index.php?VoiceOverIp
- http://www.urec.cnrs.fr/telip/telip-presentation/sld016.htm
http://cric.grenoble.cnrs.fr/utilisateurs/visio/h323/h323.html
- www.chez.com/jaaayyy/html/ProjetSIP/SommaireSIP.html
www.01net.com
- 01 Informatique n°1745