DissertationsEnLigne.com - Dissertations gratuites, mémoires, discours et notes de recherche
Recherche

Analyse et codage de la parole

Rapports de Stage : Analyse et codage de la parole. Rechercher de 53 000+ Dissertation Gratuites et Mémoires
Page 1 sur 9

al sur un

modèle. Celui-ci possède un ensemble de paramètres numériques, dont les

plages de variation définissent l'ensemble des signaux couverts par le modèle.

- Modèle Multituyau :

Conduit vocal est un tube acoustique de forme complexe, pour comprendre son fonctionnement, on va le considérer comme un tuyau sonore.

Pour calculer la propagation d'une onde acoustique dans le tuyau, on suppose que celui est Cylindrique (Aire constante). Que les parois sont rigides (pas de vibration). La propagation se fait par Ondes planes (1D) Fréquence inférieur à 4k Hz . Ensuite, le processus est adiabatique c'est à dire qu'il n'y a pas de perte par conduction thermique.

Modèle Source-filtre :

Le signal de la parole est décomposé en trois signaux temporels :

L'excitation vocale due à l'expulsion de l'air par les poumons et la vibration des cordes vocales. La réponse impulsionnelle du conduit vocal (gorge). La réponse impulsionnelle de la composante de rayonnement aux lèvres.

Cf photos schéma Zambett

Modèle de l'excitation: En plus de la partie filtre du modèle de prédiction linéaire (dt on parlera tt de suite après), il faut aussi calculer la partie « source » du signal.

Ce modèle se base sur les sons voisés ou non voisés pour chaque fenêtre d'analyse.

Pour un son voisé, l'excitation est un train périodique d'impulsions, séparèes par la période fondamentale (cf schéma 1.9)

Pour un signal non voisé, l'excitation est un bruit blanc gaussien (cf schéma 1.8).

Remarque : Le mélange de ces deux sons (voisés et non voisés) est impossible.

Modèle Prédictif Linéaire

S’il existe de nombreux modèles de parole, il en est un que l’on retrouve partout,

et dans un nombre croissant d’appareils « grand-public » : le modèle prédictif

linéaire (LPC : Linear Predictive Coding).

De la même façon qu’un signal de parole réel est produit par le passage, à

travers le filtre que constitue notre conduit vocal, d’un signal d’excitation créé par

les poumons et les cordes vocales, ce même signal de parole peut être modélisé

par le passage d'un signal d’excitation numérique à travers un filtre numérique

récursif. Le signal d’excitation sera tantôt une suite d’impulsions numériques (qui

serviront à simuler les impulsions de débit créées par les cordes vocales) tantôt

du bruit numérique (qui reproduira le souffle poussé par les poumons).

Ce modèle est appelé « prédictif linéaire » en raison du fait qu’il correspond à

une régression linéaire très simple entre le signal d’excitation et le signal vocale

produit. Les coefficients de cette régression linéaire sont les coefficients du filtre

numérique récursif.

Les paramètres du modèle LPC sont tout simplement : la période du train

d'impulsions (sons voisés uniquement), la position de l’interrupteur

Voisé/NonVoisé (V/NV), le gain de l’amplificateur σ, et les coefficients du filtre

numérique de synthèse.

Cf schéma LCP

La prédiction linéaire s'appuie sur la corréaltion existant entre les échantillons adjacents du signal de parole. Si on connait le nombre d'échantillion P jusqu'à l'instant N-1 on peut à partir d'un échantillon prédire l'échantillion suivant (Sn).

II- Analyse de la parole

A) Transformée de Fourier: Spectogramme

La nature du signal de parole conduit à l'utilisation de descriptions de type Temps-Fréquence. En effet, pour que le signal vocale puisse véhiculer un contenu linguistique, l'évolution dans le temps du spectre est une condition nécessaire.

L'analyse par spectogramme a pour objectif de connaitre l'évolution temporelle du spectre de la parole. Il est aujourd'hui calculé par transformée de fourier à court terme.

A partir du signal temporel x(to), on va définir un signal à court terme x(t,to) qui représente un temps t, le signal vu à travers la fenêtre d'analyse w centrée en t.

x(t,to) = x(to) * w(t – to).

Voir formule 1.70+ faire schéma

B) Par ondelettes

Une ondelette, c'est une petite onde (ou vague) qui possède un début et une fin. La transformée en ondelettes est une méthode "Temps-Echelle". Le signal est représenté par une somme de fonction obtenue par translation ( aux instants to) et dilatation temporelle (par les facteurs a) d'une fonction prototype.

Ce type d'analyse permet de vérifier si il n'y a pas de discontinuité dans le signal et donc qu'il n'y a pas de fermeture glotique.

→ expliquer avec schéma 1.10

Par analyse cepstrale

Le cepstre complexe du signal de la parole est un autre signal noté S(n), tel que sa transformée en z soit le logarithme de celle de S : voir formule 1.95

Exemple de cepstre pour la voyelle /a/ 1.11

De plus, etant donné que le logarithme transforme un produit en somme, le cepstre peut également être utilisé pour la déconvolution (séparation du signal) entre source et filtre.

III Codage

A) Principe du codage CELP

Les codeurs CELP sont basés sur le principe du codage prédictif qui consiste à éliminer la redondance due à la corrélation du signal par la suppression de sa prédictibilité. L'erreur de prédiction est la différence entre l'échantillon réel et sa prédiction, souvent appelé signal résiduel. L'idée principale du codage CELP vient précisément de la nature du signal résiduel. Celui-ci démuni de corrélation entre échantillons ressemble fort à un bruit blanc même si sa puissance moyenne est variable à cause de la non-stationnarité de la parole.

Il est possible de reproduire la parole avec un nombre restreint de morceaux de bruits blancs

Cf schéma 2.1 de Schroeder et Atal

explication : Si on passe le résidu dans le filtre de synthèse qui est l'inverse du filtre d'analyse , on obtient le signal original. Maintenant pour remplacer le résidu on va choisir une tranche de bruit blanc parmi les L tranches qui constituent le dictionnaire d'excitation et déterminer un gain adéquat de telle sorte que la différence entre la parole codée et l'originale soit minimisée.

B) Pour la bande téléphonique

En plus du CELP, il existe d'autres codeurs pour la parole en bande téléphonique comme le codeur multi-impulsionnel ou le codeur à excitation avec impulsions régulièrement réparties. Le principe de ces deux codeurs se rapproche de celui du CELP (donc on va pas en parler).

Le MBE (Multiband excitation) : Repose sur la structure harmonique du spectre de la parole. En effet, pour les sons voisés, les spectres présentent des harmoniques assez régulières, se situant à des fréquences multiples de la fréquence fondamentale. Donc il suffit de transmettre cette dernière ainsi que les amplitudes des harmoniques pour reproduire assez fidèlement le signal de la parole. Dans le MBE, la restitution de la parole se fait dans le domaine temporel en ajoutant entre elles, des sinusoïdes de fréquences et d'amplitudes différentes. Le codeur va séparer le signal en « sous-bandes » qui peuvent contenir une à plusieurs harmoniques. Si la structure harmonique est distinguable, le codeur la classe comme étant voisée et la restitution de la parole se fera comme dit précédemment (sommation des sinusoïdes).

...

Télécharger au format  txt (12.5 Kb)   pdf (114.6 Kb)   docx (11 Kb)  
Voir 8 pages de plus »
Uniquement disponible sur DissertationsEnLigne.com