Language Naturel
Recherche de Documents : Language Naturel. Rechercher de 53 000+ Dissertation Gratuites et Mémoires1963, puis en 1988
– 7 bits (128 caractères) – universel : inclus dans les autres codes utilisés
– Codage :
• • • • • 0 à 31 : caractères de contrôle 32 à 47 : signes de ponctuation et opérateurs 48 à 57 : chiffres 0 à 9 65 à 90 : lettres majuscules (sans accent) 97 à 122 : lettres minuscules (sans accent)
– Textes de la langue anglaise uniquement
Langage naturel
10
Codes normalisés (2)
ISO Latin n
– 8 bits (256 caractères) – 10 groupes
– ISO-8859-1 ou ISO-LATIN-1 ou LATIN-1 – Langues de l’Europe de l’Ouest : allemand, anglais, danois, espagnol, féroïen, finnois, français, islandais, italien, néerlandais, norvégien, portugais, suédois. – Compatible avec ASCII
Langage naturel 11
Codes normalisés (3)
UNICODE
– consortium Unicode (1989) : IS0 + constructeurs d’ordinateurs (Apple, IBM, Microsoft, etc.) – 16 bits (65 536 caractères)
ISO/IEC 10646
– 32 bits (4 milliards de caractères)
Compatibles avec ISO-LATIN-1
Langage naturel 12
Chaîne de caractères / Mot (au sens informatique)
s
s
s
Une chaîne de caractères est une séquence de caractères Un séparateur de mot est un caractère particulier de l’alphabet qui permet de délimiter le mot Un mot est une séquence de lettres comprise entre 2 séparateurs de mots consécutifs
Langage naturel
13
Phrase (au sens informatique)
s
s
Un délimiteur de phrase est un caractère particulier de l’alphabet qui permet de délimiter la phrase Une phrase est une séquence de caractères comprise entre 2 séparateurs de phrases consécutifs
Langage naturel
14
Texte et Tris
s s s s s
Un texte : une série de caractères codés par des nombres Une occurrence : une apparition d’une chaîne de caractères dans un texte Fréquence : nombre d’occurrences Hapax : fréquence 1 Tris
– liste de fréquence : listes des occurrences accompagnées de leur fréquence – Autres listes : liste alphabétique, liste de première apparition
Langage naturel
15
Loi de Zipf
Dans les années 30, un scientifique de l'université de Harvard, G.K. Zipf, a montré qu'en classant les mots d'un texte par fréquence décroissante, on observe que la fréquence d'utilisation d'un mot est inversement proportionnelle à son rang, r. Cette loi peut s'exprimer de la manière suivante : Fréquence d'un mot de rang r = (Fréquence du mot de rang 1) / r
Langage naturel 16
Loi de Zipf
Langage naturel
17
Plan de l’exposé
s s s
Les bases Application bluffante : ELIZA (1966) Recherche de motifs
s Expressions rationnelles s Automates à états finis
Langage naturel
18
Eliza (J. Weizenbaum, MIT, 1966)
Simulation de dialogue écrit entre un psychothérapeute et un patient Le psychothérapeute est un ordinateur
Langage naturel
19
Eliza : exemples
s
s s
s s
Bonjour, je suis votre psychothérapeute. Parlez moi de vos problèmes. Je suis très angoissé. Pourquoi dites-vous que vous êtes très angoissé ? C’est à cause de ma femme. Parlez-moi de votre famille.
Langage naturel
20
Eliza : exemples
s s
s s
J’adore mes enfants. J’aimerais que vous me parliez de vos relations avec vos enfants. Personne ne m’aime. Est-ce que ça vous ennuie que personne ne vous aime ?
Langage naturel 21
Eliza : exemples
s s
s
Oui, je me sens seul. Votre vie sexuelle y est peut-être pour quelque chose. Continuez sans crainte. ...
Langage naturel
22
Eliza : Analyse de l’exemple
s
Bonjour, je suis votre psychothérapeute. Parlez moi de vos problèmes.
– Texte figé qui commence tout dialogue
s
Je suis très angoissé.
– Réponse libre du patient – Stockée dans une variable R1
s
Pourquoi dites-vous que vous êtes très angoissé ?
– Pourquoi dites-vous que R1 ? Langage naturel – transformation : je suis → vous êtes
23
Eliza : Analyse de l’exemple
s
C’est à cause de ma femme.
– Réponse libre du patient qui contient le mot « femme »
s
Parlez-moi de votre famille.
– Ordre systématique du psy dès que la réponse précédente contient un mot de la liste : femme, mari, mère, père, etc.
Langage naturel
24
Eliza : Analyse de l’exemple
s
Oui, je me sens seul.
– Réponse libre du patient qui ne contient rien de spécial
s
Votre vie sexuelle y est peut-être pour quelque chose. Continuez sans crainte.
– Réponse du psy quand il ne sait plus trop quoi dire
Langage naturel
25
Bilan sur Eliza
s s
s
Application bluffante L’ordinateur ne comprend RIEN aux interventions du patient. Ses réponses : activation d’une des centaines ou milliers de réponses préenregistrées
par la technique de recherche de motifs
Langage naturel 26
Recherche de motifs
s s
Expressions régulières/rationnelles Automates à états finis
Langage naturel
27
Expressions régulières
s s
Un langage formel pour décrire les chaînes de caractères Comment rechercher l’une de ces chaînes ?
– valise – valises – Valise – Valises
Langage naturel 28
Expressions régulières
s s s
Délimiteur d’expression régulière / / Syntaxe Perl (compatible JavaScript) Classe de caractères [ ]
Correspondance Valise ou valise a ou b ou c N’importe quel chiffre Formes « Valise » « valise » « le 1er janvier »
29
Regexp /[vV]alise/ /[abc]/ /[1234567890]/
...