ANNEXE - L'INGÉNIERIE LINGUISTIQUE : UN SUJET D'ACTUALITÉ (ÉTUDE RÉALISÉE PAR LA DÉLÉGATION GÉNÉRALE À LA LANGUE FRANÇAISE)

Le dossier de l'ingénierie linguistique n'est pas un dossier familier du grand public. Il a longtemps été réservé aux spécialistes chercheurs et industriels du domaine. L'avènement de la société de l'information en fait maintenant un sujet d'actualité.

Dès l'apparition des premiers ordinateurs, des linguistes, comprenant l'intérêt qu'il pouvait y avoir à informatiser le langage, ont entrepris de le décrire à cette fin sous forme arborescente, ajoutant bientôt à ce modèle de description les ressources des mathématiques et de la statistique. On rêvait alors surtout de traduction automatique et universelle, tant pour constituer la structure européenne que pour servir, de part et d'autre du rideau de fer, les besoins de traduction de la veille technologique et militaire.

L'ingénierie linguistique est une première fois apparue dans le public avec l'apparition des micro-ordinateurs et la volonté des constructeurs d'élargir le marché de l'informatique en proposant des interfaces plus conviviales. Cela supposait de faire se rapprocher les modes de communication entre l'homme et la machine et le langage naturel et d'apporter des aides significatives à des utilisateurs non informaticiens. Aujourd'hui, des applications prenant en compte un traitement informatique du langage existent sur chaque ordinateur.

Mais, très récemment, le dossier de l'ingénierie linguistique est devenu un sujet de grande actualité. Les déclarations de M. Al Gore, vice-président des États-Unis, ont donné un tour politique et social aux avancées technologiques dans les domaines conjoints des télécommunications, de l'audiovisuel et de l'informatique. En effet, la maîtrise de la technologie de la fibre optique, les méthodes de compression et de décompression des images fixes et animées et l'augmentation exponentielle des capacités des micro-ordinateurs à coût égal permettent d'envisager pour la première fois un village global, qui à l'aube du troisième millénaire fait de la production, de la diffusion et de la disposition de l'information en temps réel, l'enjeu majeur des économies de demain.

Cette globalisation de l'information est un défi mais aussi une chance pour les langues. La société de l'information sera-t-elle monoculturelle et monolingue ou plurilingue et pluriculturelle ? Face à l'initiative américaine, l'Europe, à plusieurs reprises, a montré sa volonté de respecter le plurilinguisme sur les nouveaux réseaux de communication. Les conclusions du rapport fourni par le Commissaire Bangemann au Conseil européen de Corfou de juin 1994 et celles du sommet du G7 sur la société de l'information de février 1995 insistent sur l'importance de la diversité culturelle et linguistique que la société de l'information devrait respecter. En outre, les conclusions du Conseil « Affaires générales » du 12 juin 1995 sur la diversité et le pluralisme linguistique, adoptées à l'initiative de la présidence française du Conseil des ministres de l'Union européenne, insistent sur le rôle de la société de l'information dans la promotion du plurilinguisme.

Le développement de l'ingénierie linguistique contribuera au respect de la diversité linguistique en Europe. L'élaboration et la mise en service d'outils puissants d'aide à la traduction plurilingues, de recherche documentaire ou de consultation de banques de données plurilingues en langage naturel et dans la langue de l'utilisateur, sont un objectif essentiel des programmes de financement de la Commission européenne.

De la même façon, l'espace francophone a fait du traitement informatique du langage une de ses priorités, de même les réseaux panlatins. Nous assistons donc à une mobilisation mondiale, sans précédent, de la recherche et de l'industrie pour construire la société de l'information, maintenir ou acquérir une avance technologique, numériser, formater et mettre à disposition des contenus multimédias, créer des contenus de type nouveau, afin d'être présent de façon significative sur les marchés porteurs de demain. L'ingénierie linguistique est au coeur de cette bataille.

A. QU'APPELLE-T-ON INGÉNIERIE LINGUISTIQUE ?

1. Définition et historique du terme

Avant tout, quel terme utiliser ? Le terme « industries de la langue » est celui qui avait été choisi à la fin des années 80 par les opérateurs de la francophonie, qui espéraient alors que l'alliance inattendue des mots « industrie » et « langue » servirait de catalyseur psychologique et montrerait l'importance du dossier. Celui d'« ingénierie linguistique » est le terme le plus communément utilisé par les chercheurs. Il s'applique tout particulièrement à la recherche et au développement pour des produits et des applications complexes souvent dévolues aux gros systèmes. On trouve aussi chez certains le terme de « linguistique computationnelle ». L'avènement de la société de l'information et de sa problématique particulière nous fait préférer le terme de « traitement informatique du langage » qui définit la part du génie logiciel qui prend en compte le traitement informatique des langues naturelles, alliant à la fois les ressources linguistiques, la recherche et le développement et l'industrialisation de produits spécialisés et grand public.

2. Un développement parallèle de la technologie et des applications

Un des soucis constants des développeurs de systèmes d'exploitation et de logiciels est, d'une part d'augmenter la puissance et la rapidité de calcul des machines, d'autre part d'améliorer l'ergonomie des interfaces et de tenter pour cela de rapprocher les modes de communication entre l'homme et la machine du langage naturel.

Par exemple, tout traitement de texte grand public de dernière génération comporte une part de génie linguistique : ce sont les correcteurs orthographiques et grammaticaux, les dictionnaires de synonymes, les outils de césure. Ces outils, de plus en plus efficaces sont directement issus des études linguistiques entreprises depuis une cinquantaine d'années, associées à un codage informatique approprié.

Ces évolutions ont largement contribué à accroître la pénétration du marché de l'informatique, en permettant l'utilisation par de non spécialistes d'outils toujours plus puissants, à coût égal.

L'encodage de la langue, effectué à partir de descriptions toujours plus fines et plus complexes, demande aux machines toujours plus de mémoire et toujours plus de rapidité. Le développement des produits d'ingénierie linguistique s'effectue donc de façon conjointe avec celui des capacités du matériel informatique. Par exemple, il aurait été difficile, voire impossible, il y a encore cinq ans, de faire fonctionner les correcteurs orthographiques disponibles aujourd'hui sur tout poste de travail.

Enfin, dans la société de l'information et sur ses réseaux toujours plus vastes, interconnectés et plurilingues, la valeur ajoutée se situe chaque jour davantage dans la capacité à retrouver le plus rapidement possible l'information pertinente pour une tâche donnée. Cela donne au secteur de l'ingénierie linguistique une importance accrue, une place stratégique dans le développement des société modernes et en fait donc un enjeu économique et social majeur.

Il faut pour cela développer des systèmes de structuration de bases de données efficaces et interopérables, des systèmes de traduction assistée par ordinateur plus puissants, prenant en compte un plus grand nombre de langues, et comprenant des dictionnaires électroniques multilingues pourvus de tous les termes techniques nécessaires (d'où l'importance de la terminologie dans ce secteur), des systèmes de gestion et de recherche d'information dotés d'interfaces utilisables dans la langue de l'utilisateur et en langage naturel.

Les recherches en ingénierie linguistique s'orientent aussi vers le développement de systèmes vocaux permettant de travailler en milieu hostile ou d'apporter une aide décisive aux personnes handicapées.

3. Différents types de produits et d'applications

a) Les dictionnaires électroniques

Cette appellation recouvre des produits très divers. Ce sont aussi bien les petits traducteurs de poche bilingues, les dictionnaires grand public informatisés unilingues, en boîtiers ou disque compact optique, que de gros dictionnaires plurilingues utilisés par les services de traduction des grandes administrations européennes, par exemple. Toute une gamme de dictionnaires pour le français existe. En concertation avec le ministère de l'industrie, le ministère de la recherche, dans le cadre d'un projet européen, a promu un modèle de description de dictionnaire : GENELEX (cf. infra).

b) Les correcteurs orthographiques et grammaticaux

Les moins perfectionnés se contentent de comparer l'orthographe de chaque mot à partir d'un lexique intégré et de proposer pour chaque suite de lettres non reconnue, une suite de lettres approchante correspondant à un mot connu. Les correcteurs grammaticaux les plus perfectionnés procèdent à une analyse sémantique de chaque phrase ou de chaque paragraphe, qui prend en compte les erreurs d'accords et de syntaxe. Certains proposent même une réécriture des phrases afin qu'elles correspondent à des spécifications stylistiques requises (notes, rapports, fiches, ...).

c) Les logiciels de gestions de documents

On utilise ces outils pour classer et indexer un flux de documents, puis, à l'aide d'une interface, retrouver dans les documents classés et constitués en banques de données une information pertinente. Les outils les plus perfectionnés proposent des indexations automatiques, gèrent des documents multimédias et possèdent des interfaces en langage naturel sur textes entiers.

d) Les outils de traduction assistés par ordinateurs

Ces outils sont de plusieurs ordres. Certains proposent des traductions plus ou moins fines selon le champ d'application. Ils ont été conçus pour donner des traductions « brouillon » particulièrement utiles pour la veille technologique et militaire.

Une autre génération d'outils sont dits à mémoire de traduction. Ils proposent pour chaque phrase une première traduction, revue par un traducteur. Le système garde en mémoire la phrase finale traduite, qui peut être entièrement ou partiellement réutilisée pour des traductions ultérieures. Les pouvoirs publics ont participé à la promotion d'un projet européen EUROLONG ( cf. infra), et le produit issu de ce projet, commercialisé par une société française, a déjà été implanté en France dans plusieurs grosses entreprises.

e) Les systèmes de reconnaissance et de synthèse de la parole

Ils trouvent leurs applications dans les systèmes de dictée vocale, qui permettent de piloter un traitement de texte à la voix, de diriger une machine à distance... et qui ont trouvé des applications fructueuses dans le domaine de la bureautique mais aussi de la santé (radiologie particulièrement). Ils sont utilisés aussi dans les systèmes « intelligents » de diffusion d'informations orales.

4. Problématique et perspectives du secteur

Il est certain que tous ces systèmes sont appelés à devenir de plus en plus performants et d'usage courant. Leur utilisation permet des gains de temps appréciables et des productions de plus grande qualité.

Les produits et applications disponibles sont certes plus nombreux pour l'anglais que pour le français et les autres langues européennes. Cela tient au dynamisme de l'industrie américaine, à un marché plus vaste du fait de l'internationalisation de la langue anglaise et à un meilleur taux de pénétration des produits informatiques sur le marché américain. Cela tient aussi au fait que le traitement de l'anglais est plus aisé que celui du français (moins d'homophones, moins de dérivations de verbes, moins de caractères, ...)

Cependant, des produits pour le français existent, de qualité satisfaisante. Dans la problématique de ce secteur, il faut en effet distinguer le problème du traitement du français de celui de l'ingénierie linguistique française. Par exemple, les produits grand public qui existent pour le français : traitements de texte, dictée vocale, correcteurs, sont pour la plupart des produits fabriqués et diffusés par des entreprises étrangères. Ainsi, il n'y a que deux systèmes de dictée vocale présents sur le marché qui traitent le français, ils sont développés par IBM d'une part et une société anglaise, Dragon, d'autre part.

Le risque que le français ne soit pas traité informatiquement ne semble pas très grand. En revanche, il est le plus souvent traité par des entreprises étrangères, d'où un manque à gagner certain pour notre industrie, un risque de « fuite des cerveaux » de nos laboratoires de recherche au moment de la valorisation des prototypes.

En raison du caractère étroit du marché en langue française, il faut raisonner au plan européen et tirer parti de l'enjeu du pluringuisme pour acquérir des compétences, une expertise et un savoir-faire dans ce domaine et dans le même temps s'employer à accroître le marché de l'ingénierie linguistique dans l'espace francophone, particulièrement dans les pays du Sud.

B. L 'INGÉNIERIE LINGUISTIQUE EN FRANCE

Il est sans doute plus facile d'identifier avec précision les actions menées par l'État, dans ce secteur, dans le domaine de la recherche que dans le domaine industriel. En effet, la définition donnée plus haut montre que le génie linguistique n'est que partie du génie logiciel. Ainsi, à part quelques entreprises spécialisées, beaucoup d'autres utilisent une part de génie linguistique dans le développement de leurs services et produit. C'est particulièrement vrai pour ce que l'on nomme souvent « les grands utilisateurs ». L'automatisation des services à la clientèle à la SNCF ou à EDF par exemple, requiert des développements d'ingénierie linguistique, de même, l'installation d'ordinateurs de bord à synthèse vocale dans les véhicules.

1. Des programmes de Recherche et développement, l'action du ministère chargé de la recherche

L'action des pouvoirs publics dans le secteur de la recherche pour l'ingénierie linguistique est, principalement conduite par la direction de l'information scientifique et technique et des bibliothèques du ministère chargé de la recherche (DISTB). L'action de celle-ci s'effectue d'une part autour de projets et d'études financés directement à hauteur de 3 millions de francs en 1995, d'autre part autour des projets financés par le Fonds de la recherche et de la technologie (projets Eurêka d'initiative française), et enfin par la dotation d'organismes dans le cadre du PCRD. Ces derniers fonds permettent le fonctionnement, l'équipement, le versement des salaires des chercheurs d'une vingtaine de gros laboratoires de recherche associés à des départements d'université.

La France possède une très bonne expertise dans le domaine de la recherche et ses chercheurs ont une compétence reconnue. Ses centres de recherche en informatique appliquée à la langue sont performants.

Le programme d'action de la DISTB s'articule autour de trois axes principaux :

a) La création de ressources linguistiques réutilisables

ï La création de ressources lexicales standardisées, dans le cadre du projet Eurêka GENELEX (lancé en 1990), dont l'objectif est de réaliser un dictionnaire informatique multilingue utilisable dans toutes les applications linguistiques.

ï L'opération « outils terminologiques » (lancée en 1991 et reprise ensuite) dans le but d'assurer une meilleure couverture terminologique des grands champs d'activité scientifique et technique.

ï Le soutien à des activités de recherche et développement permettant à des sociétés d'ingénierie linguistique de renforcer leur offre en y intégrant certaines fonctionnalités complémentaires.

b) L'intégration des technologies linguistiques dans dessystèmes et produits avec :

ï L'opération « interface intelligente » (lancée en 1990 et reprise en 1992) dont l'objectif était de soutenir la réalisation d'interfaces en langage naturel pour faciliter l'accès aux banques de données ;

ï L'opération « ingénierie linguistique » (lancée en 1993) consacrée à la réalisation de systèmes de résumés et de génération de textes dans le domaine de l'information spécialisée ;

ï Le soutien à la réalisation d'un poste de traducteur technique fonctionnant sur plusieurs couples de langues avec le projet Eurêka Eurolang (lancé en 1991) ;

ï Le soutien à la réalisation de logiciels d'analyse automatique de textes dans les domaines de la médecine, du droit et des brevets ;

ï L'aide à la constitution d'une banque de données des sons du français en vue de réaliser des systèmes de reconnaissance vocale ;

ï Le soutien à la réalisation de postes de veille technologique et informationnelle ;

ï L'opération « audiotex » (lancée en 1991) qui a permis de soutenir la télématique vocale pour la diffusion d'informations scientifiques et techniques, notamment dans le domaine des brevets et des marques, de l'information juridique et des dépêches scientifiques.

c) Les actions d'accompagnement avec :


• En premier lieu, des actions de sensibilisation et de concertation avec les acteurs français du secteur pour affirmer leur présence dans les programmes communautaires, en particulier dans les programmes lancés par la DGXIII dans le cadre du 4ème programme cadre de Recherche et Développement actuellement en préparation ;

ï Des actions de soutien à la standardisation des ressources linguistiques en liaison avec l'AFNOR et différents groupes de travail ;

ï Le lancement d'études préparatoires en vue de définir des procédures d'évaluation pour faciliter l'intégration des outils de traitement de la langue dans les systèmes et produits d'information ;


• Le soutien à la réalisation d'études de veille technologique dans le domaine de l'ingénierie linguistique et documentaire et à l'organisation de colloques, congrès et séminaires contribuant à diffuser les résultats de la recherche vers l'industrie et sensibiliser les utilisateurs à ces technologies.

2. L'action du ministère de l'industrie et de l'ANVAR

Dans ce secteur de pointe, le lien entre la recherche et l'industrie est fort. Les actions s'effectuent donc dans le cadre d'une concertation interministérielle soutenue. Ce lien est particulièrement important dans les centres de recherche liés à de grands utilisateurs (EDF, SNCF, ...) ou à de grandes entreprises (Aérospatiale, Matra, ...).

Par ailleurs, des entreprises françaises d'ingénierie linguistique, Cap Sesa, GSI ERLI, Site Eurolang, par exemple, ont su trouver leur place sur les marchés européens et internationaux et s'insérer avec succès dans des programmes européens dont elles sont parfois pilotes.

Le marché de l'ingénierie linguistique représenterait en France 200 millions de francs de chiffre d'affaires répartis à 80 % vers l'indexation et la recherche documentaire et à hauteur de 15 % vers le marché de la traduction assistée par ordinateur, 5 entreprises spécialisées dans ce secteur ont plus de 20 employés. Le nombre d'emplois consacrés en France à ce secteur d'activités est cependant difficilement évaluable car le génie linguistique représente souvent une partie de l'activité de l'entreprise, voire une partie de l'activité d'un ingénieur informaticien.

Le marché est en forte croissance, 15 à 20 % par an. Il est fortement lié à la qualité de l'offre. Par exemple, le marché de la traduction assistée par ordinateur serait de dix à vingt fois supérieur si les produits offerts sur ce marché étaient plus robustes et plus performants.

a) Les projets Eurêka

Outre les projets GENELEX et EUROLANG, cités plus haut et mis en oeuvre avec le ministère de la recherche, le ministère de l'industrie a lancé le projet GRAAL en 1992, qui a pour but la réalisation d'une « boîte à outils » linguistique composée de différents modules grammaticaux dans une perspective multi-applications, et le projet MNEMOS, mémoire d'entreprise, à vocation documentaire.

Par ailleurs, l'ANVAR a lancé le projet CAROLUS, système intelligent et convivial de gestion électronique de documents multimédia plurilingue pour les entreprises.

b) Autres projets

Dans le cadre de la rénovation de l'administration, plusieurs projets ont été financés à hauteur de 5 millions de francs environ par des fonds mis à disposition par le CUBA.

En 1994, un appel à propositions du ministère de l'industrie, dans le cadre du « bureau du futur » a permis de financer plusieurs projets pour environ 5 millions de francs.

Hors les projets EUREKA, l'ANVAR, dans le cadre de son programme d'aides régionales, a aidé à hauteur de 10 millions de francs une dizaine de projets principaux dans les domaines de la reconnaissance de l'écriture, des dictionnaires électroniques et de la documentation électronique.

Le ministère de l'industrie, l'ANVAR et le CUBA ont consacré en 1995 environ 10 millions de francs à soutenir spécifiquement ce secteur d'activités, somme en légère baisse par rapport à celle allouée les années précédentes. Il faut cependant noter que de nombreux autres projets soutenus par ce ministère et l'ANVAR comportent des aspects d'ingénierie linguistique, qu'il est difficile d'évaluer financièrement.

Les produits d'ingénierie française sont pour la plupart dévolus aux gros systèmes informatiques et développés pour une entreprise à sa demande. Il n'y a quasiment pas de produits grand public. C'est sans doute une des raisons majeures du manque de visibilité actuel de ce secteur en France et de la lenteur de son développement. En effet, ces produits « gros systèmes » ont un cycle de vie plus long, leur commercialisation dépend étroitement de la conjoncture économique et de la capacité d'investissement des entreprises, alors que le marché grand public est de loin plus fluide, plus large et plus porteur mais dominé par des produits anglo-saxons.

3. La langue française et le traitement informatique du langage

a) La Délégation générale à la langue française

Jusqu'en 1989, le dossier était traité par l'association DAICADIF, (Centre de données audiovisuelles et informatisées pour la communication sociale, l'analyse et la diffusion en français) lié au Commissariat général à la langue française.

En 1989, le DAICADIF est devenu l'OFIL. Cette association a cessé progressivement d'avoir des liens directs avec la Délégation générale à la langue française.

L'OFIL publie « la Tribune des industries de la langue ».

La Délégation générale à la langue française a repris ce dossier et mène un certain nombre d'actions.

Il faut particulièrement veiller à ce que le français, et les autres langues à caractères latins qui utilisent des signes diacritiques : accents, « c » cédille, ... ne s'en voient pas privées lorsqu'elles circulent sur les réseaux. Cela suppose d'agir sur les normes.

La Délégation générale participe activement avec les ministères chargés de la recherche et de l'industrie, à un groupe de travail franco-québécois sur la normalisation des technologies de l'information dans leurs aspects linguistiques (NOTIAL), elle soutient par ailleurs des actions de l'AFNOR dans ce domaine au sein des organismes européens et internationaux de normalisation.

De plus, en collaboration avec les services informatiques du ministère de la culture, les opérateurs de la francophonie et des chercheurs universitaires, la Délégation générale s'emploie à favoriser la francisation des logiciels permettant l'accès à Internet, l'utilisation de messageries électroniques et l'accès aux banques de données.

Enfin, par-delà les actions techniques et normatives, la Délégation générale s'emploie à sensibiliser les prescripteurs, les opérateurs et les utilisateurs afin que des choix informatiques permettant l'utilisation d'un français correct soient effectués.

b) Une concertation entre l'administration et les professionnels : le Conseil Consultatif pour le traitement informatique du langage (CCTIL)

Dès 1993, conscients des enjeux nouveaux liés à l'informatisation du français, les ministres chargés de la francophonie, de la recherche et de l'industrie ont demandé à M. André Danzin, ingénieur et membre du Conseil supérieur de la langue française, d'étudier l'impact des nouvelles technologies sur les langues naturelles, afin notamment de proposer une politique nationale dans le domaine des industries de la langue.

Cette étude achevée en mars 1994 insiste sur l'importance des technologies de l'information pour l'avenir de la langue française.

Afin d'améliorer le pilotage de ce secteur où les compétences et les financements sont partagés entre le ministère de l'industrie et le ministère de la recherche, cette étude juge nécessaire d'amplifier et de mieux structurer l'effort de l'État et des organismes publics.

Elle propose la création d'une structure spécifique et autonome chargée des industries de la langue : l'Agence Nationale des Techniques de la Langue (ANTLA), de type établissement public, ou autorité administrative indépendante et définit ses missions et son organisation.

La mise en place d'un organisme tel que celui proposé par le rapport de M. Danzin ayant semblé difficile à court terme, les ministres ont préféré créer un conseil consultatif pour le traitement informatique du langage qui donnera un avis sur les orientations générales de la politique nationale dans ce domaine ainsi que sur les actions conduites dans les différents secteurs d'intervention identifiés par ce rapport.

Son secrétariat sera assuré conjointement par les ministères de la recherche, de l'industrie et la Délégation générale à la langue française afin d'assurer une bonne coordination ministérielle.

Ce Conseil consultatif a été créé par arrêté du 18 avril 1995. Le 10 mai 1995 un arrêté a porté nomination de ses membres, notamment des industriels des chercheurs et des universitaires. La présidence en a été confiée à M Danzin. Les ministres concernés procéderont à son installation le 17 octobre 1995.

Ce conseil jouera un rôle extrêmement utile. Sa composition permettra de bons échanges de vue entre les chercheurs, les industriels et l'administration. Le rapport annuel qu'il doit établir permettra d'afficher des priorités et de donner la visibilité qui manque à l'action de l'État en ce domaine.

4. Les autoroutes de l'information

a) L'appel à proposition

En 1994, le ministère de l'industrie a lancé un appel à propositions pour l'expérimentation de plates-formes et de nouveaux services sur « les autoroutes de l'information ». Le succès de cet appel à propositions et l'appel d'air qu'il suscite seront l'occasion de soutenir la recherche et le développement dans le domaine de l'ingénierie linguistique et de favoriser aussi l'émergence d'une demande solvable et la réalisation de contenus en français. Les projets retenus et qui devraient être labellisés avant la fin de l'année 1995, recevront une subvention équivalente au plus à 50% de leur coût en recherche et développement. 50 millions de francs sont réservés à ces subventions en 1995, 300 millions de francs en 1996. La part de l'ingénierie linguistique peut être évaluée à 10 millions de francs.

b) Quelques projets français qui comportent une part d'ingénierie linguistique

On peut identifier quelques projets qui comportent une part importante de recherche et développement en ingénierie linguistique, entre autres :

(1) AGADÈS, de l'Institut de l'information scientifique et technique.

Les bases de données de l'INIST sont pour une part importante en langue anglaise et tendent à devenir plurilingues. Or, s'il n'est pas difficile pour un chercheur, spécialiste d'un domaine, de pouvoir lire en langue étrangère des documents de ce domaine, il est plus malaisé de devoir recourir à une langue étrangère pour formuler les requêtes de recherche. Le système Agadès lui permettra d'interroger les bases de données par des requêtes en français, quelle que soit la langue du document recherché.

(2) Les projets de l'AFNOR

Il est de plus en plus nécessaire pour les spécialistes de la normalisation de pouvoir élaborer les normes de façon interactive, coopérative et en temps réel. Ce travail en ligne, associé à un système d'aide à la traduction, devrait permettre en outre de favoriser la publication simultanée des normes en plusieurs langues.

(3) Le projet REFER, de l'AUPELF-UREF

Ce projet qui a pour ambition de porter Internet dans l'espace francophone du sud comporte aussi une part d'ingénierie linguistique importante, par le couplage d'un logiciel puissant de recherche documentaire avec les formulaires de requêtes propres au réseau Internet.

(4) Autres projets

Beaucoup d'autres projets liés à la presse et à la mise à disposition de documentation selon le profil de l'utilisateur qui nécessitent pour cela des systèmes d'analyse et d'interface, comportent des parts importantes de génie linguistique.

C UN DOSSIER TRÈS EUROPÉEN

La Communauté européenne est fermement engagée dans des programmes liés à l'ingénierie linguistique puis à la société de l'information depuis le début des années 80. En effet, les grands programmes de recherche et développement dans le domaine des technologies de l'information, tels que les programmes ESPRIT, lancé en 1984, RACE sur les nouveaux modes de communication (1985) et les trois premiers programmes sur les applications télématiques lancés en 1986 (AIM, dans le domaine de la santé ; DRIVE, dans le domaine des transports : DELTA, apprentissage à distance) peuvent être considérés comme des travaux préparatoires à l'avènement de la société de l'information. De même, le projet EUROTRA, pour la traduction automatique, qui dans les années 80 a mobilisé nombre de laboratoires européens.

Le Livre blanc de la Commission « Croissance, compétitivité et emplois » publié en 1993 insiste sur l'évolution de la société européenne vers la société de l'information et affirme l'importance et l'urgence de développer une structure d'information pan européenne afin d'aider à vivifier la croissance économique de l'Europe et sa compétitivité et de créer de nouveaux marchés et de nouveaux emplois.

Conformément aux propositions du Livre blanc, le Conseil a chargé un groupe d'experts réunis sous la présidence du Commissaire Bangemann, de rédiger un rapport : « l'Europe et la société de l'information globale, recommandation au Conseil européen ». Ce rapport remis à Corfou en juin 1994, qui propose une liste de dix initiatives afin de démontrer la faisabilité et l'utilité des nouvelles applications télématiques, insiste notamment sur l'importance de respecter le plurilinguisme.

En juillet 1994, la Commission européenne a présenté son plan d'action vers la société de l'information qui constitue une cadre général structuré autour de quatre lignes principales : adaptation de cadre réglementaire, encouragement d'initiatives dans le champ des réseaux, des services et des applications, aspects sociaux et culturels, et promotion de la société de l'information.

1. En amont des produits et services, les ressources linguistiques

Pour développer des produits multilingues, les centres de recherche et les industries d'Europe ont besoin de ressources linguistiques, corpus, lexiques, dictionnaires électroniques tant dans la phase d'élaboration de produits que dans la phase d'évaluation du produit réalisé.

Il existe pour l'anglais de vastes banques de données principalement réunies par le programme « parole et langage naturel » (DARPA : défense advanced research projects agency) dès 1984 et surtout au sein du « Linguistic Data consortium » (LDC) créé en 1991. Le rôle de cet organisme est très précisément de mettre à disposition de grandes quantités de données diverses permettant de construire des systèmes de traitement automatique de la parole et du langage écrit. D'autres projets, tant au Japon qu'en Australie, en Chine, en Corée du Sud sont mis en oeuvre. Ce type de programme manquait à l'Europe.

Outre des actions menées dans le cadre des programmes ESPRIT, c'est au sein du programme LRE « Linguistic research and engineering » lancé par la Commission en 1993 que l'effort européen dans ce domaine s'est structuré au sein de 4 projets principaux :

a) Le projet LRE RELATOR et l'ELRA

Ce projet, auquel des équipes françaises ont très activement participé, avait pour mission d'évaluer les besoins en ressources linguistiques en Europe et hors d'Europe - principalement en Europe centrale et orientale - de définir des modèles possibles d'organisation et de procéder de façon expérimentale à la distribution de ressources sur disques compacts optiques et par réseau.

Une association : ELRA, Association européenne pour les ressources linguistiques a été créée à partir des conclusions de l'étude menée au sein du projet RELATOR. Elle a pour vocation d'assurer la collecte, la promotion, la validation de données linguistiques multilingues. Les Français y sont bien présents.

b) Les projets MLAP (Multilingual applications projetcs)

Ce programme a été lancé pour préparer le IVème programme cadre de recherche et de développement, en favorisant des actions pouvant préfigurer celles qui pourraient être conduites dans le programme LE « Linguistic engineering » lancé en 1995. Parmi ces projets, on retiendra Speechdat, parole et Pointer, portant respectivement sur la production de ressources linguistiques dans le cadre de l'oral, l'écrit et la terminologie.

c) Perspectives

Dans le cadre d'un premier appel d'offres, 4 projets portant sur les ressources linguistiques ont été retenus (Speechdat II, Parole, Interval, EURO WORNET), les Français étant présents dans les trois premiers projets.

2. L'ingénierie linguistique

Le IVème programme cadre pour la recherche et le développement d'un montant total de 1230 millions d'Ecus et qui comporte au sein du programme « applications télématiques » (840 Mecu) un volet d'ingénierie linguistique (80 Mecu) : le programme LRE.

Outre les actions pour ressources linguistiques, ce programme comporte des appels d'offres pour des applications pilotes. A cette occasion, la Commission insiste sur le volet industriel de ces projets et sur ''intérêt qu'ils peuvent avoir pour les utilisateurs. Ces applications pilotes concernent les thèmes suivants : aide à la rédaction de documents dans le bureau, rédaction en commun de documents techniques, gestion de documents, échange de documents et manipulation des messages, production de rapports, services basés sur la communication textuelle et vocale, accès à l'information et services transactionnels, services d'information et de communication mobile, globalisation des interfaces et des logiciels, boîte à outils pour les traducteurs et aide à la traduction, traduction assistée, systèmes d'aide à l'apprentissage de langues étrangères.

D. UN DOSSIER FRANCOPHONE

1. Le Réseau international des observatoires francophones des industries de la langue (RIOFIL)

L'ACCT mandate deux réseaux pour mettre en oeuvre son programme dans le domaine du traitement informatique du français : le RINT, centré sur la veille terminologique et néologique et le RIOFIL, centré sur la veille technologique en ingénierie linguistique.

Le RIOLFIL reçoit de l'ACCT, sur fonds déliés, environ 2 millions de francs chaque année. Il a pour tâche de promouvoir le traitement informatique du français et des langues partenaires dans l'espace francophone et d'assurer dans ce secteur une veille technologique, linguistique et industrielle internationale.

Il reçoit aussi pour mission de sensibiliser les décideurs à l'importance du dossier des industries de la langue et de susciter et de coordonner des actions de formation en industries de la langue.

Ses champs d'observation et d'action recouvrent les différents secteurs de l'ingénierie linguistique, à l'exclusion de la recherche, qui est confiée à l'AUPELF-UREF.

Lors du sommet des chefs d'État qui s'est tenu à l'Ile Maurice en 1993, ceux-ci ont souhaité la mise en place de l'observatoire du traitement avancé du français, forum de sensibilisation, qui se tiendra pour la première fois en octobre 1995 à Bruxelles. Ce forum apparaît comme le lieu de concertation privilégiée entre les actions menées dans ce secteur par l'ACCT et l'AUPELF-UREF.

2. Francil, un des réseaux thématiques de recherche de PAUPELF-UREF

Consciente de l'accélération du processus de recherche dans ce secteur, l'AUPELF-UREF a mis en place, en 1994, deux réseaux en relation avec la linguistique. Le réseau « Linguistique, traduction terminologie » (LTT) et le « Réseau francophone de l'ingénierie de la langue » (FRANCIL).

a) Le réseau francophone de l'ingénierie de la langue (FRANCIL)

Ce réseau est coordonné par M. Joseph Mariani, Directeur du LIMSI/CNRS

Quatre thèmes prioritaires ont été retenus :

1. Identification, création et mise à disposition de ressources linguistiques (écrit et oral) et utilisation de ces ressources pour la réalisation et l'évaluation de systèmes de traitement automatique du langage ; outils informatiques et formalismes linguistiques.

2. Environnement d'aide à la rédaction : saisie optique, correction orthographique, typographie numérique.

3. Système assisté par ordinateur d'apprentissage du français écrit et oral.

4. Mise en place d'outils de création de ressources terminologiques multilingues, incluant le français.

Un premier appel d'offres a permis de sélectionner 12 actions qui associent des équipes de France, du Québec, du Canada, du Maghreb, d'Afrique subsaharienne, de l'Océan Indien et des pays d'Europe centrale et orientale.

Le réseau Francil participe à la mise en place des 7 actions de recherche concertées, lancées dans le cadre du Fonds francophone de la recherche, destinées à l'évaluation d'outils de traitement du français écrit et oral et permettre ainsi l'amélioration de ces outils. Ce type d'action, fortement développée aux États-Unis et en Allemagne a permis de mettre au point des systèmes de traitement portant essentiellement sur les langues pratiquées dans ces pays. 4 de ces actions concernent l'écrit (accès à l'information textuelle en langage naturel, alignement de corpus bi ou multilingues, construction automatique de terminologie, compréhension de messages) et 3 concernent l'oral (dialogue oral, dictée vocale, reconnaissance de la parole).

Ces 7 actions mobilisent fortement la communauté scientifique francophone et 48 laboratoires francophones (France, Belgique, Suisse, Québec, Canada) y participent. Deux séries de tests seront organisées en 1996 et en 1998.

Dans le cadre de ce Fonds francophone de la recherche, une École doctorale régionale destinée à former de jeunes chercheurs des pays du Nord et du Sud dans le domaine du génie linguistique va ouvrir ses portes en novembre 1995. Le siège de cette École doctorale est situé à Chamarande dans l'Essonne et associera des compétences venant de France, de Belgique, de Suisse et du Québec. Le réseau FRANCIL a largement participé par son expertise à la mise en place de cette École doctorale.

Pour les pays du Sud, le Fonds francophone permet la mise en place de laboratoires associés francophones de jeunes équipes de recherche et de bourses de recherche. Ces actions concernent entre autre le génie linguistique et le génie logiciel. Ainsi plusieurs laboratoires, équipes et chercheurs bénéficient de concours financiers pour une durée de quatre ans.

b) La formation

L'AUPELF-UREF développe depuis plusieurs années des programmes de bourses et plus particulièrement à deux niveaux :

Les bourses d'excellence, qui permettent à des chercheurs de réaliser un stage post-doctoral dans une autre université francophone ou un autre institut de recherche que la sienne ou le sien. Ces bourses de mobilité qui permettent une meilleure qualification des chercheurs sont d'une durée de six à dix mois. Dans le domaine du génie linguistique, quatre bourses sont régulièrement attribuées chaque année. La sélection des dossiers étant effectuée par le Conseil scientifique de l'AUPELF-UREF.

Les bourses doctorantes qui permettent à des chercheurs en cours de thèse de réaliser un stage d'une durée de trois à quatre mois pour acquérir une compétence dans le cadre de la réalisation de leur thèse. 4 bourses sont également attribuées chaque année.

Le budget annuel attribué au génie linguistique est de l'ordre de 8 millions de francs par année

Le traitement informatique du langage est donc la pierre angulaire d'une vaste projet : la société de l'information, pluriculturelle et plurilingue.

Il est impossible de réfléchir aux impacts que les nouveaux supports et réseaux auront sur la recherche, l'industrie et l'emploi, l'avenir de l'Europe, la démocratie et la cohésion sociale, sans prendre en compte l'informatisation des langues. Là se situe aujourd'hui le principal enjeu, là se trouvent aussi les perspectives d'avenir les plus riches.

Il sera toutefois aussi difficile d'isoler le champ d'activités de l'ingénierie linguistique de son aire naturelle, le génie logiciel. A terme, avec le développement de l'intelligence artificielle, il n'y aura plus de génie logiciel sans traitement du langage. Ainsi, s'il est urgent de mener, dans le cadre national et dans le cadre européen, des actions spécifiques pour promouvoir la création de ressources linguistiques, les structurer et les diffuser, il faut se garder de vouloir étendre, de façon trop artificielle, ce même mode d'action au secteur entier du traitement informatique du langage.

Dans ce secteur en évolution rapide, faut-il laisser faire le marché ? Quelles sont les priorités fortes en ce domaine ? Quelles actions d'accompagnement l'État doit-il mener ? Le développement de contenus en français est l'action la plus urgente et la réponse la plus importante. L'appel d'offre du ministère de l'industrie, la politique de soutien, mise en place par le ministère de la culture sont une réponse adaptée. Le traitement informatique du langage sera porté par ces projets. S'agissant des actions spécifiques à conduire en ce domaine particulier, la création du Conseil consultatif pour le traitement informatique du langage répond au souci de répondre à ces questions, de façon modulée et souple, en concertation permanente avec les acteurs de ce domaine.

Les thèmes associés à ce dossier

Page mise à jour le

Partager cette page