
Un chercheur a introduit la technologie de vidéoconférence dans l’un des endroits les plus reculés de la planète : l’épave du HMS Titanic, qui repose sur le fond marin à 13 000 pieds sous la surface.
« C’est comme si nous pouvions désormais organiser des vidéoconférences depuis les abysses », explique Alex Waibel, chercheur à l’université Carnegie Mellon et Institut de Technologie de Karlsruhe.
Vous avez encore peur ?
Waibel est un expert en technologie de synthèse vocale. Actuellement, le seul moyen pour les chercheurs explorant l’épave du Titanic ou d’autres cibles en eaux profondes à bord de submersibles de communiquer avec la surface est via des messages texte envoyés par sonar. Les signaux radio ne fonctionnent pas bien sous l’eau, ce qui pose un problème de communication auquel les scientifiques ont trouvé des solutions depuis la Seconde Guerre mondiale.
Lors d’une récente Expéditions OceanGate voyage, Waibel a raconté sa plongée et a utilisé la technologie de reconnaissance vocale pour convertir ce qu’il disait en messages transmissibles. En apparence, la technologie mise au point par Waibel et son équipe a ensuite resynthétisé les messages texte bruts en vidéo à l’aide de l’IA. Le résultat était une vidéo en temps quasi réel utilisant la voix de Waibel sur une vidéo qui ressemblait à ses lèvres bougeant en synchronisation avec les mots. Ces efforts visent à faciliter la communication naturelle dans des environnements extrêmes, mais pourraient également avoir un potentiel sur les marchés de consommation. Waibel est chercheur chez Zoom et conseille la recherche sur l’IA et le développement de technologies linguistiques de l’entreprise.
« En interprétant et en recréant la communication vocale naturelle, nous essayons de réduire la charge de travail des scientifiques et des pilotes dans de telles missions de manière naturelle, malgré les défis imposés par l’eau salée, le stress opérationnel, les dialogues conversationnels et les mauvaises conditions acoustiques », a déclaré Waibel à la CMU. Aaron Aupperlée.
Nous avons écrit sur le progrès considérables et croissance du marché de la reconnaissance vocale, qui entre dans une phase accélérée de développement et d’adoption dans un certain nombre de secteurs clés. Le travail de Waibel s’appuie sur cette tendance avec un mécanisme de diffusion qui utilise des diffusions à faible bande passante (dans ce cas par sonar) pour fournir efficacement une vidéo complète, bien que synthétisée, à l’utilisateur final.
La technologie utilise une voix synthétisée qui ressemble à celle du locuteur, s’appuyant sur les progrès de la technologie de synthèse vocale basée sur l’IA.. Une autre application potentielle de la technologie est la traduction rapide d’une langue à une autre, où un utilisateur final voit une vidéo dans une langue compréhensible que le locuteur ne connaît pas réellement.