Des chercheurs du NCC Group, une société britannique spécialisée dans la cybersécurité et les tests d’intrusion, ont récemment montré que l’intelligence artificielle peut désormais imiter la voix d’une personne en temps réel.
Sur leur blog, ils expliquent avoir mené plusieurs tests d’attaques vocales en utilisant le clonage de voix instantané.
Leurs expériences ont permis d’obtenir des informations confidentielles auprès d’entreprises ciblées. Dans certains cas, les victimes ont même exécuté des actions demandées par les attaquants, comme modifier des adresses e-mail ou réinitialiser des mots de passe.
Une technologie autrefois limitée, aujourd’hui redoutable
Au départ, les chercheurs se sont heurtés à un obstacle technique majeur. Les outils de clonage vocal les plus avancés fonctionnaient uniquement à partir d’enregistrements préalables. Cette limite rendait impossible une véritable conversation fluide, indispensable pour une attaque de type vishing.
En perfectionnant la technologie, ils ont réussi à détourner le son du micro vers un modulateur vocal alimenté par un modèle d’apprentissage automatique. Ainsi, lorsque l’attaquant parlait, la personne à l’autre bout de la ligne entendait la voix clonée en direct.
Pour renforcer la crédibilité, les chercheurs ont également simulé le numéro de téléphone de la personne imitée (avec son accord). Une méthode classique du vishing où le simple affichage d’un numéro connu suffit à tromper la vigilance d’une victime.
Lire Aussi : Les agents IA vont-ils remplacer les sites web ?
Selon le NCC Group, les outils nécessaires à ce type d’attaque ne demandent plus ni grandes compétences techniques ni budget conséquent. Du matériel audio basique et des logiciels en ligne « suffisamment bons » permettent déjà d’obtenir un résultat convaincant. Autrement dit, cette technologie n’est plus réservée aux laboratoires ou aux cybercriminels expérimentés.
Des escroqueries de plus en plus réalistes
Il y a encore peu, les arnaques vocales trahissaient leur nature artificielle : voix monotones, intonations mécaniques, accent étrange… Mais les modèles d’IA les plus récents ont effacé ces défauts. Les voix synthétiques deviennent presque impossibles à distinguer des vraies.
Cette évolution permet aux escrocs d’improviser comme un humain. Ils peuvent répondre aux questions, adapter leur ton, ou donner des ordres avec assurance. Associé à une vidéo deepfake diffusée sur Zoom ou Teams, l’effet de réalisme devient bluffant et la détection presque impossible.
Une menace qui va exploser d’ici 2026
Le clonage vocal est encore un savoir-faire qui demande un peu de pratique, mais les outils deviennent de plus en plus simples à utiliser. Selon les spécialistes, d’ici 2026, la majorité des escroqueries vocales seront pilotées par l’IA, sans qu’aucune voix humaine ne soit réellement utilisée.
De simples échantillons de voix suffisent déjà à créer des imitations convaincantes. Des outils accessibles comme ElevenLabs permettent de générer en quelques minutes un message vocal crédible au nom d’un dirigeant. Pour l’instant, ces attaques restent rares, mais les experts s’attendent à une explosion des cas dans les mois à venir.
Lire Aussi : ChatGPT se souvient de plus en plus de vous
Vers une nouvelle ère de la fraude numérique
Pour faire face à ces nouvelles attaques d’usurpation dopées à l’IA, les entreprises doivent renforcer la sécurité des identités et limiter les privilèges d’accès afin de réduire les dégâts même en cas de compromission.
De leur côté, les chercheurs du NCC Group prévoient déjà d’explorer le terrain des deepfakes vidéo. Les premières expérimentations montrent encore des limites techniques, notamment dans la synchronisation du son et de l’image, mais ils estiment qu’il ne s’agit que d’une question de temps avant que les vidéos truquées deviennent, elles aussi, indétectables.