-
NBA: Cunningham et les Pistons résistent aux Nuggets, les Knicks enchaînent un 7e succès
-
NBA: les LA Clippers échangent James Harden à Cleveland contre Darius Garland
-
Les graffiti de Pompéi mis en lumière par la science
-
En Thaïlande, le parti favori des jeunes craint d'être à nouveau écarté du pouvoir
-
A Washington, la diplomatie du minerai
-
Fin de vie: après le rejet du Sénat, la loi sur l'aide à mourir revient à l'Assemblée
-
Les députés votent sur l'avenir des barrages français
-
Ukrainiens, Russes et Américains se retrouvent à Abou Dhabi pour négocier la paix
-
Venezuela: des milliers de partisans de Maduro dans la rue pour réclamer son retour
-
Foot: N'Golo Kanté quitte l'Arabie saoudite pour Fenerbahçe
-
Deschamps et les médias: "accepter la critique" et "faire passer un message"
-
Les Etats-Unis tournent la page de la paralysie budgétaire
-
Coupe du Roi: le FC Barcelone premier qualifié pour les demies
-
Coupe de France: un peu de réconfort et un quart de finale pour l'OM
-
Le président de la Colombie affirme que Trump a accepté de jouer les médiateurs avec l'Equateur
-
Wall Street en recul, pénalisée par la tech
-
Après une année 2025 "record", Santander va acquérir la banque américaine Webster Bank pour plus de 10 mds EUR
-
Libye: Seif al-Islam Kadhafi, l'un des fils du dictateur défunt, tué par des hommes armés (conseiller)
-
En Finlande, les doutes affleurent après le contrat de fourniture de brise-glaces aux Etats-Unis
-
Libye: Seif al-Islam Kadhafi, l'un des fils du dictateur défunt, est mort
-
L'Espagne veut lutter contre les contenus illégaux sur les réseaux sociaux
-
Face aux accusations de discrimination, ses proches défendent la mémoire de Samuel Paty
-
Procès RN: cinq ans d'inéligibilité requis en appel contre Marine Le Pen
-
Trump reçoit discrètement le président colombien
-
Prêt-à-porter enfant: le groupe IDKIDS (Okaïdi) placé en redressement judiciaire
-
La fin de la paralysie budgétaire aux Etats-Unis attendue au Congrès
-
La Bourse de Paris termine à l'équilibre, en pleine semaine de résultats d'entreprises
-
Le constructeur de véhicules électriques chinois BYD prévoit un modèle spécifique pour l'Inde
-
Trump reçoit le président colombien pour amorcer un dialogue
-
Affaire Epstein : l'ex-ambassadeur Peter Mandelson quitte la Chambre des Lords
-
Les Etats-Unis misent sur un Venezuela "démocratique", selon la cheffe de leur mission diplomatique
-
"Production, préservation, protection": Macron veut rassurer les agriculteurs avant leur Salon
-
Syrie: les forces gouvernementales entrent dans le bastion kurde de Qamichli
-
Norvège: jugé pour viols, le fils de la princesse Mette-Marit invoque des rapports consentis
-
Une professeure entre la vie et la mort, poignardée par un collégien en classe dans le Var
-
Le groupe Disney choisit Josh D'Amaro, responsable des parcs d'attractions, comme futur patron
-
Abiy accuse l'Erythrée de "massacres" durant la guerre au Tigré, "mensonges" selon Asmara
-
Ski: Lindsey Vonn confirme qu'elle participera aux JO-2026 malgré sa blessure
-
Une professeure poignardée par un collégien en classe dans le Var, son pronostic vital engagé
-
La Colombie extrade un criminel vers les Etats-Unis peu avant une rencontre Petro-Trump
-
TikTok, X, Kick ou Telegram: ces plateformes visées par la justice française
-
Le rappeur Doums condamné à huit mois de prison avec sursis pour violences conjugales
-
"Concentrons-nous" sur le sport, cap fixé par Coventry au CIO
-
Procès RN: l'accusation dénonce la "stratégie de délégitimation" et va requérir des peines d'inéligibilité
-
Emus aux larmes, de premiers Palestiniens de Gaza rentrent d'Egypte
-
La Russie condamnée pour "traitements inhumains" de l'opposant Alexeï Navalny par la CEDH
-
Dans les campagnes indiennes, les premières révolutions de l'IA
-
Affaire Epstein: l'UE va examiner si Peter Mandelson a enfreint ses règles
-
Ryanair condamnée en Belgique pour des pratiques commerciales "illicites"
-
L'Iran se prépare à des pourparlers avec Washington, Trump maintient la menace d'une intervention
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
E.Ramalho--PC