-
En Russie, les conscrits sous pression pour aller combattre en Ukraine
-
Consigne du verre: un an après, le compte n'y est pas, pour l'ONG Zero Waste
-
En Inde, ces petites mains qui se filment pour entraîner l'IA
-
Le Mans: Trulli, Fittipaldi, Barrichello, Magnussen, Alesi... des noms connus sur la grille
-
Mondial-2026: contre la Bosnie, le Canada veut sa première victoire pour s'autoriser à rêver
-
Deux Chinois ouïghours condamnés à mort pour l'attentat le plus meurtrier de Thaïlande
-
Athlétisme: l'Américain Ja'Kobe Tharp bat le record du monde du 110 m haies en 12 sec 75
-
La BCE devrait relever ses taux malgré une zone euro fragile
-
Les lobbyistes au coeur du tournant pro-business de l'UE
-
Baisse du nombre de déplacés de force dans le monde, à près de 118 millions, selon l'ONU
-
Endiguer l'épidémie d'Ebola, une tâche difficile freinée par la désinformation
-
Réchauffement record et menaces sur l'observation de la Terre: l'alerte de scientifiques du climat
-
Mondial-2026: les fans mexicains compatissent avec les déboires de l'Iran
-
Finale NBA: Wembanyama et les Spurs subissent une remontée historique des Knicks, à un succès du titre
-
Avion de combat européen: le Scaf est mort et après?
-
E-commerce: amende record pour Coupang en Corée du Sud après une fuite de données
-
L'Iran, à nouveau bombardé par les Etats-Unis, promet de refermer Ormuz
-
Ingérences: Lecornu présente les risques et réponses avant la présidentielle
-
SpaceX vers une introduction en Bourse de tous les records
-
Depuis les Canaries, le pape interpelle le monde sur le sort des migrants
-
Mort d'Elisa Pilarski: décision jeudi pour son compagnon Christophe Ellul, jugé pour homicide involontaire
-
Mondial-2026: l'Angleterre boucle sa préparation par un récital contre le Costa Rica
-
Trump balaie les chiffres de l'inflation, au plus haut depuis trois ans
-
Mondial-2026: les Bleus sont arrivés à Boston, l'aventure peut commencer
-
Le gouvernement canadien veut interdire les réseaux sociaux aux moins de 16 ans
-
Patrick Bruel mis en examen pour viol, tentative de viol et agression sexuelle
-
Aide à mourir: les députés suppriment en commission les délits d'entrave et d'incitation
-
Tech en berne et inquiétudes géopolitiques pèsent sur Wall Street
-
Athlétisme: Lutkenhaus impressionne à Oslo, Gout Gout battu pour sa première Ligue de Diamant
-
Netanyahu repart en campagne, dans un paysage politique incertain
-
L'inflation continue de déraper aux Etats-Unis
-
Liban: au moins 12 morts dans des frappes israéliennes dans le sud
-
Bolivie: des milliers de manifestants à La Paz contre le gouvernement, qui envisage l'état d'exception
-
La Bourse de Paris termine en léger recul, entre inflation américaine et Moyen-Orient
-
Mort du sociologue et homme de gauche suisse Jean Ziegler à 92 ans
-
Malgré les appels au calme, Belfast craint une nouvelle nuit de violences
-
Léon XIV à la Sagrada Familia pour un des moments marquants de son séjour en Espagne
-
Finale NBA: Wembanyama et les Spurs pour égaliser contre New York
-
L'inflation continue de déraper aux Etats-Unis, le pouvoir d'achat fond
-
Fibre Excellence: le gouvernement émet des réserves sur le projet de reprise
-
Tour Aura: le cow-boy Simmons plus fort que la cavalerie
-
Quais de gare désertés, la SNCF fait le dos rond après la mobilisation des cheminots
-
Rachat de SFR: l'opération "ne va pas de soi", selon le président de l'Autorité de la concurrence
-
Au fond de l'océan Indien, un stupéfiant cimetière de baleines
-
Les Bourses européennes terminent dans le rouge, entre Moyen-Orient et inflation américaine
-
L’ONU affirme qu’un garçon a été abattu lors d’une manifestation pour les droits des femmes afghanes
-
Lyhanna: pour Macron, "la confiance dans nos institutions" ébranlée
-
SpaceX: les chiffres de l'arrivée en Bourse
-
Wall Street recule, entre désintérêt pour la tech et inflation américaine
-
SpaceX: Wall Street oscille entre ferveur et doutes avant une entrée en Bourse titanesque
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
E.Ramalho--PC