-
Arabia Saudita supera su máximo histórico de ejecuciones
-
La nobel de la paz iraní Narges Mohammadi está "indispuesta" tras su arresto violento, según sus seguidores
-
El ataque en una playa de Sídney parece "motivado por la ideología" del EI, dice el primer ministro
-
El ejército ruso afirma tener el "control" de la ciudad ucraniana de Kupiansk
-
Las niñas kenianas siguen sufriendo mutilación genital años después de su prohibición
-
Ataque en playa de Sídney parece "motivado por la ideología" del EI, dice primer ministro
-
Australia endurecerá la legislación sobre porte de armas tras ataque en Sídney
-
Angelina Jolie muestra las cicatrices de su mastectomía en la primera edición de Time France
-
Paz instala comisión para que indague desfalco millonario en hidrocarburos en Bolivia
-
Al menos 20 muertos y decenas de desaparecidos por desborde de río en Bolivia
-
Kast promete un gobierno de "unidad nacional" tras su arrollador triunfo en Chile
-
Al menos 20 muertos y decenas de desaparecidos por el desborde de un río en Bolivia
-
Los agricultores franceses mantienen sus bloqueos para decir alto al sacrificio de ganado
-
Machado sufrió una fractura vertebral en su agitada salida de Venezuela
-
Pedro Sánchez mantiene el rumbo pese a los escándalos en España
-
Autoridades retoman búsqueda de tirador que mató a dos personas en universidad de EEUU
-
El gobierno de Trump se prepara para publicar los archivos del delincuente sexual Epstein
-
Ucrania celebra "avances reales" en conversaciones con emisarios de EEUU sobre conflicto con Rusia
-
Sánchez anuncia un abono de transporte de 60 euros por mes en España
-
Loguearse, streaming y turismofobia se añaden al diccionario de la RAE
-
Un vistazo a la mente de John Howe, el ilustrador de Tolkien
-
El Gobierno español multa a Airbnb con 64 millones de euros por anuncios ilegales de viviendas turísticas
-
Un diputado de extrema derecha es procesado en Alemania por hacer el saludo nazi en el Parlamento
-
Rusia designa al grupo punk disidente Pussy Riot "organización extremista"
-
El compromiso del Partido Socialista español con el feminismo es "absoluto", afirma Pedro Sánchez ante los escándalos
-
Los hondureños cumplen dos semanas sin saber quién será su futuro presidente
-
Tailandia celebrará elecciones legislativas el 8 de febrero
-
El cantante británico Cliff Richard revela que se sometió a un tratamiento por cáncer de próstata
-
El gobierno español expresa su voluntad de "trabajar de forma estrecha" con el presidente electo de Chile
-
Camboya acusa a Tailandia de bombardear la provincia que alberga los templos de Angkor
-
La policía surcoreana allana la sede de la Iglesia de la Unificación
-
Un exmagnate prodemocracia de Hong Kong, condenado por atentar a la seguridad nacional
-
China dice que el crecimiento de la venta minorista alcanza su nivel más bajo en tres años
-
Miss Universo cierra sus oficinas en México por "ataques políticos"
-
El bloque ALBA acuerda un plan de apoyo energético para Cuba
-
Mueren 37 personas en crecidas repentinas en la localidad costera de Marruecos
-
Dieciséis estudiantes y un conductor mueren en un accidente de autobús en Colombia
-
Las negociaciones sobre el acuerdo UE-Mercosur encaran una difícil recta final por la oposición de Francia
-
Roberto Carlos se accidenta en su Cadillac, pero sale ileso
-
El Louvre cierra este lunes por una huelga de su personal
-
"La madurez es maravillosa", dice la bailaora Sara Baras
-
El Oviedo despide a Luis Carrión tras caer 4-0 ante el Sevilla
-
María Corina Machado apoya la incautación de un petrolero venezolano por EEUU
-
Buscan a tres tripulantes de un pesquero naufragado en el norte de Portugal
-
La FIFA entregará el premio The Best este martes
-
Mariah Carey cantará en la inauguración de los Juegos de invierno Milán-Cortina
-
Zelenski y los emisarios de EEUU prosiguen las conversaciones en Berlín sobre el fin del conflicto en Ucrania
-
"¡Aún estamos aquí!": miles marchan en Brasil contra la rebaja de pena a Bolsonaro
-
Trump alude a una posible derrota republicana en las legislativas de 2026
-
Zelenski y emisarios de EEUU prosiguen las conversaciones en Berlín sobre el fin del conflicto en Ucrania
La IA aprende a mentir, manipular y amenazar a sus creadores
Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.
Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.
Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.
No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.
Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.
Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Las regulaciones actuales no están diseñadas para estos nuevos problemas.
En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.
En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.
- ¿Se sentará la IA en el banquillo? -
"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.
Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.
Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.
"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".
Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.
Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.
Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".
A.Aguiar--PC