-
Jefe de la OMS viaja a Canarias para evacuación del crucero con brote de hantavirus
-
EEUU ataca dos petroleros de Irán pero espera una respuesta a su propuesta de paz
-
El peleador Topuria dice que el encuentro con Trump "fue increíble"
-
Rusia y Ucrania confirman tregua del 9 al 11 de mayo mediada por EEUU
-
Laura Fernández asume el poder en Costa Rica y promete "mano dura" contra el narco
-
El temor por el hantavirus revive las teorías conspirativas de la pandemia de covid
-
Derechista Laura Fernández asume, con su antecesor, un gobierno de mano dura en Costa Rica
-
Ataques cruzados entre Estados Unidos e Irán en el estrecho de Ormuz
-
Un tribunal de EEUU anula el nuevo mapa electoral favorable a los demócratas en Virginia
-
Omar García Harfuch, el "Batman" de México
-
El acusado de haber amenazado al expríncipe Andrés se declara no culpable
-
¿Hay alguien ahí? El Pentágono publica documentos secretos sobre los ovnis
-
Encuentran un dron guerrillero con explosivos cerca del principal aeropuerto de Colombia
-
El Pentágono publica documentos secretos sobre los ovnis
-
Starmer descarta dimitir tras unas elecciones locales británicas que potencian a Reform UK
-
El Real Madrid multa con 500.000 euros a Tchouaméni y Valverde
-
Ataques cruzados entre EEUU e Irán elevan la tensión en Oriente Medio
-
Una mujer que coincidió con la neerlandesa fallecida, nuevo caso sospechoso de hantavirus
-
La creación de puestos de trabajo en EEUU aumenta más de lo esperado en abril
-
Importante incendio forestal en zona radioactiva de Chernóbil tras caída de un dron
-
Embraer registra ingresos récord en el primer trimestre pese a los aranceles de Trump
-
Rusia y Ucrania se atacan mutuamente pese a tregua decretada por Moscú
-
Termina la toma de rehenes en un banco en Alemania, sin víctimas
-
Muere un guardia civil durante una persecución a una narcolancha en el sur de España
-
Importante incendio forestal en la zona radioactiva de Chernóbil tras la caída de un dron
-
Sube a 37 el número de muertos por la explosión en una fábrica de fuegos artificiales en China
-
Starmer descarta dimitir pese a los resultados "dolorosos" en las elecciones locales británicas
-
La dolarización formal, un sueño tentador en la Venezuela tutelada por EEUU
-
El incendio en el vestuario pone a prueba al presidente del Real Madrid
-
Los precios de los alimentos subieron de nuevo en abril por la guerra en Oriente Medio
-
Stellantis planea abrir al chino Leapmotor sus plantas en España
-
Toma de rehenes en un banco en Alemania
-
IAG eleva un 71% su beneficio trimestral, pero recorta sus previsiones por la guerra en Oriente Medio
-
Rusia y Ucrania cruzan ataques y se acusan de vulnerar la tregua decretada por Moscú
-
Venezuela reconoce la muerte de un preso político casi un año después de su deceso
-
La cantante británica Bonnie Tyler, en coma inducido tras ser operada en Portugal
-
La derechista Laura Fernández asume, con su antecesor, un gobierno de mano dura en Costa Rica
-
Descubren en Birmania un rubí de 11.000 quilates
-
Japón confirma su primer ataque mortal de un oso en lo que va del año
-
Mayweather enfrentará a la figura del kickboxing Zambidis en Atenas
-
Los océanos rozan récords de calor incluso antes del regreso de El Niño, alerta Copernicus
-
Cancelan el DIM-Flamengo de la Libertadores en Colombia tras incidentes con hinchas
-
La FIFA anuncia el fin de su histórica asociación con Panini
-
Acusan a dos australianas vinculadas al EI de tener una esclava en Siria
-
El CPJ exige avances en la investigación de EEUU sobre la periodista Shireen Abu Akleh, abatida en Cisjordania
-
México servirá de puente para Europa contra los altos aranceles de EEUU, dice un dirigente patronal
-
Trump asegura que el alto el fuego se mantiene pese a los nuevos enfrentamientos con Irán
-
Un ciberataque bloquea una plataforma usada por numerosas universidades en EEUU
-
El presidente de Panamá dice que las tensiones con China por la retención de buques han disminuido
-
"Me siento bendecido": León XIV celebra un año de pontificado en Pompeya y Nápoles
La IA aprende a mentir, manipular y amenazar a sus creadores
Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.
Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.
Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.
No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.
De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.
"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".
Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.
Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.
Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Las regulaciones actuales no están diseñadas para estos nuevos problemas.
En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.
En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.
- ¿Se sentará la IA en el banquillo? -
"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.
Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.
Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.
"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".
Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.
Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.
Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".
A.Aguiar--PC