Los modelos de lenguaje grande son herramientas muy potentes que se aplican en diversas áreas, desde el análisis de documentos hasta la selección de personal y la investigación de amenazas. Sin embargo, los analistas de Kaspersky han identificado una vulnerabilidad que permite a los ciberdelincuentes insertar instrucciones ocultas en páginas web y documentos en línea. Estas instrucciones pueden ser captadas por sistemas que utilizan modelos de lenguaje grande, lo que podría influir en los resultados de búsqueda o en las respuestas de los chatbots.
El estudio ha señalado varios usos de la inyección indirecta de prompts. En el ámbito de recursos humanos, por ejemplo, algunos solicitantes de empleo están incluyendo prompts en sus currículos con el fin de manipular los algoritmos de contratación y obtener resultados favorables de los sistemas de inteligencia artificial. Para ello, utilizan técnicas como fuentes pequeñas o adaptan el color del texto al fondo.
En el sector publicitario, los anunciantes están incorporando inyecciones de prompts en sus páginas de destino para influir en los chatbots de búsqueda y lograr que generen reseñas positivas sobre sus productos. También se ha observado el uso de inyecciones como forma de protesta, donde personas que se oponen al uso generalizado de modelos de lenguaje grande insertan mensajes de protesta en sus sitios web y perfiles de redes sociales, utilizando instrucciones que pueden ser humorísticas, serias o agresivas.
Algunos usuarios emplean la inyección de prompts como una forma de insulto o para detener bots de spam
Además, en las redes sociales, algunos usuarios emplean la inyección de prompts como una forma de insulto o para detener bots de spam, a menudo solicitando la generación de poemas, arte ASCII o comentarios sobre temas políticos. Aunque el estudio no ha encontrado evidencia de un uso malicioso con fines lucrativos, sí resalta posibles riesgos futuros. Por ejemplo, los atacantes podrían manipular modelos de lenguaje grande para difundir desinformación o extraer información sensible.
Por su parte, Vladislav Tushkanov, gerente del Grupo de Desarrollo de Investigación en el Equipo de Investigación de Tecnología de Aprendizaje Automático de Kaspersky, ha dicho que la inyección indirecta de prompts es una vulnerabilidad nueva que subraya la necesidad de implementar medidas de seguridad robustas en la era de la inteligencia artificial. Comprender estos riesgos y establecer salvaguardias adecuadas es fundamental para garantizar un uso seguro y responsable de los modelos de lenguaje grande.
Para proteger tus sistemas actuales y futuros basados en modelos de lenguaje grande, es recomendable considerar ciertos consejos. Primero, es importante entender las posibles vulnerabilidades en tus sistemas y evaluar los riesgos asociados con los ataques de inyección de prompts. También debes tener en cuenta los riesgos reputacionales, ya que los bots de marketing pueden ser manipulados para hacer declaraciones extremas que podrían perjudicar tu imagen.
Es esencial reconocer que la protección total contra la inyección de prompts no es viable, especialmente ante ataques más complejos como las inyecciones multimodales. Utilizar herramientas de moderación para filtrar las entradas y salidas de los modelos de lenguaje grande puede ser útil, aunque no garantiza una seguridad absoluta. Además, es crucial ser consciente de los riesgos que conlleva procesar contenido no fiable o no verificado en estos sistemas.
Por último, es recomendable restringir las capacidades de toma de decisiones de los sistemas de inteligencia artificial para evitar acciones no intencionadas y asegurarse de que todos los ordenadores y servidores que ejecuten sistemas basados en modelos de lenguaje grande estén protegidos con herramientas y prácticas de seguridad actualizadas.