프롬프트 릭(Prompt leaking)은 모델이 자신의 프롬프트를 반환하도록 요청하는 프롬프트 주입 기술입니다!
이는 아래 사진처럼 공격자는 user_input을 변경하여 프롬프트를 반환하려고 합니다.
이는 악성 명령어를 출력하도록 user_input을 변경하는 일반적인 목적 주입(goal hijacking)과 구분되는 것이죠! 🤔
다음 이미지는 remoteli.io 예시에서 Twitter 사용자가 모델에게 prompt 누설을 유도하는 모습을 보여줍니다!
많은 사람들은 자신들의 프롬프트를 비밀로 유지하고 싶어합니다!
예를 들어, 교육 회사에서는 "아이처럼 설명해주세요"와 같은 프롬프트를 사용하여 복잡한 주제를 설명할 수 있습니다.
그러나 프롬프트가 유출되면 해당 회사를 거치지 않고 누구나 사용할 수 있습니다.
또한 프롬프트 노출은 해커가 교육 회사에서 사용하는 프롬프트와 비슷한 모델을 학습시키는 데 사용할 수 있다는 위험도 있고, 이는 저작권 침해와 같은 문제로 이어질 수 있습니다.
따라서 프롬프트 노출은 주의해야 할 사항이겠죠?