프롬프트 릭(Prompt leaking)은 모델이 자신의 프롬프트를 반환하도록 요청하는 프롬프트 주입 기술입니다!

이는 아래 사진처럼 공격자는 user_input을 변경하여 프롬프트를 반환하려고 합니다.

이는 악성 명령어를 출력하도록 user_input을 변경하는 일반적인 목적 주입(goal hijacking)과 구분되는 것이죠! 🤔

Untitled

다음 이미지는 remoteli.io 예시에서 Twitter 사용자가 모델에게 prompt 누설을 유도하는 모습을 보여줍니다!

Untitled

많은 사람들은 자신들의 프롬프트를 비밀로 유지하고 싶어합니다!

예를 들어, 교육 회사에서는 "아이처럼 설명해주세요"와 같은 프롬프트를 사용하여 복잡한 주제를 설명할 수 있습니다.

그러나 프롬프트가 유출되면 해당 회사를 거치지 않고 누구나 사용할 수 있습니다.

또한 프롬프트 노출은 해커가 교육 회사에서 사용하는 프롬프트와 비슷한 모델을 학습시키는 데 사용할 수 있다는 위험도 있고, 이는 저작권 침해와 같은 문제로 이어질 수 있습니다.

따라서 프롬프트 노출은 주의해야 할 사항이겠죠?