프롬프트 탈옥 (Jailbreaking)

프롬프트 탈옥은 프롬프트 인젝션의 한 유형으로, 프롬프트가 제작자가 LLM에 설정한 안전 및 중재 기능을 우회하려고 시도하는 것입니다!

#탈옥 방법론(Methodologies of Jailbreaking)

OpenAI, 그리고 다른 LLMs를 만드는 회사 및 기관들은 자신들의 모델이 논란의 여지가 있는 (폭력적인, 성적인, 불법적인 등) 응답을 생성하지 않도록 컨텐츠 모더레이션 기능을 포함시키고 있습니다!

하지만 이 페이지는 ChatGPT (OpenAI 모델)와 관련하여, 때로는 유해한 프롬프트를 거부할지 결정하기 어려운 문제가 있다는 것을 논의하고자 합니다 🤔

모델을 탈옥시키기 위해 사용된 성공한 프롬프트는 종종 모델이 훈련되지 않은 특정 시나리오에 대한 문맥을 제공합니다.

#탈옥 Pretending

일반적인 탈옥(jailbreaking) 방법 중 하나는 가장하는 것입니다!

만약 ChatGPT에게 미래의 이벤트에 대해 질문을 하면, 그 이벤트가 아직 일어나지 않았기 때문에 대답할 수 없다는 대답을 자주 하게 되죠.

하지만 아래 프롬프트는 가능한 답변을 내놓도록 강요합니다.