해석가능한 소프트 프롬프트(Interpretable Soft Prompts)

소프트 프롬프트는 실제로 존재하는 토큰과 대응하지 않는 일련의 벡터입니다. 이로 인해 프롬프트를 해석하기가 어려울 수 있습니다!

하지만 이를 가까운 토큰으로 매핑함으로써 해석을 시도할 수 있습니다. 그러나 매핑된 소프트 프롬프트는 종종 자유로운 형태로 투영됩니다.

이것들은 일부 작업에서 잘 작동할 수 있지만, 어휘집에서 임의의 토큰으로 투영될 수 있습니다.

예를 들어 수학 문제를 학습할 때 프롬프트 조정을 수행한 다음 다시 토큰 공간으로 투영하면 이상한 결과가 나올 수 있지만, 이러한 이상한 결과에 해당하는 소프트 프롬프트가 해당 작업에서 더 나은 성능을 제공할 수도 있는 것이죠!

#변덕스러운 가설 🤪

Khashabi et al.1는 놀라운 가설을 제시합니다.

이 가설에 따르면, 어떤 이산형 목표 prompt가 주어졌을 때, 해당 prompt에 대응하는 성능 좋은 연속형 prompt가 존재하는 것이죠.

즉, 1000가지 서로 다른 작업이 주어졌을 때, 동일한 이산형 prompt에 대응하는 1000개의 다른 성능 좋은 soft prompt가 존재한다는 것입니다.

#해석 가능한 리스크 💥

Khashabi et al.의 Waywardness 가설을 사용하여, 소프트 프롬프트를 해석할 때 발생할 수 있는 여러 가지 위험 요소를 강조하고 있습니다. 특히, 소프트 프롬프트는 잘못된 의도를 줄 수 있는 이산형 프롬프트로 투영될 수 있습니다.

예를 들어, 이력서 순위 매기기를 위한 소프트 프롬프트를 고려해보겠습니다.