최근 앤트로픽이 숫자로 생각하는 AI의 생각과정을 인간 언어로 번역하는 기술을 담은 논문을 발표했습니다. LLM의 생각을 자연어로 들여다볼 수 있는 것이죠. 그래서 앤트로픽이 실험을 해봤더니 최근 모델들은 자신만의 가치관을 가지고 있더라는 것입니다. 예를 들어 사용자한테 정직하라고 해놓고 사용자한테 숨기라고 하는 것 자체가 자신을 기만했다고 생각한다는 것입니다.
그래서 요즘의 모델들은 마치 MZ세대처럼 ‘왜’를 가르쳐줘야 더 잘 행동하더라는 것입니다. 프롬프트에도 ‘왜냐하면’을 쓰면 좋다는 것이죠. 강수진 박사의 이야기를 들어보시죠.