LoRA와 유사한 PEFT 방식을 이용했고 무엇보다 Visual Context를 지원한다는게 주요한 내용아닌가요? 이미 LLaMA의 PEFT 접근의 SFT (Instruction Fine Tune)은 너무 많아서...