선택적 추론 기반 Vision-Language Model

service

Nota가 개발한 Vision-Language Model로, 전체 이미지 분석 대신 관련 영역만 선택적으로 처리하여 3배 빠른 성능을 제공합니다. 품질 저하 없이 효율적인 이미지-텍스트 분석이 가능합니다.