Engine

대규모 VLM 영상 추출 시스템의 프롬프트 최적화·구조적 한계

VLM(Vision Language Model)은 시각 정보와 언어 정보를 함께 처리하는 멀티모달 모델입니다. 이 글에서는 VLM에 영상 프레임을 입력해 장면을 자연어로 서술하는 방식으로 사용했습니다. 단순히 객체를 인식하는 것을 넘어, 누가 무엇을 하고 있는지를 문장으로 표현할 ...

폐쇄망 AI Solution 서비스 구성 및 배포

이번 글에서는 폐쇄망 AI Solution 개발환경 구축에 이어, 실제 서비스 구성과 배포 과정에 대해 정리합니다. RHEL 9을 기준으로 하지만, 다른 Linux 배포판에서도 동일한 방식으로 적용할 수 있습니다.