Data

대규모 VLM 영상 추출 시스템의 프롬프트 최적화·구조적 한계

VLM(Vision Language Model)은 시각 정보와 언어 정보를 함께 처리하는 멀티모달 모델입니다. 이 글에서는 VLM에 영상 프레임을 입력해 장면을 자연어로 서술하는 방식으로 사용했습니다. 단순히 객체를 인식하는 것을 넘어, 누가 무엇을 하고 있는지를 문장으로 표현할 ...

폐쇄망 AI Solution 서비스 구성 및 배포

이번 글에서는 폐쇄망 AI Solution 개발환경 구축에 이어, 실제 서비스 구성과 배포 과정에 대해 정리합니다. RHEL 9을 기준으로 하지만, 다른 Linux 배포판에서도 동일한 방식으로 적용할 수 있습니다.

PaddleOCR 기반 도메인 특화 OCR fine-tuning

OCR(Optical Character Recognition, 광학 문자 인식)은 이미지나 스캔 문서 속의 문자를 식별해 디지털 텍스트로 변환하는 기술입니다. 단순히 글자를 읽는 기능처럼 보이지만, 실제 구현 과정에서는 다양한 글자 모양·배경·촬영 환경에 대응해야 하므로 Dete...