대규모 VLM 영상 추출 시스템의 프롬프트 최적화·구조적 한계
VLM(Vision Language Model)은 시각 정보와 언어 정보를 함께 처리하는 멀티모달 모델입니다. 이 글에서는 VLM에 영상 프레임을 입력해 장면을 자연어로 서술하는 방식으로 사용했습니다. 단순히 객체를 인식하는 것을 넘어, 누가 무엇을 하고 있는지를 문장으로 표현할 ...
VLM(Vision Language Model)은 시각 정보와 언어 정보를 함께 처리하는 멀티모달 모델입니다. 이 글에서는 VLM에 영상 프레임을 입력해 장면을 자연어로 서술하는 방식으로 사용했습니다. 단순히 객체를 인식하는 것을 넘어, 누가 무엇을 하고 있는지를 문장으로 표현할 ...
CVE(Common Vulnerabilities and Exposures)는 소프트웨어·하드웨어에서 발견된 보안 취약점을 고유하게 식별하기 위해 부여되는 표준 ID 체계입니다. Docker 이미지에 포함된 OS 패키지나 Python 패키지 중 알려진 CVE가 존재하면 보안 검수에서...
이번 글에서는 폐쇄망 AI Solution 개발환경 구축에 이어, 실제 서비스 구성과 배포 과정에 대해 정리합니다. RHEL 9을 기준으로 하지만, 다른 Linux 배포판에서도 동일한 방식으로 적용할 수 있습니다.
이 글은 폐쇄망 AI Solution 개발환경 구축의 두 번째 편입니다. RHEL 9을 기준으로 하지만, 다른 Linux 배포판에서도 동일한 방식으로 적용할 수 있습니다.
폐쇄망(Air-Gapped Network)은 외부 인터넷과 물리적으로 격리된 네트워크 환경을 의미합니다. 주로 금융기관, 공공기관, 연구소 등 민감한 정보를 다루는 환경에서 사용됩니다.
OCR(Optical Character Recognition, 광학 문자 인식)은 이미지나 스캔 문서 속의 문자를 식별해 디지털 텍스트로 변환하는 기술입니다. 단순히 글자를 읽는 기능처럼 보이지만, 실제 구현 과정에서는 다양한 글자 모양·배경·촬영 환경에 대응해야 하므로 Dete...
PoC(Proof of Concept)는 AI 프로젝트에서 모델의 실현 가능성과 적용 방향을 검토하는 출발점입니다. 핵심은 실제 환경에서 어떻게 쓰일 수 있고, 얼마나 유의미한 성능을 낼 수 있는지를 입증하는 것입니다.
Vision AI의 시작점은 모델이 아니라 CCTV입니다. 입력이 불완전하면, 어떤 모델도 기대한 성능을 내기 어렵습니다.
AI Engineer, 정말 다 같은 엔지니어일까?
이 글은 Vision AI 제품 개발 과정의 세 번째 편으로, 전체 내용은 다음과 같은 흐름으로 구성되어 있습니다:
이 글은 Vision AI 제품 개발 과정의 두 번째 편으로, 전체 내용은 다음과 같은 흐름으로 구성되어 있습니다:
최근 LLM 기술의 발전과 함께 Ultralytics, Roboflow, Hugging Face, SAM, ChatGPT 등 AI 생태계를 구성하는 다양한 도구와 프레임워크가 널리 보급되며 AI 모델 구축의 진입 장벽은 현저히 낮아졌습니다.