Vision AI 시스템을 위한 CCTV 설치 및 구성 실전 가이드

July 18, 2025

Vision AI의 시작점은 모델이 아니라 CCTV입니다.
입력이 불완전하면, 어떤 모델도 기대한 성능을 내기 어렵습니다.

카메라를 설치하는 것 자체보다 중요한 것은,
카메라의 종류, 설치 위치, 화각, 해상도, 전송 방식 등
여러 물리적·기술적 요소를 분석 목적에 맞게 정밀하게 설계하는 것입니다.

적절한 사전 설계 없이 영상만 확보한다고 해서
AI가 객체를 정확히 인식하거나, 원하는 결과를 안정적으로 제공하는 것은 어렵습니다.

이 포스팅은 실제 Vision AI 프로젝트의 설계 및 운영 경험을 바탕으로,
카메라 선택부터 설치 위치, 영상 연결 구조, 분석 설정 구성까지
실무 관점에서 반드시 고려해야 할 내용을 정리해 보았습니다.

1. CCTV 카메라의 주요 종류

Vision AI 시스템에 활용되는 CCTV는 설치 환경과 목적에 따라 카메라 형태가 달라집니다.

예를 들어 실내용은 Dome형, 외부 장거리 감시는 Bullet형이 주로 사용되며,
넓은 공간을 커버해야 하는 경우에는 PTZ나 360도 카메라가 적합합니다.

카메라의 형태는 분석 성능뿐 아니라 설치 난이도, 유지 관리에도 영향을 미치므로
환경에 맞는 타입 선택이 필요합니다.

종류	설명	특징
Dome형	반구형 실내용	은폐에 유리, 깔끔한 외형
Bullet형	원통형 외부형	장거리 감시, 경고 효과
PTZ형	회전/줌 가능	넓은 공간 감시, 제어 필요
Fisheye형	단일 어안렌즈 탑재	초광각, 왜곡 발생
360도형	회전형/다중 렌즈	공간 전체 시야 확보
Box형	산업용 고정형	고해상도, 대형 렌즈

2. 카메라 스펙이 분석에 미치는 영향

고해상도 카메라는 객체 디테일 확보에 유리하며,
센서 크기가 클수록 야간이나 저조도 환경에서 노이즈를 줄이고 색 재현력을 향상시킬 수 있습니다.

일반적으로 프레임레이트가 지나치게 낮을 경우,
순간적인 이벤트나 객체 추적 성능 저하가 발생할 수 있습니다.
예를 들어, 5fps 이하에서는 빠른 움직임을 놓치기 쉽고,
15fps 이상이면 안정적인 실시간 분석이 가능합니다.

또한 압축방식에 따라 스트림 품질 및 분석 지연시간이 영향을 받습니다.
특히 AI 분석에서는 Keyframe 간격, 압축 artifact 발생 여부 등도 중요한 고려 요소입니다.

실무에서는 화질, 성능, 시스템 부하 간의 균형이 중요합니다.

현재 담당 중인 제품은 FHD 해상도와 10~15fps 환경에 맞춰 설계되어 있으며,
처리 효율성과 분석 안정성을 확보하는 데 적합한 접근으로 평가받고 있습니다.

항목	설명	분석 영향
해상도	HD, FHD, 4K 등	객체 디테일 확보
센서 크기	1/3”, 1/2.7”, 1” 등	저조도 성능, 노이즈 억제, 색 재현력 향상
프레임레이트	10 ~ 30fps	이벤트 감지, 추적 정확도에 영향
압축방식	H.264, H.265 등	스트림 품질, 지연, 압축 artifacts에 영향

3. RGB/IR 촬영 특성과 Vision AI

영상의 색상 정보는 탐지 정확도에 직접적인 영향을 미칩니다.

일반적으로 RGB 카메라가 기본으로 사용되며,
실내외 대부분의 환경에서 안정적인 성능을 보입니다.

RGB 영상은 색상 정보를 그대로 보존하므로,
안전모 색상이나 작업복 구분 등 시각적 세부 요소 분석에 적합합니다.

반면 IR(Infrared) 카메라는 야간 감시나 조도 부족 환경에서
객체의 윤곽이나 움직임을 감지하는 데 강점을 가지며,
보조 수단으로 활용되는 경우가 많습니다.

분석 목적이 색상 인식이라면 RGB가 기본이며,
어두운 환경에서는 IR 카메라를 병행해 사용하는 방식이 효과적입니다.

항목	RGB 카메라	IR 카메라
색상 정보	색상 보존	없음
야간 성능	약함(조명 필요)	강함
분석 적합도	색상 분류, 세부 인식	윤곽 탐지, 야간 감시

4. 렌즈 & 화각 유형별 비교

렌즈의 초점 거리는 카메라가 확보할 수 있는
시야의 폭(FOV, Field of View)을 결정하는 핵심 요소입니다.

예를 들어 2.8mm 광각 렌즈는 넓은 영역을 한 번에 촬영할 수 있지만,
객체는 작게 보이고 왜곡이 발생할 수 있습니다.

반면 16mm 이상의 망원 렌즈는 멀리 있는 객체를 크게 포착할 수 있지만,
시야가 좁아 다른 객체를 놓칠 수 있습니다.

설치 환경과 분석 목적에 따라 광각, 표준, 망원 선택이 달라지며,
초점 거리를 수동 조절할 수 있는 Varifocal 렌즈나
원격 제어가 가능한 Motorized 렌즈도 실무에서 자주 활용됩니다.

렌즈 유형	초점 거리 (예시)	시야 특성	조절 방식	시야각 (FOV)
광각 (Wide)	≤ 2.8mm	넓은 시야, 왜곡 가능성 있음	고정형 (Fixed)	약 120~160°
표준 (Normal)	3.6~4mm	사람 시야와 유사, 균형 잡힌 화각	고정형 (Fixed)	약 90~100°
망원 (Tele)	≥ 12~16mm	멀리 있는 객체 확대, 좁은 시야	고정형 (Fixed)	약 30~60°
Varifocal	2.8~12mm 등	설치 후 수동 초점 조절 가능	가변형 (Manual)	약 30~130° (가변)
Motorized	2.8~12mm 등	원격 줌 및 초점 조절 가능	전동형 (Remote)	약 30~130° (가변)

3.6mm 렌즈는 일반적으로 사람의 시야각과 가장 유사한 화각을 제공합니다.
실내 고정 감시는 표준형 또는 Varifocal, 외부 침입 감지는 광각 또는 망원이 자주 쓰입니다.
Motorized 렌즈는 설치 이후 원격 환경에서 시야를 조정해야 할 때 유리합니다.

5. CCTV 화각 비교 및 왜곡 분석 – 실사례 기반 4종 비교

화각은 한 대의 카메라가 커버할 수 있는 시야의 각도입니다.
객체가 화면에서 얼마나 크게 보이는지에 영향을 줍니다.

화각	시야 설명	사용 예
60~90°	일반	얼굴, 번호판 인식
120~150°	광각	실내 공간 전체
≥180°	어안	회전문, 로비 등

Vision AI 시스템에서는 카메라의 화각(FOV, Field of View)과
왜곡 특성이 모델의 분석 성능에 직접적인 영향을 미칩니다.

현장에서는 일반적으로 광각 렌즈(약 100~130°) 가 많이 활용됩니다. 이는 적은 수의 카메라로 넓은 공간을 커버할 수 있어 설치 수량과 비용을 줄이는 데 유리하기 때문입니다.

또한, 실제 환경에서는 카메라를 자유롭게 설치하기 어려운 경우가 많아, 넓은 화각으로 시야 확보를 우선 고려해야 하는 경우가 많습니다.

반면, 분석 정확도나 왜곡 최소화가 중요한 환경에서는 일반각(85~90°)이 더 적합할 수 있습니다. 일반각은 왜곡이 적고, 객체의 형태와 위치를 보다 정밀하게 분석할 수 있기 때문입니다.

정리

화각이 넓을수록 왜곡이 발생하기 쉬우며, 이는 분석 정확도 하락으로 이어질 수 있습니다.
특히 객체가 중앙에 위치해 있더라도,
광각 렌즈 자체의 원근 과장 효과로 인해 왜곡 현상이 발생할 수 있습니다.
따라서 분석 목적에 따라 적절한 화각을 선택하고,
렌즈 보정 특성을 함께 고려해야만 최적의 모델 성능을 확보할 수 있습니다.

6. CCTV 설치가 Vision AI 시스템에 끼치는 영향

CCTV는 영상 확보 장비를 넘어, Vision AI 시스템과 연결될 경우
설치 조건 자체가 분석 성능에 직접적인 영향을 줍니다.

따라서 “잘 보이는 곳”이 아닌,
분석 목적에 맞는 위치와 시야 조건을 고려한 설치가 중요합니다.

설치 위치는 초기에 정확히 정하는 것이 가장 효율적

설치 후에도 각도나 초점 조정은 가능하지만, 실제 현장에서는 다음과 같은 제약이 많습니다:

위치를 바꾸려면 방향 조정만으로는 부족하고, 배선 및 브래킷 재설치가 필요합니다.
대부분의 프로젝트에서 CCTV가 AI 시스템보다 먼저 설치되므로,
화각이 맞지 않으면 분석이 지연되거나 반복 수정이 발생합니다.
특히 산업 및 야외 환경에서는, 설치 후 위치 변경이 사실상 불가능한 경우도 많습니다.

분석보다 더 큰 리스크는 “설치 지연”

설치 이후에도 조정은 가능하지만,
초기 설치 자체가 늦어지면 프로젝트 전체 일정에 영향을 줄 수 있습니다.

카메라가 없으면 화각 검토나 분석 테스트 자체가 불가능합니다.
위치가 확정되지 않으면 분석 조건도 설정할 수 없습니다.
실제로 일정이 지연된 프로젝트 상당수는 설치 시점을 확정하지 못했던 경우였습니다.

Vision AI 분석이 병행되는 프로젝트일수록,
초기에 설치를 완료하고, 운영 중 조정하는 방식이 더 현실적입니다.

“완벽한 설치 타이밍”을 기다리기보다는,
일단 시작하고 보정하는 접근이 더 성공적입니다.

단 한 번의 설치가 모든 걸 해결해주지 않습니다.
하지만 단 한 번도 설치하지 않으면, 아무것도 시작되지 않습니다.

실제 사례로 본 설치 리스크

각도나 초점은 조정할 수 있지만,
설치 위치는 일단 정해지면 변경이 쉽지 않습니다.
여러 프로젝트에서 화각 조정은 자주 있었지만,
위치 변경은 일정 지연·장비 재설치로 이어졌습니다.
현재도 진행 중인 실제 사례가 있습니다.
PoC 완료, 모델 구축, 화각 시뮬레이션까지 마친 상태지만,
CCTV 설치가 지연되면서 사업 마무리가 기약 없이 멈춰 있는 상황입니다.
Vision AI 프로젝트일수록,
설치 전 시야 조건을 검토하고 빠르게 설치에 착수할 수 있는 결정 구조가 필요합니다.
설치는 분석의 시작점입니다.
미루기보다 시작하고 조정하는 것이 훨씬 실용적입니다.

7. 영상 내 객체 크기 추정

Vision AI 분석 성능은 알고리즘의 성능뿐만 아니라,
CCTV 설치 위치, 해상도, 렌즈 화각(FOV), 프레임 속도(FPS) 같은 물리적 요소가
객체 탐지의 성공 여부에 큰 영향을 미칩니다.

탐지 성능에 영향을 주는 요소들

해상도: 높을수록 객체가 화면에서 더 크게 보임 (권장: 1080p 이상)
렌즈 화각(FOV): 좁을수록 멀리 있는 객체도 더 크게 보임 (권장: 60도 이하)
카메라 위치: 설치 높이와 거리 조정으로 탐지 가능 범위 최적화
프레임 속도(FPS): 움직임 기반 분석은 최소 10fps 이상 권장
사전 검증: 실제 촬영 또는 시뮬레이션 기반 검증이 필수

이러한 조건이 적절히 설계되지 않으면,
객체가 화면에 너무 작게 찍혀 AI가 탐지하지 못하거나, 정확도가 떨어질 수 있습니다.

객체 크기와 탐지 성능의 관계

객체가 영상 내에서 얼마나 큰 크기로 보이느냐는,
AI 모델이 해당 객체를 정확히 검출하고 탐지할 수 있는지를
결정짓는 핵심 요소입니다.

일반적으로 화면 세로 해상도의 약 6~8% 이상에 해당하는 크기로 객체가 나타날 경우,
대부분의 모델에서 안정적인 탐지가 가능합니다.

720p(1280×720) 기준: 약 40~50픽셀 이상
1080p(1920×1080) 기준: 약 60~80픽셀 이상
※ 단, 모델 구조 및 학습 데이터셋에 따라 달라질 수 있습니다.

정리

객체가 너무 작으면 AI가 탐지하지 못하거나 탐지 정확도가 크게 떨어질 수 있습니다.
설치 전, 목표 객체의 거리/크기에 기반해 최소 탐지 픽셀 크기 기준을 확보해야 합니다.
설치 조건과 카메라 성능은 AI 분석 효과를 좌우하는 가장 기본적인 설계 변수입니다.

8. 영상 연결 방식과 스트리밍 프로토콜

영상 스트리밍은 데이터를 수신하는 과정을 넘어서,
실시간성, 지연 시간, 해상도 보존, 호환성 등 시스템 전반의 성능에 영향을 주는 핵심 요소입니다.

RTSP는 Vision AI 분석 시스템과 연동하기에 가장 일반적인 방식이지만,
브라우저에서는 직접 사용할 수 없기 때문에 미디어 서버를 통한 중계가 필요합니다.

RTMP는 방송 송출용으로 널리 사용되며,
상대적으로 낮은 지연을 제공하지만 WebRTC보다는 지연이 큰 편입니다.

WebRTC는 초저지연 특성을 지녀
브라우저 기반의 실시간 분석 결과 확인에 적합합니다.

분석 지연 시간(Latency), 사용자 대시보드 제공 여부, 다중 스트림 분배 등의 조건에 따라
여러 스트리밍 프로토콜을 혼합 설계하는 것이 일반적입니다.

프로토콜	용도	특징
RTSP	실시간 CCTV 분석용	저지연, OpenCV 연동에 유리
RTMP	방송/중계	YouTube 등으로 송출, 상대적 저지연
WebRTC	초저지연 브라우저 기반	사용자 실시간 모니터링에 적합
HLS / DASH	HTTP 기반 스트리밍	수 초 이상 지연, 브라우저 호환성 우수
ONVIF	장비 제어, PTZ(Pan-Tilt-Zoom)	자동 장치 검색 및 제어 기능 포함

9. 미디어 서버

미디어 서버는 영상 스트림을 분배, 변환, 보정, 동기화하는 핵심 인프라입니다.

예를 들어, RTSP 기반 CCTV 영상이 입력되면
이를 분석 시스템에 전달하는 동시에 WebRTC로 변환하여 대시보드에 실시간 전송할 수 있습니다.

또한 분석 결과(Bounding Box, Segmentation Mask, Pose Keypoints 등)를
영상에 Overlay하여 사용자에게 실시간으로 송출할 수 있습니다.

다수의 CCTV 스트림을 하나의 분석 파이프라인에서 처리하기 위해서는
프레임 동기화, 일시적 끊김에 대한 복원 처리, 네트워크 재접속 관리 등을
수행하는 미디어 서버가 필수적입니다.

이는 시스템의 실시간성, 안정성, 유연성을 확보하는 데 있어 핵심 구성 요소입니다.

기능	설명
스트림 변환	RTSP → WebRTC 등 다양한 포맷 변환
멀티 송출	하나의 CCTV → 여러 시스템으로 동시에 분배
Overlay 적용	분석 결과를 영상에 실시간 삽입
보안 제어	접근 권한, IP 필터링 등 제어 기능
예시 시스템	Ant Media Server, Wowza, Janus, GStreamer

10. 실전 대응 체크리스트 예시

아래는 실무에서 인바운드 문의를 받을 때 활용하는 예시 양식입니다.
설치 환경, 카메라 조건, 분석 대상, 성능 기대치 등을 사전에 파악할 수 있도록 구성되어 있습니다.

[신규 Inbound 양식]
모든 항목은 복수 선택 / 공란 허용됩니다.
모르거나 확인이 어려운 항목은 아시는 대로만 작성해 주셔도 됩니다.

1. 고객 정보

End-user:
발주처:
사업명 (있을 경우):

2. 고객이 요구하는 기능 또는 상황 (복수 선택 가능)

☐ 특정 구역에 출입/잔류 인원 수 파악
☐ 야생동물, 사람 등의 침입 시 알림
☐ 사람이 쓰러진 상황 자동 감지
☐ 화재/연기 발생 시 빠른 탐지
☐ 보호구 착용 여부 탐지
☐ 사람 또는 차량의 이동 동선 파악
☐ 문자 또는 번호판 인식
☐ 얼굴 식별 또는 출입 통제
☐ 기타: __________

3. 카메라 / 설치 환경

3.1 설치 여부 및 기본 정보

설치 여부: [☐ 설치 완료 / ☐ 설치 예정 / ☐ 미정]
CCTV 제조사: [☐ 한화비전 / ☐ 기타: _______]
채널 수 (카메라 대수): [ ] 대
카메라 타입: [☐ 고정형 / ☐ PTZ / ☐ 360도 / ☐ 어안형(Fisheye) / ☐ 기타: _______]

3.2 해상도 및 조명 조건

화소/해상도: [☐ 1920x1080 / ☐ 4K / ☐ 기타: _______]
RGB/IR 여부: [☐ RGB(주간 전용) / ☐ IR(야간 전용) / ☐ 불확실]
야간 촬영 포함 여부: [☐ 야간 포함 / ☐ 주간만 / ☐ 불확실]
조명 유무: [☐ 있음 / ☐ 없음 / ☐ 불확실]

3.3 화각, 렌즈, 시야 조건

화각(FOV): [☐ 일반각(≤90°) / ☐ 광각(>120°) / ☐ 어안형(>180°)]
렌즈 초점 방식: [☐ 고정 초점 / ☐ 수동 가변 초점 / ☐ 원격 조절(모터 구동)]
촬영 각도: [☐ 정면 / ☐ 측면 / ☐ 사선 / ☐ 불확실]
시야 중첩 여부: [☐ 있음 / ☐ 없음 / ☐ 불확실]

3.4 설치 위치 및 주요 거리

설치 위치 및 높이: (예: 노지 외부, 2.5m)
주요 촬영 거리: (예: 객체까지 약 6m)

3.5 탐지 대상 관련

카메라 시야 캡쳐 이미지 여부: [☐ 있음 / ☐ 없음]
(※ 설치된 CCTV 영상의 대표 화면 1~2장 첨부 가능 시 체크)
영상 내 객체 크기 추정 (영상 없을 경우 작성):
(예: 화면에 사람 1~2명이 꽉 차게 보일 것으로 예상 / 5~6명까지 화면에 보일 수 있음 등)

4. AI 분석 조건

클래스 수 및 종류: (예: 사람, 멧돼지 = 2종)
샘플 영상 제공 여부: [☐ 있음 / ☐ 없음 / ☐ 확보 예정]
데이터 수집 방식: [☐ 고객 제공 / ☐ 당사 수집 / ☐ 미정]
성능 기대 수준: (예: 정확도 90% 이상, 오탐 최소화 등)
성능 기준 중 우선순위: [☐ 정확도 / ☐ 오탐 최소화 / ☐ 속도(Latency) / ☐ 누락 최소화 / ☐ 기타: _____]
결과 출력 방식: [☐ 실시간 알림 / ☐ 대시보드 / ☐ 리포트 / ☐ 불확실]

5. 요청 사항

요청 유형: [ ☐ 실제 도입 문의 / ☐ PoC 요청 / ☐ 기술 검토 목적 / ☐ 기타: _____ ]
개발 MM 요청 여부: [☐ 예 / ☐ 아니오]
하드웨어 관련 현황:
[☐ 견적 필요 (스펙 제안 요청)
☐ 사내 GPU/서버 보유 중 (모델명: _____)
☐ 아직 파악되지 않음 (확인 필요)]
사업 기간:
회신 희망일시: (예: 7월 23일 14시까지)
예상 예산 규모 (선택):
추가 요청 사항/메모:

마무리: 분석 설정은 누구를 위한 것인가?

객체지향 프로그래밍(OOP)의 설계 원칙 중 하나인
SRP(Single Responsibility Principle, 단일 책임 원칙)는
“하나의 책임(Responsibility)은 하나의 변화 주체(Actor)에 귀속돼야 한다”고 말합니다.

이 원칙은 단순히 코드 구조뿐 아니라,
Vision AI 시스템의 분석 설정 방식에도 통찰을 제공할 수 있습니다.

Vision AI 시스템은 다양한 CCTV 채널에서 입력된 영상을 분석하지만,
채널마다 설치 위치, 화각, 촬영 거리, 왜곡 정도가 다르기 때문에
동일한 Vision 모델을 적용하더라도 검출 결과의 품질이나 형태는 달라질 수 있습니다.

기술적인 변수 외에도 중요한 점은,
그 결과를 해석하고 활용하는 주체(Actor)에 따라
분석 결과가 갖는 의미 자체가 달라진다는 사실입니다.

보안 담당자는 “누가 들어왔는가”를 주로 보고,
안전 관리자는 “보호구 착용 여부”를 확인하며,
시설 관리자는 “쓰러짐 여부나 체류 시간”을 주목합니다.

즉, 같은 객체를 대상으로 하더라도
누가 그 결과를 보고 어떻게 해석하느냐에 따라
필요한 탐지 기준, 임계값, 알림 조건은 전혀 달라져야 합니다.

그럼에도 불구하고 많은 시스템은 여전히 객체 중심으로 구성되어 있어,
하나의 분석 설정(탐지 클래스, 임계값, 알림 조건 등)을
모든 채널에 일괄 적용하는 방식을 사용하고 있습니다.

그러나 분석 설정이 객체(Object)를 기준으로 일괄 고정되어서는,
실제 업무 목적에 부합하는 유연한 대응이 어려워집니다.

따라서 분석 설정은 객체가 아니라 Actor(사용자)의 역할과 목적에 따라 구성되어야 합니다.
이러한 관점은 “Single Actor Principle(SAP)”로도 알려져 있으며,
저 또한 이 원칙에 공감하고 실무 전반에 적용하고 있습니다.

각 CCTV 채널은 특정 Actor의 목적을 위해 설치되며,

어떤 객체를 탐지할지,
어떤 조건에서 경고할지,
어떤 방식으로 알림을 전달할지는
그 결과를 해석하고 책임지는 사람의 역할에 따라 달라져야 합니다.

객체 탐지 알고리즘은 “사실”을 판단하지만,
사람은 “맥락”을 해석합니다.
위에서 내려다본 시선, 정면에서 마주보는 시선, 아래에서 올려다본 시선은
동일한 객체라도 전혀 다른 의미를 만들어냅니다.

현재 담당 중인 Vision AI 제품은 이러한 SAP 관점에 따라,
CCTV 채널별뿐 아니라 사용자별로도 독립된 분석 설정을 구성하고 있으며,
모델, 클래스, 탐지 주기, 알림 주기, 임계값까지 채널 단위로 세분화해 운영되고 있습니다.

이는 단순한 기술적 구조가 아닌,
각 사용자(Actor)의 역할과 목적에 따라 책임을 분리하는 전략적 설계 방식이며,
현장에서 의미 있는 결과와 해석 가능성을 높이기 위한 구조적 기반입니다.

결국 Vision AI 시스템이 현장에서 유의미하게 작동하려면,
Object 중심이 아니라 Actor 중심의 분석 설정,
즉 SAP(Single Actor Principle)에 기반한 설계가 필요합니다.

Share on

Twitter Facebook LinkedIn

indexkim