서울시 CCTV 운영 현황 분석과 딥러닝 기반
범죄 상황 인지 기술 구현을 통한 지능형 CCTV 선별 관제 효율화 방안 제시
본격적인 지능형 CCTV 도입 추진에 앞서 지능형 CCTV 오탐 개선방안 마련 필요
서울시는 25개 자치구별로 통합관제센터를 별도 운영하고 있어, 개인정보보호법에 따른 영상정보 접근허용 규제 등으로 영상정보 제공 시 복잡한 절차를 거쳐야만 한다. 통합관제센터 간 실시간 영상공유가 어려워 자치구 연계 사건·사고 발생 시 골든타임 확보가 사실상 어려운 실정이다. 이에 서울시는 2018년부터 스마트 서울 안전망 구축을 본격 추진하여 25개 자치구와 112·119·재난센터 등을 개방형 클라우드 플랫폼으로 연계한 시민안전 5대 연계 서비스 시행을 추진하고 있다. 또한 2021년까지 지능형 CCTV 17,820대를 설치운영하는 그물망 안전체계 구축 계획을 발표한 바 있다. 다만 여전히 지능형 CCTV 오탐에 대한 우려가 존재하고, 현재 추진되고 있는 CCTV 확대설치 사업이 지능형 CCTV 영상 분석의 세부 요건을 적절히 고려하지 못하고 있어 해당 사업에 대한 긍정적 효과가 퇴색되고 있다. 이에 본 연구에서는 통합관제센터운영 현황 분석과 범죄 상황 인식을 위한 지능형 CCTV 시뮬레이터 구현을 통해, 향후 추진될 지능형 CCTV 설치기준을 정립하고 추후 운영단계에서 제기될 문제점들을 사전 방지하는 방안을 모색하는 데 주 목적을 두었다.
현재 설치되어 있는 기존 CCTV 중 지능형 CCTV로 활용할 수 있는 비중 파악 시급, 신규 설치 시 지능형 CCTV 영상분석에 필요한 최소 화각 확보해야
서울시는 지능형 CCTV를 별도로 설치하기보다 저해상도 CCTV를 교체하여 200만 화소 이상의 CCTV를 활용한 지능형 영상분석 솔루션 적용을 지향하고 있다. 그러나 실제로 카메라 특성과 화각 등의 문제로 지능형 CCTV로 활용할 수 있는 CCTV는 제한적인 실정이라 이에 대한 대책 마련이 시급하다. 이에 본 연구에서는 최소 화각 확보를 위한 설치방안을 제시하고 추가로 고려해야 할 사항을 다음과 같이 제안하였다.
- 원거리 탐지 객체의 경우 지능형 영상분석에 활용하기 어려우며, 식별조건에 따라 상이할 수 있으나 사람을 인식하기 위해서는 최소 500px/m 확보 필요
- 200만 화소카메라 기준, CCTV 최대 감시 거리는 약 41 m, 최대 장면 너비는 3.8m로 설정
- 반경 50m 기준으로 (100×100 격자) 신규 CCTV가 설치되면 향후 지능형 CCTV에 활용 가능한 CCTV 수는 크게 줄어들 수 있는 가능성 존
- 카메라 화소와 설치 앵글이 최적화된 고사양의 CCTV 카메라를 설치하여도 통합관제센터의 VMS 특성으로 인해 낮은 품질의 영상이 제공될 수 있음
- 낮은 조도에서 저품질 영상을 제공하여 가로등, 차량 라이트, 눈비 등에 매우 취약한 카메라가 존재 할 수 있기 때문에, 지능형 영상분석에 적합한 카메라 속성과 VMS 특성 고려 필요
CCTV 신규 설치 추진 시 서울시 도시 지역적 특성을 고려하여 확대 설치해야
행정안전부 빅데이터 표준분석모델(CCTV)의 경우, 서울시의 지역적 특성(수많은 좁은 골목, 시설 간 점이지역, 시간대별 유동인구 지역편차 등)을 적절히 반영하지 못할 수 있다. 따라서 실제 카메라 화각을 반영한 감시 반경설정과 기존 CCTV 영향지수 등을 적절히 반영할 수 있는 방안을 제시하였다.
- CCTV 설치좌표를 중심으로 50m 반경을 설정하여 100m×100m 감시면적을 생성하는 것은 CCTV 카메라 자체의 실제 감시면적을 적절히 반영하지 못함
- 서울시 전역의 지역적 특성을 전수조사하여 반영하는 것은 실현 가능성이 낮기 때문에, 삼거리 등 지역적 특수성이 있는 곳에 고정형과 회전형 CCTV를 동시에 설치하여 객체사라짐을 방지할 수 있는 감시 앵글 확보
- 삼거리의 경우 고정형 CCTV가 감지할 수 있는 거리를 벗어나는 경우, 중앙에 PTZ CCTV를 설치하여 감시 앵글 보완
- PTZ 카메라는 20초씩 한 방향만 감시하기 때문에 시간적으로 사각지대가 발생할 수 있는 한계가 있지만, 광학줌으로 원거리 사물의 디테일을 확인할 수 있어 지능형 영상분석에 적합
- CCTV 표준분석모델은 범죄취약지수 산정 시 범죄관련 민원 내용만 5단계로 구분하여 지수로 반영하고 있어, 실제 범죄데이터 적용 시 결과가 크게 상이할 수 있음
- 민원에 근거하여 범죄취약지수 산출 시 특정 민원인에 대한 가중치가 적용될 수 있기 때문에 이에 대한 선별과정 포함 필요
- 가중치 산정식에도 범죄에 취약한 1인 가구비율을 추가로 포함하고, CCTV 설치 위치와 실제 범죄발생위치를 공간 매핑하여 산식 반영 필요
- 실제 범죄율과 지역적 특성(막혀 있는 골목, 갈림길이 계속 이어지는 골목, 주택외벽·빌딩·안내판·산책로 나무 시야 가림 등)을 고려하여 감시반경을 25m 이내로 유연하게 적용
- 현재 비예산으로 진행되고 있는 CCTV 최적지 선정에 관련하여, 별도 예산을 편성하여 CCTV 표준분석모델의 한계를 보완할 수 있는 장기적 관점의 서울시 수정모델 개발 필요
통합관제센터 관제 요원 1인당 평균 605대 관제, 단계별 선별관제 도입 추진해야
행정안전부 기준 1인당 적정 CCTV 관제대수 50대에 비해 서울시 자치구 통합관제센터 관제 요원은 1인당 평균 605대를 관제하고 있는 것으로 조사되어, 육안관제의 한계를 보완하기 위한 단계별 선별관제 도입이 추진되어야 한다.
- 인간의 선택적 주의 메커니즘 한계에 따라, 영상을 감시한 지 12분이 지나면 관제요원은 현장의 움직임을 45%까지 놓칠 수 있고, 22분 이상이 지나면 95%까지 관제효율 저하
- 자치구 통합관제센터의 관제효율을 제고하기 위해 오탐이 적은 기술영역에 한해 딥러닝 기반의 지능형 선별관제 추진
- 선별관제 도입 추진시 현장에서 충분히 검증되고 재학습 데이터 파이프라인이 존재하는 딥러닝 솔루션을 시범적으로 테스트하는 것이 필요
- 특별한 시간대에 특정 대상이나 특정 행동을 집중 관제하기 위한 불가피한 경우가 아니면 화면 확대, 카메라 회전 등의 CCTV 임의 조작 금지
- 선별관제 도입 추진 시 자치구별 범죄발생률이 높은 특정 시간대에 한하여 관리자의 승인하에 법에 저촉되지 않는 범위 내에서 이를 원활하게 할 수 있는 명확한 기준 및 가이드라인 제정 필요
상용화된 지능형 CCTV 솔루션과 유사한 시뮬레이터를 구현·테스트하여 현재 기술의 한계를 규명하고 대안과 발전방안 제시
국내에는 44개의 지능형 CCTV 인증 제품이 존재하나, 객체 간 중첩이나 동적배경 등에 취약한 구현방식의 한계로 인해 오탐이 많이 보고되고 있다. 이에 본 연구에서는 유사한 메커니즘으로 시뮬레이터를 구현하고 탐지 임계치를 테스트하여 오탐 저감을 위한 방안을 마련하고자 하였다. 구현 시뮬레이터에는 CCTV 영상 내 빠른 객체 탐지를 위해 COCO 데이터 셋 기반의 YOLOv3 딥러닝 알고리즘을 적용하였다. 또한 폭력 등의 범죄 상황을 인식하기 위해 룰셋 기반의 모션벡터 분석 알고리즘을 적용하였다.
알고리즘 룰베이스 민감도 조절을 통해, 구현 시뮬레이터의 활용성을 다양한 방식으로 테스트하였다. 10명 이상의 사람이 특정 공간에 있는 경우, 카메라 화각이 좁은 경우, 객체 간 중첩 또는 객체가 타 오브젝트와 중첩되는 경우, 단순 시비 상황, 몸싸움, 다수의 싸움 상황 등을 연출하여 다양한 방식으로 알고리즘의 사용가능성과 한계를 테스트하였다. 테스트 결과, 배회·침입 이벤트의 경우는 YOLOv3 알고리즘 특성상 아주 많은 사람이 밀집해 있는 상황을 제외하고, 5~10명의 사람이 다양한 방식(동시 또는 순차적으로 경계선 또는 ROI 진입/벗어남 등)으로 테스트 한 경우에도 오탐과 미탐이 상대적으로 적었다. 다만, 좁은 지역에서 충분한 화각이 나오지 않은 경우에는 미탐이 종종 발생하였다. 쓰러짐 이벤트의 경우에는 넓은 공간에서 단일 사람의 쓰러짐 행위 탐지 시 정탐률이 높았으나 머리가 일부 가려지거나 타 오브젝트와 몸이 중첩되는 경우에는 오탐이 빈번하게 발생하였다. 또한 10명 이상의 다수가 밀집한 상황에서, 실제로 쓰러지는 사람 이외의 유사행동을 하는 사람이 있는 경우에 주로 오탐이 발생하였다. 오인식이 발생한 경우, 오인식을 유발한 대상자가 해당 카메라 영역에서 사라지기 이전까지 오탐 및 미탐 상황이 지속되었다. 따라서 도시지형 특성상 전신주의 전선이나 통신선 또는 나뭇가지가 CCTV의 화각을 지나치게 가리는 장소보다는 적절한 카메라 화각이 확보되는 넓은 공간의 유동인구가 적은 곳에서 해당 이벤트 감지를 시범 적용하고 개선해나가는 것이 효과적일 것으로 판단된다. 싸움 이벤트의 경우, 장난 등과 같이 단순 움직임이 많은 상황에 오탐이 많이 발생하였고, 사람 간 겹침이 많은 경우에 미탐이 발생하였다. 또한 명확히 팔과 다리의 움직임이 타 오브젝트에 의해 부분 중첩될 경우 탐지에 문제가 발생하였다. 따라서 침입, 배회 감지 등 정확한 객체 감지 알고리즘과 단순한 휴리스틱 기반 룰베이스 설정으로 오탐을 줄일 수 있는 방식은 현장 상황에 맞춰 유연하게 사용하되, 싸움, 폭력, 절도 등의 복잡한 객체의 움직임을 지속적으로 분석하여 판단해야 하는 범죄 상황 등의 탐지는 다른 방식으로 접근하는 것이 필요하다. 따라서 본 연구에서는 영상 자체를 학습시켜 그 영상이 정상 상황인지 이상 상황인지만을 판별하는 동영상 학습 기반 딥러닝 모델을 구현하여 그 활용가능성을 추가적으로 테스트하였다.
오픈 소스 기반 동영상 학습 딥러닝 범죄 상황 인식 시뮬레이터 구현을 통한 지능형 CCTV 고도화 방안 제시
빠르게 변화하는 실제 CCTV 설치 현장은 예상보다 훨씬 더 복잡하고 다양한 행위가 일어나며, 기존 알고리즘으로 모든 이상 상황을 모두 고려하여 룰베이스에 반영하는 것은 현실적으로 불가능하다. 따라서 이러한 지능형 관제 시스템의 이상행위 감지 알고리즘은 특정한 이벤트에 대한 알고리즘에 의존하여 확장시키기보다는 최소한의 접근으로 알고리즘을 학습시켜 이상행위를 탐지해 낼 필요가 있다. 이에 본 연구에서는 매우 적은 단서로 필요한 정보를 찾아내는 스파스 사전 학습 기반의 이상 행동 패턴 방식을 적용하여 시뮬레이터를 구현하였다. 스파스 사전 학습에 기반한 정상 행동의 패턴을 학습하는 방식을 시도하고 재구성 오차가 큰 패턴은 이상 상황으로 분류하는 딥러닝 네트워크를 적용하였다. C언어 기반으로 인터페이스를 구성하여 실시간으로 영상을 스트리밍하여 메인화면에 디스플레이하고 현재 상황발생여부 상태값과 탐지 이벤트 등을 디스플레이할 수 있도록 구성하였다. Rank 클래스 분류방식을 활용하고 범죄 상황 발생 시 시청각적 알람을 제공하여 관제 요원의 유연한 대처가 가능하도록 하였다. UCF 데이터 셋으로 모델을 학습시킨 후 성능 테스트를 수행한 결과, 정상 영상을 이상 상황이라고 잘못 판단한 오탐률은 1.9(50% 임계치 기준)로 학습된 데이터 셋에 한하여 매우 낮음이 보고되었다.