서울시민 이동성에 관한 통신 빅데이터 분석을 통한 코로나19 감염병 확산 분석
코로나19 감염병의 효과적 대응 방법
2019년 말 중국 우한에서 최초로 확인된 코로나바이러스감염증-19 (COVID-19, 이하 ‘코로나19’)가 전세계로 급속하게 확산하기 시작한 가운데 2020년 세계보건기구(WHO)는 이 새로운 질병이 전세계적으로 유행하는 범유행인 팬데믹(Pandemic)으로 선언하였다. 국내는 2020년 1월 첫 확진자 발생후 2월 대구 신천지발 1차 대유행, 8월 교회발 2차 대유행, 11월 3차 대유행을 지나 2021년 7월부터는 코로나19 델타 변이 바이러스 확산으로 4차 대유행이 진행되었다. 이 바이러스의 확산을 막기 위한 대책을 세우려면 우리는 어떻게 해야 하는게 필요할까. 사람을 숙주로 퍼져나가는 바이러스의 특성상 이미 감염된 환자, 즉 확진자가 다녀갔던 동선을 추적하는 것이 가장 효율적인 방법이라고 논의되어 왔다. 그렇지만 감염병이 급격히 퍼져나가면서, 대량 확진자가 발생함에 따라 전통적인 방법으로는 확진자 동선을 파악하는 것은 매우 어려운 상황임이 확인되었다.
우리나라는 전례없는 감염병의 확산을 늦추기 위해 스마트 도시 개발에 활용되었던 기술에 이동통신 빅데이터(Mobile telecommunication Big Data, 이하 ‘MBD’) 등을 적극적으로 접목하였다. 확진자 동선 추적 기술을 신속히 개발하여 확산을 억제하고, 감염된 사람간의 접촉가능성을 감소시켜 질병의 전파를 늦추는 사회적 거리두기(social distancing), 정책안내를 위한 방역문자 발송 등 휴대폰을 통해 MBD는 감염병 관리에 중요한 수단으로 자리하게 되었다. 본 연구에서는 감염자의 위치정보와 활동 경로 추적이 용이한 MBD의 역학적 특성을 활용해 감염병 대응단계별 시뮬레이션 알고리즘을 개발하고 대도시권 감염병 관리를 위한 스마트 도시 기반의 도시 방역모델을 개발하였다.
이동통신 빅데이터 역학적 특성
1) 이동통신 빅데이터 처리과정
이동통신 빅데이터는 LTE/5G 단말이 이동통신 서비스 이용을 위해 무선 기지국과 접속 시 기지국에서 발생하는 실시간 데이터를 의미하며, 무선 기지국과 접속한 후, 정상적으로 호(call) 종료할 때, 핸드오버(hand over)를 통해서 이동할 때, 비정상적으로 종료될 때, 단말 단위 접속 정보 및 무선품질 정보가 콜-로그(Call-Log)로 만들어진다. 이러한 콜-로그는 무선기지국이 위치한 셀(Cell)의 위치정보를 이용하여 가입자의 통화이용에 대한 시간과 위치를 기록한다. 도심에서 셀의 위치정확도는 200m 수준이며, 코로나19 역학조사도 이 수준으로 위치정확도로 제공되고 있지만 본 연구에서는 위치별 무선품질을 데이터 등을 적용하여 50m 수준의 위치정확도로 개선한 SKT를 이용해 실험 데이터베이스를 구축하였다.
2) 이동통신 빅데이터의 역학적 특성
이동통신 빅데이터는 특히 습관적인 이동 패턴과 관련된 작업장 혹은 기타 환경에서 발생하는 노출 위험의 지리적 패턴의 좋은 예측 변수가 될 수 있고, 커뮤니티 전송 시나리오에서 확진사례 건수가 낮고 공간적으로 군집화된 경우 모빌리티 데이터가 위험 예측에 가장 중요한 가치를 지닌다. 정기적으로 수집되는 고유한 식별자가 있는 타임스탬프와 GPS 위치가 포함된 통화내역기록(Call Data Records, CDR)은 대규모 모집단 수준의 이동성 패턴을 특성화하기 위한 여러 가지 메트릭을 생성하는 데 사용될 수 있으며, 기종점 행렬(OD) 행렬은 시간 경과에 따라 분석하여 시간적 추세와 정기적으로 사람이 모이는 핫스팟(hotspot) 추정이 가능하다. 이를 바탕으로, 인구 집단 수준에서 개인의 인구 이동성 또는 클러스터의 변화를 확인할 수 있고 질병 전파양상을 통해 고위험지역인 핫스팟을 식별할 수 있다.
코로나19 감염병 대응을 위한 실험 데이터베이스 구축
1) 접촉추적기반 분석용 데이터베이스
대용량의 콜-로그 데이터를 활용하여 확진자의 동선 파악 또는 접촉자 파악을 위해서는 효율적인 전처리 과정이 필요하다. 콜-로그 데이터 특성상 단말기 고유 ID인 IMSI ID 별 데이터가 주기적이지 않고 같은 위치에 체류했을 경우 데이터가 반복적으로 누적되어 콜-로그 데이터 형식으로는 체류시간을 파악하기에 어려움이 있다. IMSI ID 별 체류시간 분석 및 데이터 용량을 줄이기 위해 연구에서는 데이터 형식을 IMSI ID, 시간 순으로 정렬하고 같은 위치에 체류 시작 시점과 종료 시점으로 콜-로그 데이터를 축약시켰다
2)가입자 동선 기반 기종점 통행량 행렬 데이터베이스
감염병은 인구의 이동과 밀접하게 연관되어있는 질병이므로 이를 파악하는 것이 감염병의 전파 상황을 이해하는데 매우 중요하다. 본 연구에서는 SKT와의 협업을 통해 익명화된 모바일 단말기 이동 데이터를 사용하여 지역 간 인구 이동을 표현할 수 있는 기종점 통행량 행렬(Origin-Destination matrix)을 구축하였다. 기종점 통행량 행렬을 만들기 위한 알고리즘은 다음과 같다.
이동통신 빅데이터를 이용한 코로나19 감염병 대응 알고리즘 개발
1) 접촉기반 코로나19 감염 확산 시뮬레이션
시뮬레이션을 위한 환경기준은 감염병 취약지역의 경우인 밀폐, 밀집, 밀접의 3밀환경과 불특정 다수 접촉으로 집단감염이 우려되는 접촉환경 정의를 바탕으로 학교, 교회, 요양병원 3종의 감염시나리오를 개발하였다. 코로나19은 평균 잠복기가 5일, 최대 14일이며 잠복기기간에도 전파 가능하다고 알려져 있으며 증상발생 5일전 (무증상자의 경우 검체 채취일 기준 2일 전)부터 접촉자 범위를 설정하였다. 미국의 질병통제예방센터(CDC)는 코로나19 감염자 또는 감염 의심자와 6피트(약 1.8m) 안에서 15분 넘게 연속 접촉한 이를 밀접 접촉자로 분류하고 있다.
○ 시나리오기반 확산 시나리오
시나리오 기반 확산 시뮬레이션은 첫째, 확진자 동선과 접촉자 추정 단계이다. 전처리된 접촉추적기반 분석용 체류 데이터를 기반으로 시나리오 확진자의 확진 일로부터 5일 전까지의 체류 위치 및 접촉자를 추출한다. 사용하는 SKT 통신데이터의 50m 위치오차를 고려하여 공간적 경계에서 50m 버퍼를 두었으며 같은 위치에 15분 이상 머물렀으면 체류 위치로 가정하였다. 대용량 데이터 분석의 효율성 및 코로나19의 평균 잠복기를 고려하여 확인일로부터 5일 전까지의 확진자의 동선과 접촉자 리스트 추출하였다. 둘째, 감염위험지수를 계산하는 단계이다. 많은 확진자와 자주 동선이 겹쳤을 때 감염위험 증가한다는 점을 가정해 추출된 시나리오 확진자들의 체류 위치 별 특정 범위내 특정시간 이상 체류한 횟수를 도출한다. 확진자와 오랫동안 동선이 겹쳤을 때 감염위험 증가한다는 점을 가정해 추출된 시나리오 확진자들의 체류위치 별 50m 이내에 15분 이상 체류한 시간을 계산하였다. 확진자와 상관없이 접촉자의 이동량이 많을수록 감염위험도 증가하는 것으로 산정하였다. 마지막으로 시나리오별 감염위험지수 결과를 분석한다([표 2] 참조).
분석결과 1인 일평균 확진자 접촉 횟수는 요양병원이 6.5회로 가장 높았다. 확진자 접촉시간은 학교가 일평균 173분으로 다른 시나리오에 비해 길었다. 가장 높은 감염위험지수를 보인시나리오는 요양병원으로 이는 시나리오 확진자 수가 24명으로 제일 높고 해당 건물이 다양한 목적으로 활용되는 주상복합건물이기 때문에 다른 단일 목적 건물인 시나리오보다 높은 것으로 추정된다.
○ 감염 확산 시나리오 시각화
감염 확산 시나리오 시각화에는 확진자, 감염자, 접촉자, 감염위험지수의 4가지 요소를 표현하였다. 확진자 (Confirmed cases, C)는 요양병원 시나리오의 경우 21년 4월 8일 24명의 확진자 발생을 가정하였다. 감염자 (Infected cases, I)는 확진자 동선정보로 추정된 예측 감염자를 의미한다. 접촉자 (Close contacts)는 확진자 및 예측 감염자와 15분 이상 반경 50m이내에 체류한 접촉자를 의미한다. 마지막으로 감염위험지수는 확진자 및 예측 감염자와 동선이 겹치면 위험도 증가 (확진일 5일 이전부터 누적)하게 계산되며, 행정동 단위로 집계된다.
요양병원, 교회, 학교 등 3종의 시뮬레이션은 확진자로부터 접촉자를 파악하고 감염위험지수를 통해 감염자와 감염자의 접촉자를 추정하였다. 요양병원 시나리오인 강서 중앙데이케어센터 요양병원은 단독 건물이 아닌 아파트와 상가가 같이 있는 주상복합건물로 5일 동안 확진자 1명당 476명의 접촉자가 있었다. 요양병원은 주상복합으로 접촉자가 많았으며, 교회는 특성상 평일에는 주변 지역에서 체류하다 일요일에 모이는 양상을 보이며 확진자 1명당 438명의 접촉자가 발생하였다. 시나리오 결과 요양병원 > 교회 > 학교의 순으로 1인당 접촉자가 크게 나타났다.
2) 모빌리티 SEIR 모형을 통한 비약제적 개입 효과 분석
확진 추세가 상승세로 예측되었을 때 사회적 거리두기 등 정책을 보다 발빠르게 시행하여확산을 방지하고자 비약제적 개입 효과를 측정할 수 있는 감염병 확산 모형으로 개발되었다. 비제약적 개입은 이동량을 직접적으로 감소시키는 ‘사회적 거리두기’와 각 상점의 밀집도 감소시키는 ‘집합 금지 조치’로 구분하였다. 분석에는 연구에서 개발한 분석용 기종점 행렬 데이터베이스를 모형에 사용하하여 이른바 모빌리티 SEIR 모형을 개발하였다. 모형을 통해 2021
년 말부터 시행된 백신 접종의 효과에 대해서도 평가를 시행하였다.
○ 모빌리티 SEIR 모형 개발
모집단을 S(감염대상군), E(접촉군), I(감염군), R(회복군)으로 분리하여 각 군의 변화를 파악하는 모형인 SEIR모형은 미분방정식의 형태로 연결하여 질병의 발생, 유행, 소멸의 과정을 표현한다. 연구에서는 접촉군을 내부 움직임에 의한 노출 및 외부 움직임에 의한 노출로 구분할 수 있다. 또한 내/외부 움직임에서 상권을 고려하였다. 자료분석결과 5인 집합금지 조치까지 시행시 확실한 감소추세를 보여준다. 2021년 1월 1일 ~ 1월 15일간 예측치에 대한 RMSE 결과, 5인 집합 금지 조치까지 시행시 가장 좋은 예측력을 보여주는 것으로 나타났다.
○ 자료 검증 결과
자료 검증 결과 그래프에서는 백신 접종 현행 유지(빨간 선), 백신 접종률 5배 증가(파란 선), 백신 접종률 10배 증가(초록 선)를 보여준다. 분석결과는 전체적으로 확진자 추세를 잘 파악하고 있다. 서울시 전체 결과로 볼 때 현행 유지(240명), 5배 증가(210명), 10배 증가(174명) 으로 감소하는 것을 확인할 수 있다.