[Kaggle]Covid in 한국

2021. 1. 21. 17:07Project

이번에는 Kaggle을 통해 대한민국의 코로나 상황을 분석해보겠습니다.

 

먼저 Kaggle이란 데이터 사이언스 경진 대회 플랫폼입니다. 즉 데이터를 분석하는 대회입니다. 

 

전세계의 여러 사람들과 주어진 데이터를 분석하는 사이트입니다.

 

Python과 R을 사용하여 데이터를 분석할 수 있는데,

 

오늘은 Python을 바탕으로 매우 간단하게 분석을 해보려 합니다.

 

주제는, 요즘 가장 이슈인 코로나바이러에 대한 분석을 해보려 합니다.

 

현재 대한민국에서 발생하는 코로나 바이러스에 대해 주어진 데이터를 가지고 분석을 해보려 합니다.

 

 

오늘은 Kaggle의 Notebook을 사용하여 분석을 실시해보려 합니다.

 

먼저 필요한 라이브러리를 불러오기 위해 아래와 같이 작성하겠습니다.

numpy, pandas, os 라이브러리를 불러오는 작업입니다.

 

그리고, 이번에는 캐글에서 제공하는 데이터를 불러오는 작업을 해보겠습니다.

1월부터 6월까지 한국에서 코로나바이러스의 진행과정을 보여주는 엑셀 데이터인데 이것을 불러들였습니다.

 

한번, 이 데이터를 그래프를 통해 확인해보겠습니다.

위와 같이 그래프가 표시되는것을 확인할 수 있으나, 그래프에 대한 어떠한 설명이 없어서 그래프으로만 데이터의 해석이 매우 힘든것을 확인할 수 있습니다.

 

먼저, 불필요한 데이터인 "time"컬럼을 제거해 보겠습니다.

위와 같이 "time"컬럼을 제거하고 데이터를 다시 확인해보면, "time"컬럼이 잘 제거된 부분을 확인할 수 있습니다.

 

그 다음에는, 그래프의 해석을 용이하게 하기위해, x축 에 "date"인덱스를 설정해주는 작업을 해볼것입니다.

위와 같이 작성후 적용해보면, "date"즉 날짜에 따라 데이터들이 정렬되는것을 확인해 볼 수 있습니다.

작성한 데이터를 그래프로 확인해보면,

위와 같이 날짜가 지남에 따라 코로나바이러스의 상황을 확인할 수 있습니다.

 

그러나 "date"의 값들이 겹쳐져 있어 제대로 확인이 불가능한것을 확인할 수 있습니다.

따라서, 이를 식별하기 더 좋게 작성해 보겠습니다.

위와 같이 x축을 45도 정도 기울여서 그래프의 해석이 용이하게 만들었습니다. 

위 그래프를 통해 점점 질병률이 높아지고 있는것을 확인할 수 있습니다.

 

그리고 이번에는 여러 그래프들이 겹쳐져 있는데, 이를 하나하나씩 좀더 해석하기 용이하게 만들어 보겠습니다.

subplots을 생성하여 개별의 그래프를 위와 같이 만드는 작업을 시행한것을 확인할 수 있습니다.

 

 

 

이처럼 Kaggle에는 정말 다양하고 많은 데이터들이 있습니다.

앞으로 다양한 데이터를 가지고 분석하고 정제하고 예측하는 작업을 많이 시행해보며, 데이터분석 능력을 향상시킬 예정입니다.