[빅데이터] 빅데이터 활용 개발을 위한 공공데이터 포털
오늘의 포스팅 주제는 빅데이터 입니다. 요즘에 개발에서 핫한 주제는 인공지능 입니다. 하지만 인공지능을 공부하기에 앞서 선행되어야 하는 작업이 뭘까요? 바로 빅데이터입니다. 빅데이터라고 하면 이거 데이터들 그냥 모아놓은거 아냐? 이거 어디다가 쓰는거야? 이렇게 생각하실 수도 있습니다. 일단 빅데이터가 무엇인지 간단하게 알아보고 빅데이터를 활용할 수 있는 공공데이터 포털을 소개해 보도록 하겠습니다.
빅데이터와 인공지능의 은밀한 관계
빅 데이터와 인공 지능은 오늘날 컴퓨터 과학의 두 가지 중요한 분야입니다.
최근 몇 년간 빅데이터와 인공지능 분야의 연구는 멈추지 않고 있습니다. 빅데이터 기술의 발전은 많은 인공지능 이론과 방법을 사용하기 때문에 인공지능에 의존하고, 인공 지능의 개발도 빅 데이터 기술에 의존해야 하며 지원을 위해 수많은 데이터가 필요합니다. 이렇게 둘은 뗄라야 뗄수 없는 은밀한 관계를 형성하고 있습니다.
빅데이터의 특성
McKinsey는 빅 데이터의 4가지 특성을 방대한 데이터 규모, 빠른 데이터 흐름, 다양한 데이터 유형, 낮은 가치 밀도로 요약했습니다. 이것이 우리가 일반적으로 빅 데이터의 4V 특성이라고 부르는 것입니다.
이후 IBM은 다섯 번째 특성을 추가하여 업계에서 비교적 보편적인 빅데이터의 5V 특성인 빅데이터의 정의를 만들었습니다. 간단히 5V의 특성을 알아보도록 하겠습니다.
- 크기(Volume) : 첫 번째 V는 데이터의 양이 많기 때문에 빅 데이터 시대에 처리해야 할 데이터의 크기가 매우 큽니다. 현재 이 규모는 일반적으로 테라바이트 수준의 데이터 분석 및 마이닝에 사용됩니다.
- 속도(Velocity) : 두 번째 특성은 빠른 처리 속도입니다. 결과를 얻기 위해 데이터를 처리하는 데 몇 주, 몇 달 또는 그 이상이 걸렸지만 이제는 몇 분 또는 몇 초와 같은 더 짧은 시간에 결과를 얻어야 합니다.
- 다양성(Variety) : 세 번째 특성은 여러 유형의 데이터입니다. 이전에 처리할 수 있었던 데이터는 일반적으로 2차원 테이블로 구조화되었습니다. 그러나 빅데이터 시대에는 보다 다양한 데이터 유형을 처리해야 하며, 정형, 비정형, 반정형 데이터가 있습니다. 이러한 데이터는 빅데이터 기술에 의해 별도로 처리되거나 혼합되어 처리되어야 합니다.
- 값(Value) : 네 번째 특성은 낮은 데이터 값 밀도입니다. 데이터의 양은 매우 많지만 우리에게 소중한 데이터는 많지 않습니다. 이러한 데이터는 방대한 데이터의 바다에 잠겨 있기 때문에 데이터의 가치 밀도가 상대적으로 낮습니다. 즉, 수억 개의 데이터를 필터링하고 마이닝해야 하지만 수십 또는 수백 개의 유용한 데이터만 얻을 수 있습니다.
- 정확성(Veracity) :다섯 번째 특성은 네 번째 특성에 상대적입니다. 진실성이 말한 것은 상업적 가치의 가치가 더 높거나 더 실제적이라는 것입니다. 즉, 마이닝된 데이터의 가치가 의사 결정, 통찰력 또는 프로세스 최적화에 직접적으로 결정적이건 간에 매우 높습니다. 그래서 더 직관적입니다.
이러한 빅 데이터의 5V 특성은 오늘날의 빅 데이터가 데이터뿐만 아니라 데이터와 일련의 처리 기술을 의미함을 알려줍니다. 우리는 많은 양의 데이터에서 매우 짧은 시간에 작업에 가치가 있는 데이터의 일부를 찾아 마이닝해야 작업에 대한 의사 결정을 내리거나 최적화할 수 있습니다. 이 전체 프로세스를 빅 데이터라고 합니다.
공공데이터포털 소개
공공데이터포털(Data Portal)은 행정안전부에서 운영하는 공공데이터 통합제공 시스템입니다. 공공데이터포털(Data Portal)은 정부가 보유한 다양한 공공데이터를 개방하여 누구나 편리하고 손쉽게 활용할 수 있게 하는 것이 목적으로 행정안전부 공공데이터정책과에서 관련 정책을 추진하고 있습니다.
https://www.data.go.kr/index.do
공공데이터 포털
국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase
www.data.go.kr
공공데이터포털(Data Portal)에서의 정보활용
검색조건에서 원하고자 하는 검색어를 입력합니다. 저는 평범했던 우리의 삶을 무너뜨린 코로나를 검색어로 입력해보겠습니다. (데이터를 이용하려면 공공데이터포털에 가입하셔야 합니다.)
코로나에 관련하여 정부에서 제공하는 데이터 집합이 검색됩니다. 오픈 API탭을 선택하시고 원하시는 데이터셋을 선택합니다. 저는 코로나19 시.도발생 현황을 활용신청 하였습니다.
활용신청 버튼을 클릭하시면 아래화면처럼 OpenAPI 개발계정 신청 화면이 나타납니다. 활용목적을 선택하시고 목적을 간단하게 작성합니다.
이용허락범위를 선택하시고 활용신청을 하시면 해당 API에 대하여 활용하실 수 있습니다.
데이터활용탭을 보시면 공공데이터포털에서 제공하는 API를 활용하여 개발된 사례들을 보실 수 있습니다.
빅데이터에 관심을 가지고 계시거나 활용하고 싶으신분들은 공공데이터 포털을 이용하여 프로그램을 개발하시거나 이용해 보시시 바랍니다.
여기까지 이번 포스팅을 마치도록 하겠습니다.