본문 바로가기
DATABASE

4차 산업혁명의 블루오션 빅데이터를 알아보자

by GREEN MANGO 2022. 10. 4.

빅데이터(Big Data) 개요

빅데이터 주요 4요소

1. 인재(데이터 직종 전문가 등)

2. 데이터(정형/비정형)

3. 데이터 수집, 처리, 저장 기술

4. 데이터 분석 및 인사이트 또는 지식 도출 기술

 

빅데이터 분석의 기술적 특징

1. 빠른 의사결정이 덜 요구: 전략적 및 장기적 접근이 필요하다.

2. 높은 프로세스 복잡도: 다양한 데이터 소스와 로직 처리 복잡도가 높아 분산 처리 기술이 필요하다.

3. 방대한 데이터양

4. 높아지고 있는 비정형 데이터 비중 추세: SNS 데이터, 로그 파일, Stream Data 등 비정형 파일 피 중이 높아지고 있다. 

5. 처리와 분석 유연성 높다: 잘 정의된 데이터 모델, 데이터 사이 상관관계 등이 없어 기존 데이터 처리 방법에 비해 데이터 처리 및 분석 유연성이 높다.

6. 낮은 동시 처리량: 대용량 및 복잡한 처리가 가능하여 동시에 처리할 수 있는 데이터 양이 적다. 하지만 실시간 처리가 보장되어야 하는 데이터 분석에는 적합하지 않다. 

 

빅데이터 분류

1. 정형 데이터(Structured Data): 고정된 필드에 저장된 데이터로, 관계형 DB처럼 스키마(Schema) 형식에 맞게 저장된 데이터이다. RDB(관계형 데이터베이스), 스프레드시트가 정형 데이터의 대표적이다. 내부 시스템인 경우가 대부분이라 수집이 쉽고 내부의 형식을 가지고 있어 처리 역시 쉬운 편이다.

2. 반정형 데이터(Semi-Structured Data): 고정 필드에 저장되어 있지 않다. 메타 데이터나 스키마 등을 포함하는 데이터로, 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 형태이다. XML, HTML, 텍스트가 예이다. API로 제공되기 때문에 데이터 수집자에게 데이터 처리기술이 요구된다. 

3. 비정형 데이터(Unstructured Data): 관계형 모델에 맞지 않으며 데이터 구조가 일정하지 않는 데이터 형태이다. 또한 고정된 필드에 저장되어 있지 않다. 음성, 이미지, 동영상 등이 대표적 데이터 형식이다.  파일을 데이터 형태로 파싱(parsing) 해야 하기 때문에 수집한 데이터를 처리하기 어렵다. 

(더 자세한 내용은 링크로 들어가면 확인할 수 있다.)

 

 

빅데이터 처리 과정

1. 생성과정: 내/외부 데이터로 영역 구분되어 있고, 내부 데이터는 DB, 파일 관리시스템 등이 예이다. 외부 데이터는 멀티미디어, 스트림, 인터넷으로 연결된 파일 등이 예이다.

2. 수집 과정: 크롤링(Crawling)과 ETL(Extract, Transformation, Loading)으로 구분되며, 크롤링은 검색엔진을 이용한 데이터 수집 과정을 말하며, ETL은 소스 데이터의 추출, 전송, 변환, 적재 등의 프로세스를 말한다. 

3. 저장과정: NoSQL, Storage, Server 영역으로 구분되며, NoSQL은 비정형 데이터를 관리하고, Storage는 빅데이터 저장 그리고 서버는 초경량 서버를 말한다. 

4. 처리과정: 맵리듀스(MapReduce)와 프로세싱(Processing)으로 구분되며, 맵리듀스는 데이터 추출 프로세싱은 다중 업무 처리를 담당하다. 

5. 분석과정: 자연어 처리(NLP), 기계학습(ML), 직렬화(Serialization)로 구분되며, 기계학습은 데이터의 패턴을 발견하고 직렬화는 데이터 간 순서를 결정한다.

6. 표현과정: 시각화(Visualization)와 획득(Acquisition)으로 구분되며, 시각화는 도표 또는 그래픽적으로 표현하며 획득은 데이터의 획득과 데이터 재해석을 의미한다. 

위 6단계 과정을 쉽게 그림으로 표현한 링크를 남긴다. (3번째 매머드 데이터 빅데이터 통합 분석 기반 그림을 참고 바란다.)

반응형

댓글