본문 바로가기
DATABASE

데이터 수집 절차 설계

by GREEN MANGO 2022. 10. 4.

데이터 수집 절차 설계

 

1. 데이터 선정 - 수집 가능성, 보안 문제, 데이터 정확성, 수집 난이도, 수집 비용

수집 가능성 측면: 데이터 수집 주기와 데이터 활용하기 위한 처리비용이 중요하다. 그 이유는 좋은 데이터가 있어도 데이터 수집 주기 통제가 불안정 및 불완전하다면, 원천 데이터에 의존하게 돼서 안정되고 통제 가능한 수집 주기성이 필요하다. 더하여, 수집이 용이하더라도 데이터 처리(전처리 및 후처리)할 때 처리비용이 많이 들어가게 되면, 데이터 수집이 좋다고 말할 수 없다. 

 

보안 문제 측면: 개인정보보호문제 또는 저작권 문제가 발생할 때 서비스 활용에 대한 심각한 문제가 발생하므로 반드시 검토해야 할 부분이다. 

 

정확성 측면: 서비스 활용목적에 대한 세부내용이 존재하는지 검토하고 수집 목적에 맞는 사전처리와 수집한 데이터에 대한 사후처리 방안이 필요하다. 

 

수집 난이도 측면: 데이터 수집 및 처리에 구축비용이 얼마나 드는지 고려해야 하는 경우, 분석 및 설계에 필요한 데이터를 얻기 위해 많은 정제 과정이 필요한 지 유무, 수집 난이도와 트래픽양 그리고 저장처리장치 용량을 고려해야 하는 경우 등이 있다. 

 

수집 비용: 데이터 수집을 위해 직접적으로 들어가는 비용을 말하며, 비용이 많이 발생하는 경우 재검토가 필요하다. 

 

 

2. 수집 세부계획 수립 - 수집 데이터 위치 파악, 데이터 유형 파악, 수집 방법 적용 및 보안사항 점검, 수집 계획서 작성

수집 데이터 위치 파악 측면: 내부 데이터의 경우, 내부 시스템과 데이터 연계 가능 여부를 파악하고 데이터 종류와 수집 주기 등 인터페이스 정의서를 작성한다. 외부 데이터 경우, 크롤링을 통해 데이터를 가져오면 외부 시스템의 수명주기 및 저작권 문제 등 검토 진행하고 open API는 개방 데이터 종류와 형태를 파악하여 데이터의 양과 트래픽을 확인한다. 그리고 연계 방식 및 절차 수집기술 적용방안을 검토한다. 

 

데이터 유형 파악 측면: 정형 및 비정형 형태는 RDB 형식을 갖고 있으며, 수집 방법론은 RDB 벤더제공 드라이버, ETL, DB to DB 등이 있다. 반면 반정형 형태는 파일 형식이 일반적이며, 크롤링, API, FTP, HTTP 등의 데이터 수집 방법론이 있다. 

형태 특징  형식
정형 데이터 스키마 지원 RDB, 파일
반정형 데이터 내 메타 속성이 존재 파일
비정형 분석 가능한 텍스트형, 이미지, 음성 등 RDB, 파일

수집 계획서 작성 측면

- 데이터 소스

항목 작성 내용
소스 위치 내부시스템: 특정 RDB의 IP, PORT 등이 포함
외부시스템: URI 기술
데이터 유형 물리적 데이터인 경우, 데이터 유형을 파일 종류, RDB일 경우 DBMS 종류 기술
인터페이스 수집 항목 세부내용에 대해 인터페이스 요소 기술
데이트 담당자 소스 데이터의 데이터 담당자와 연락처 기술, 대표 URL 기술(담당자를 알지 못하는 경우)
협약 내용 데이터 원천 담당자와 협의한 내용을 기록

- 데이터 수집 주기 구성요소: 주기설정, 데이터양, 트래픽양 

- 데이터 수집 방법 구성요소: 적용기술(크롤링, 스크래핑, 기술 이름, 버전 등), 데이터 사전처리, 사후처리

 

 

3. 테스트 수집 실행 - 수집 테스트 기술적 및 업무적 검토

데이터 선정 시 고려했던 수집 가능성, 보안문제, 데이터 정확성을 만족시키는지 검증하고 수집 데이터의 활용 측면까지 검토한다.

- 수집 테스트 기술적 검토 측면: 원하는 데이터를 제대로 수집했는지 확인하고 최적의 방법으로 적용했는지 검토한다. 검토사항은 Dataset의 누락 여부 확인, 소스 데이터와 비교 그리고 데이터의 정확성이 있다. 

- 수집 테스트 업무적 검토 측면: 개인정보보안 과 저작권 관련 사항 그리고 협약 기관에 많은 트래픽 발생시킬 경우 제약 사항들을 재검토한다. (검토사항: 보안사항, 저작권, 대용량 트래픽)

 

반응형

댓글