본문 바로가기

분류 전체보기20

데이터 수집 기술 수집 방법론 1. HTTP 수집: 웹 스크래핑, OPEN API 파싱, 크롤링, 스크래핑 차이는 무엇인가? 용어 정리를 해보자. 파싱이란, 어떤 웹 페이지에서 데이터를 특정 패턴 또는 순서로 추출, 분석 그리고 가공하는 작업이다. 크롤링이란, 웹 페이지를 수집, 분류 그리고 저장함으로서 나중에 쉽게 찾아볼 수 있도록 인덱싱하는 것을 말한다. 서점 직원이나 도서관 직원이 책을 체계적으로 분류하는 것과 비슷하다. 스크래핑이란, 데이터를 수집하는 모든 과정을 말한다. 즉, 크롤링은 스크래핑 기술 중 하나이다. 웹 상이나 문서 등 여러 곳에 있는 데이터를 스크래핑(또는 크롤링)하여 데이터를 수집하고 이를 바탕으로 가공(파싱)하여 목적하는 데이터를 빼내서 활용한다라고 정리해볼 수 있다. 2. 로그 수집 각종 시스.. 2022. 10. 5.
빅데이터를 가지고 어떻게 기획하며 활용해야 할까? 본론에 앞서 빅데이터를 분석한다는 의미는 표면적인 차원 너머 새로운 Insight, 즉 통찰력을 얻고 제공할 목적으로 데이터를 수학적 및 과학적으로 활용한다는 것이다. 빅데이터 분석하여 얻을 수 있는 가치는 단순한 현상에 나온 결과를 분석하는 것부터 미래 예측까지 분석하는 것을 포함한다. 빅데이터 기획 순서 1. 빅데이터 수집: 수집 대상 데이터 선정, 수집 세부 계획 수립, 수집 실행, 빅데이터 변환 및 통합 활동 2. 빅데이터 저장: 전처리 - 목적에 맞지 않는 정보는 제거하여 저장 공간을 효율적으로 활용한다. 비정형 데이터의 경우에는 데이터 마이닝을 통해 오류 및 중복을 제거하여 저품질 데이터를 개선한다. 이밖에도 자연어 처리 및 기계학습과 같은 기술을 적용한다. 후처리 - 다양한 형식으로 수집된 .. 2022. 10. 4.
4차 산업혁명의 블루오션 빅데이터를 알아보자 빅데이터(Big Data) 개요 빅데이터 주요 4요소 1. 인재(데이터 직종 전문가 등) 2. 데이터(정형/비정형) 3. 데이터 수집, 처리, 저장 기술 4. 데이터 분석 및 인사이트 또는 지식 도출 기술 빅데이터 분석의 기술적 특징 1. 빠른 의사결정이 덜 요구: 전략적 및 장기적 접근이 필요하다. 2. 높은 프로세스 복잡도: 다양한 데이터 소스와 로직 처리 복잡도가 높아 분산 처리 기술이 필요하다. 3. 방대한 데이터양 4. 높아지고 있는 비정형 데이터 비중 추세: SNS 데이터, 로그 파일, Stream Data 등 비정형 파일 피 중이 높아지고 있다. 5. 처리와 분석 유연성 높다: 잘 정의된 데이터 모델, 데이터 사이 상관관계 등이 없어 기존 데이터 처리 방법에 비해 데이터 처리 및 분석 유연성.. 2022. 10. 4.
데이터 수집 절차 설계 데이터 수집 절차 설계 1. 데이터 선정 - 수집 가능성, 보안 문제, 데이터 정확성, 수집 난이도, 수집 비용 수집 가능성 측면: 데이터 수집 주기와 데이터 활용하기 위한 처리비용이 중요하다. 그 이유는 좋은 데이터가 있어도 데이터 수집 주기 통제가 불안정 및 불완전하다면, 원천 데이터에 의존하게 돼서 안정되고 통제 가능한 수집 주기성이 필요하다. 더하여, 수집이 용이하더라도 데이터 처리(전처리 및 후처리)할 때 처리비용이 많이 들어가게 되면, 데이터 수집이 좋다고 말할 수 없다. 보안 문제 측면: 개인정보보호문제 또는 저작권 문제가 발생할 때 서비스 활용에 대한 심각한 문제가 발생하므로 반드시 검토해야 할 부분이다. 정확성 측면: 서비스 활용목적에 대한 세부내용이 존재하는지 검토하고 수집 목적에 맞는.. 2022. 10. 4.