본문 바로가기
  • 문과생의 백엔드 개발자 성장기
|Playdata_study

210415_빅데이터 개요2

by 케리's 2021. 4. 17.

* 데이터의 흐름의 이해와 숙지

* 빅데이터 이해 및 설명

* 빅데이터의 적재 흐름과 분석 흐름 이해 및 설명

 

통신 → 보안

A - B

 

 

참조 (CRUD) : 상대방의 주소(*&->, .) 를 내가 가지고 있으면서 연결된 상태

▷ Create , Read, Update, Delete 

 ex) A [192.6.9.10/Test/b.txt] 

      B [(192.6.9.10)라는 pc안에 Test라는 폴더가 있고 Test라는 폴더 안에는 b.txt 파일이 있다]

         [B\Test\b.txt] 로 표기

ex) A [(https://192.6.9.10:80/Test/index.html)]

     B [(192.6.9.10) IP와 (80) Port 안에 Test라는 폴더가 있고 그 하위에는 index.html 파일이 있다]

 

Meta와 Metadata 

Meta : 속성을 가진 것

Metadata : 속성을 가진 데이터

 

변수

ex) 이름을 부르면 답을 한다. 사람=길동, 사람=길순
A=900 , A를 부르면 A가 가진 값을 리턴한다.
B=10000, B를 호출하게 되면 10000을 리턴한다.
C=B , (C=10000)  C를 호출하게 되면 10000을 리턴한다.
※ 변수=값

A={1,2,3,4,5}
{A:900} A(key)에다가 900(value)을 대입했다.

 

빅데이터 속성

3V가 반드시 존재해야 함

Volume 대용량(용량), Velocity 빠르기(속도), Variety 다양성(데이터의 종류)

정형 : .sql 데이터 베이스에서 처리 (Table)
비정형 : 로그(.log), 비디오, 오디오, 이미지 데이터. json
반정형:. xml,. html

 

 PC 

Web application Server (WAS)

: 일종의 미들웨어로 웹 클라이언트(웹 브라우저)의 요청 중 웹 애플리케이션이 동작하도록 지원하는 목적을 가진다
 → 폴더(Project)와 모든 파일(프로그램 파일)을 URL로 매핑시킨다.
 → 매핑시킨  URL파일을 접근할 때마다. log라는 파일에 접근 정보를 기록시킨다.

 

 

Hadoop

빅데이터 

비정형 데이터를 저장하기 위한 클러스트로 묶여져 있는 구조 + spark 

 

데이터 웨어하우스 (DW)

정형데이터를 저장하기 위한 클러스터 구조 + spark 

 

*spark

실시간 자료를 뽑아오는 것

데이터 분석

1. 비판적으로 본다
2. 통계분석 vs 단순 리포트 ,  데이터 마이닝  vs 시각화 ,  온라인분석 

데이터마이닝 

대량의 데이터를 수치화시켜서 숫자끼리 연관관계를 도출한다.
데이터 간의 연관관계를 이용해서 특정 목적 비용을 산출시킨다.

 

개념적인 분석기법 리뷰 
1. 과거 가치 

2. 현재가치

3. 잠재가치 

 

데이터 분석 방법의 구분 

데이터 의미 표현을 위한 분석

→ 저장 모델은 따로 있음
OLAP (온라인 분석, 다차원 query 구현)
Reporting (수치 연산에 관한 결과)
시각화 (의미 표현 분석)

추측과 의미 파악을 위한 분석
통계
마이닝
기계학습

 의사 결정에 직접 활용하기 위한 분석
최적화
예측
시뮬레이션

 

 

실제 데이터

모델링

ex) 100개의 데이터가 들어왔을 때 원하는 알고리즘을 통해서 4개의 카테고리로 분류하고 싶다. 

     단 데이터가 분류에 속하지 않은 자료는 20개 제한한다.

 

테스트 데이터

숫자만 올 수 있음

 

전처리

결측, 중복(잡음, noise), 유실 데이터
"알고리즘(목푯값) → 오차값(기댓값, 임계값) (오차 손실 함수) → 정확도"
최적화, 예측, 시뮬레이션 → 검증작업

"알고리즘 1(목푯값 X) → 무한루프(임계값 될 때까지) 알고리즘 2 (목푯값 O)"


결과 예측률

딥러닝의 목적은 많은 데이터를 적은 비용(손실률)으로 정확한 결과를 예측하는 것

'|Playdata_study' 카테고리의 다른 글

210414_빅데이터 개요1  (0) 2021.04.15

댓글