본문 바로가기
  • 문과생의 백엔드 개발자 성장기

전체 글199

210720_Numpy (array, random, 인덱싱, 슬라이싱) AI : 머신러닝/딥러닝(더 deep하게 들어간다) NN -> FNN, ANN, DNN, CNN(여기서 부터 딥러닝이시작) → UGG, UNGT 1. 데이터분석 Numby / Pandas (Series, DataFrame - 데이터프레임 정수) Matplot/seaborn : 시각화 Featuer Engineering Data PreProcessing Visualization 2. 머신러닝 머신에서 기기가 학습한다. 머신이 학습하기위해 머신에 데이터를 제공해야한다 (big data) bigdata는 Feature, 전처리가 되어있어야한다. 1) 학습의형태 지도학습 : 기업에서 추구 Decision Tree, Random Forest, Boostring, Linear, Sum 비지도학습 Clastrerin.. 2021. 7. 20.
210716_HADOOP(MR작업) MapReduce docs https://hadoop.apache.org/docs/r2.10.1/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v2.0 2021. 7. 16.
210715_HADOOP(HDFS3 연결최종) Hadoop 을 가장 안정적으로 설치하는 방법 1. (root)계정 /usr/local 밑에 java랑 hadoop을 압축풀어 설치 2. /home/hadoop/하위에 ln으로 링크를 건다. (vi hosts emdfhr, etc 밑에 환경설정 끝나고 tmp폴더 만들고 data폴더 만든다) ------------------- 여러번 해보기 ------------------------- 3. (root로 접속한 hadoop계정) 온다. 4. root에서 건 링크가 hadoop계정에서 제대로 잘 걸렸는지 확인 (소프트링크, 2번에서 함) 5. 전체 reboot 6. 복제 7. (hadoop계정으로 접속) 후 root로 가서 java, hadoop 전역패스 건다. 8. 다시 하둡계정으로 와서 ssh를 한다 s.. 2021. 7. 15.
210714_HADOOP (MapReduce 2) MapReduce Tutorial 2 https://hadoop.apache.org/docs/r2.10.1/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v2.0 1. JPS 올린다 jps 는 전체 실행하는 어플리케이션 2. 파이어폭스(브라우저)열고 hadoop01은 localhost:50070 , 나머지 머신은 hadoop01:50070 으로 맞춘다. 만약 연결이 안될때는 아래와 같이 실행한 후 열어 보자. VM virtualbox → 머신(hadoop01) 오른쪽 마우스 클릭 → 설정 → 네트워크 → 고급 → 포트 포워딩 → 이름, 프로토콜, 포스트 ip , 포스트포트, 게스트 .. 2021. 7. 14.
210713_HADOOP (HDFS Format) MR 전에 연결 및 포맷 작업 👏 꼭 master 서버에서 진행! 1. namenode를 포맷하기 전 /data/hadoop/dfs/name/current 내용을 확인해보자 2. namenode 포맷 (name/current 초기화 및 재 생성) : 해당 경로에 폴더와 파일 생성 확인 [hadoop@hadoop01 ~]$ source ~/.bash_profile [hadoop@hadoop01 ~]$ pwd /home/hadoop [hadoop@hadoop01 ~]$ cd hadoop/bin [hadoop@hadoop01 bin]$ hdfs namenode -format 21/07/13 10:59:48 INFO namenode.NameNode: STARTUP_MSG: /********************.. 2021. 7. 14.
210712_HADOOP (환경설정 및 WordCount2 예제1) Hadoop Echo System : 사용목적에 따라 선택해서 사용하면 된다. Pig - 내부에서 데이터 관리 Hive - 데이터웨어하우징(DW)용 솔루션 (정형 데이터를 한 대 이상의 클러스터를 묶어 관리) 데이터 수집, 저장 역할이 많으면 사용 하둡 안에 Hive 라는 서버를 만들어서 클라이언트 관리한다. (server, client) 데이터를 크게 관리한다는 측면에서 다른 에코시스템과 다르다 Spark - 실시간 데이터를 필요하면 바로 당겨오거나 거쳐올 수 있다. HDFS - 대규모 데이터를 저장하고 배치를 저장할 때 호스트가 연결 되어있는 상태에서 데이터를 업로드 하게된다. - Master = name노드와 같다, name노드는 모든 메타데이터, 슬레이브 설정을 기록하는 역할 root밑에 data.. 2021. 7. 12.
210709_HADOOP(설치 + Java설치) 자바 설치 전 yum (yum clean all ~) 을 모두 설치 했기 때문에 3번 바로 자바 설치를 했음! (혹시 몰라 1, 2번 프로세서도 적어둠) 1. 프로그램 guest 및 그룹 추가 : 안되면 두 번째와 같이 yum을 다시 설치 및 업데이트 하자 [root@hadoop01 ~]# yum install update [root@hadoop01 ~]# sudo yum install update kernel* [root@hadoop01 ~]# /etc/group 1. yum clean all 2. echo "https://vault.centos.org/6.10/os/x86_64/" > /var/cache/yum/x86_64/6/base/mirrorlist.txt echo "https://vault.c.. 2021. 7. 9.
210708_HADOOP (개요) HADOOP DOCS 1. hadoop main docs : https://hadoop.apache.org/docs/r2.10.1/ 2. hadoop reference docs : https://hadoop.apache.org/docs/r2.10.1/api/index.html 설치 종류 General → Single Node Setup → 한대 만 설치 → 리눅스 설치 Cluster Setup → 여러 대 설치 , 하둡 설치 시 사용? 하둡 기초 General → HDFS (Architecture) → MapReduce → YARN 1) org.apache.hadoop // org.apache.hadoop.HadoopIllegalArgumentExceptio : 하둡 사용시 에러 → 확인 2) org.a.. 2021. 7. 8.
210707_Linux (설치 및 명령어) Linux 설치 1. 이클립스 → 오른쪽 마우스 클릭 → new → other → maven 있는지 확인 2. VM virtualBox 를 다운받는다. https://www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to VirtualBox binaries and its source code. VirtualBox binaries By downloading, you agree to the terms and conditions of the respective license. If you're looking for the latest VirtualBox 6.0 .. 2021. 7. 7.