IT/[ Bigdata ] 6

[ Bigdata ] 05. R과 크롤링(Crawling)

20-03-19 목 Mapredce 와 HDFS 위에 몽고디비가 올라가기도 하고~ 하이브가 올라가기도하고~ 로그발생시키고~ RDBMS~ 등등 로 들어가면 처리결과를 MongoDB, R, 머아웃? 빅데이터로 갈거면 " spark ".. 꼭 해라..!! 덩치는 하둡이다!!! 하둡과 스파크, 사용되는 쓰임새가 다르다~ 하둡은 배치, 스파크는 리얼타임~ R.. 반드시 알아야행.. 통계교수님들이 좋아하는언어.. 파이썬으로 갈아타는고 요구하고 있는 경우가 많다 R 데이터 분석 전문 도구(소프트웨어) https://rstudio.com/ https://www.r-project.org/[\출처]** 오픈소스라서 좋아용~ 컴퓨터이름, 사용자이름, 설치경로(공백도 X) => 한글 X csv..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 04. MongoDB

20-03-16 월 MongoDB NoSQL? 비정형데이터 스키마가 아니다 ( 이 컬럼은 무슨 타입이고 저건 무슨 타입이고 .. ) JSON으로 처리한다. 문서를 기반으로 하기 때문에 조인을 할 수 없다.(하나의 문서 안에 모든 데이터가 들어가있음) 레드햇계열의 리눅스? 데드뭐뭐계열의 리눅스? C:\Program Files\MongoDB\Server\3.6\bin 를 windows path 등록 데이터가 저장될 폴더가 필요하다! iot에 bigdata에 mongodata라고 만들자~ MongoDB Enter Prise로 서버 접속하기 실행됐구나~ 확인~ 웹에서 포트 접속해보기 데이터베이스를 만들고 그 안에서 작업하는 개념! ( ex. conn scott/tiger ) ​ => mydb에 아직 아무것도 안..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 03. Sqoop과 Flume설치 후 Hadoop에 WAS 구축하기

20-03-13 금 데이터를 추출하기 위해 사용되는 프로그램 시스템로그, 웹 서버의 로그, 클릭로그, 보안로그... 비정형 데이터를 HDFS에 적재하기 위해 사용되는 프로그램 대규모의 데이터로그가 발생하면 효율적으로 수집하고 저장하기위해 관리 flume, chukwa, scribe, fluented, splunk apache.org - Flume A Flume event is defined as a unit of data flow having a byte payload and an optional set of string attributes. A Flume agent is a (JVM) process that hosts the components through which ..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 02. Hadoop 커스터마이징하기

20-03-09 월 mapreduce의 기본동작은 분류와 집계하기. - 빈도수체크 csv파일 hdfs에 옮겨놓기. 컴바이너는 mini reducer 합을 구하는 작업에서는 컴바이너쓴거랑 안쓴거랑 차이가 많이 난다. 아래는 컴바이너 쓴 것들. 기존에 비해서 데이터가 엄청 줄었음. - 컴바이너 클래스 셔플(shuffle)할 데이터의 크기를 줄이는 데 도움을 준다. => 성능 UP ! - 파티셔너 클래스 mapreduce 동작 순서 : mapper - combiner - partitioner(맵에서 가져온 거를 같은 키를 기준으로 정렬) - reducer combiner와 partitioner가 셔플 단계임 Partitioner를 사용자 정의로 커스터마이징 하겠다. 정렬이 될 수 있게..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 01. 하둡의 HDFS와 MapReduce

20-02-17 월 빅데이터는 무엇인가? volume + velocity + variety + veracity + value = "5V" 심야버스노선도 데이터수집 - 데이터저장 - 데이터처리 - 데이터분석 - 분석결과활용 flume, sqoop, R, MongoDB namenode(hadoop01)와 secondarynamenode(hadoop02)는 달라야한다. hadoop01(keygen 수행) 비공개키, 나머지 02,03,04는 공개키 따라서 01머신에서만 나머지 머신으로 접속 가능하다. 인코딩 버전확인하기 su - echo $LANG input폴더에 NOTICE.txt 복사 ( hadoop/hadoop01 로 실행 ) /home/hadoop/hadoop-1.2.1/bin/hadoop fs - co..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 00. 빅데이터 플랫폼 구축(CentOS & Hadoop)

빅데이터 20-02-11 화 > - 리눅스 리눅스 상용화=> 레드햇 계열? 발전=>CentOS(서버구축에 적합) 내부 자원에 대해 모든 접근 권한을 정의할 수 있다. 보안 유지에 적합하다. 네트워크를 저가로 구성하기 좋다. - 머신 생성( VMWare설치 ) 총 4대의 CentOS 설치 root => 프롬프트 # 일반계정 =.프롬프트 $ home(디렉토리) 특정 계정으로 로그인 했을 때 자동으로 위치하는 폴더 모든 계정은 홈디렉토리를 갖고 있다. 기본 설정은 홈디렉토리 명이 계정명과 동일 root의 홈디렉토리명은 root폴더 " / " 최상위로 빠져나감 cd~ => 홈으로 빠져나감 cd.. => 한단게 빠져나감 컴퓨터 - etc => 리눅스 설정 파일들이 담겨 있는 폴더 컴퓨터 - usr => 윈도우로 ..

IT/[ Bigdata ] 2020.08.10