hdfs 3

[ Bigdata ] 03. Sqoop과 Flume설치 후 Hadoop에 WAS 구축하기

20-03-13 금 데이터를 추출하기 위해 사용되는 프로그램 시스템로그, 웹 서버의 로그, 클릭로그, 보안로그... 비정형 데이터를 HDFS에 적재하기 위해 사용되는 프로그램 대규모의 데이터로그가 발생하면 효율적으로 수집하고 저장하기위해 관리 flume, chukwa, scribe, fluented, splunk apache.org - Flume A Flume event is defined as a unit of data flow having a byte payload and an optional set of string attributes. A Flume agent is a (JVM) process that hosts the components through which ..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 02. Hadoop 커스터마이징하기

20-03-09 월 mapreduce의 기본동작은 분류와 집계하기. - 빈도수체크 csv파일 hdfs에 옮겨놓기. 컴바이너는 mini reducer 합을 구하는 작업에서는 컴바이너쓴거랑 안쓴거랑 차이가 많이 난다. 아래는 컴바이너 쓴 것들. 기존에 비해서 데이터가 엄청 줄었음. - 컴바이너 클래스 셔플(shuffle)할 데이터의 크기를 줄이는 데 도움을 준다. => 성능 UP ! - 파티셔너 클래스 mapreduce 동작 순서 : mapper - combiner - partitioner(맵에서 가져온 거를 같은 키를 기준으로 정렬) - reducer combiner와 partitioner가 셔플 단계임 Partitioner를 사용자 정의로 커스터마이징 하겠다. 정렬이 될 수 있게..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 01. 하둡의 HDFS와 MapReduce

20-02-17 월 빅데이터는 무엇인가? volume + velocity + variety + veracity + value = "5V" 심야버스노선도 데이터수집 - 데이터저장 - 데이터처리 - 데이터분석 - 분석결과활용 flume, sqoop, R, MongoDB namenode(hadoop01)와 secondarynamenode(hadoop02)는 달라야한다. hadoop01(keygen 수행) 비공개키, 나머지 02,03,04는 공개키 따라서 01머신에서만 나머지 머신으로 접속 가능하다. 인코딩 버전확인하기 su - echo $LANG input폴더에 NOTICE.txt 복사 ( hadoop/hadoop01 로 실행 ) /home/hadoop/hadoop-1.2.1/bin/hadoop fs - co..

IT/[ Bigdata ] 2020.08.10