'IT/[ Bigdata ]' 카테고리의 글 목록

IT/[ Bigdata ] 6

20-03-19 목 Mapredce 와 HDFS 위에 몽고디비가 올라가기도 하고~ 하이브가 올라가기도하고~ 로그발생시키고~ RDBMS~ 등등 로 들어가면 처리결과를 MongoDB, R, 머아웃? 빅데이터로 갈거면 " spark ".. 꼭 해라..!! 덩치는 하둡이다!!! 하둡과 스파크, 사용되는 쓰임새가 다르다~ 하둡은 배치, 스파크는 리얼타임~ R.. 반드시 알아야행.. 통계교수님들이 좋아하는언어.. 파이썬으로 갈아타는고 요구하고 있는 경우가 많다 R 데이터 분석 전문 도구(소프트웨어) https://rstudio.com/ https://www.r-project.org/[\출처]** 오픈소스라서 좋아용~ 컴퓨터이름, 사용자이름, 설치경로(공백도 X) => 한글 X csv..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 04. MongoDB

20-03-16 월 MongoDB NoSQL? 비정형데이터 스키마가 아니다 ( 이 컬럼은 무슨 타입이고 저건 무슨 타입이고 .. ) JSON으로 처리한다. 문서를 기반으로 하기 때문에 조인을 할 수 없다.(하나의 문서 안에 모든 데이터가 들어가있음) 레드햇계열의 리눅스? 데드뭐뭐계열의 리눅스? C:\Program Files\MongoDB\Server\3.6\bin 를 windows path 등록 데이터가 저장될 폴더가 필요하다! iot에 bigdata에 mongodata라고 만들자~ MongoDB Enter Prise로 서버 접속하기 실행됐구나~ 확인~ 웹에서 포트 접속해보기 데이터베이스를 만들고 그 안에서 작업하는 개념! ( ex. conn scott/tiger ) => mydb에 아직 아무것도 안..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 03. Sqoop과 Flume설치 후 Hadoop에 WAS 구축하기

20-03-13 금 데이터를 추출하기 위해 사용되는 프로그램 시스템로그, 웹 서버의 로그, 클릭로그, 보안로그... 비정형 데이터를 HDFS에 적재하기 위해 사용되는 프로그램 대규모의 데이터로그가 발생하면 효율적으로 수집하고 저장하기위해 관리 flume, chukwa, scribe, fluented, splunk apache.org - Flume A Flume event is defined as a unit of data flow having a byte payload and an optional set of string attributes. A Flume agent is a (JVM) process that hosts the components through which ..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 02. Hadoop 커스터마이징하기

20-03-09 월 mapreduce의 기본동작은 분류와 집계하기. - 빈도수체크 csv파일 hdfs에 옮겨놓기. 컴바이너는 mini reducer 합을 구하는 작업에서는 컴바이너쓴거랑 안쓴거랑 차이가 많이 난다. 아래는 컴바이너 쓴 것들. 기존에 비해서 데이터가 엄청 줄었음. - 컴바이너 클래스 셔플(shuffle)할 데이터의 크기를 줄이는 데 도움을 준다. => 성능 UP ! - 파티셔너 클래스 mapreduce 동작 순서 : mapper - combiner - partitioner(맵에서 가져온 거를 같은 키를 기준으로 정렬) - reducer combiner와 partitioner가 셔플 단계임 Partitioner를 사용자 정의로 커스터마이징 하겠다. 정렬이 될 수 있게..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 01. 하둡의 HDFS와 MapReduce

20-02-17 월 빅데이터는 무엇인가? volume + velocity + variety + veracity + value = "5V" 심야버스노선도 데이터수집 - 데이터저장 - 데이터처리 - 데이터분석 - 분석결과활용 flume, sqoop, R, MongoDB namenode(hadoop01)와 secondarynamenode(hadoop02)는 달라야한다. hadoop01(keygen 수행) 비공개키, 나머지 02,03,04는 공개키 따라서 01머신에서만 나머지 머신으로 접속 가능하다. 인코딩 버전확인하기 su - echo $LANG input폴더에 NOTICE.txt 복사 ( hadoop/hadoop01 로 실행 ) /home/hadoop/hadoop-1.2.1/bin/hadoop fs - co..

IT/[ Bigdata ] 2020.08.10

[ Bigdata ] 00. 빅데이터 플랫폼 구축(CentOS & Hadoop)

빅데이터 20-02-11 화 > - 리눅스 리눅스 상용화=> 레드햇 계열? 발전=>CentOS(서버구축에 적합) 내부 자원에 대해 모든 접근 권한을 정의할 수 있다. 보안 유지에 적합하다. 네트워크를 저가로 구성하기 좋다. - 머신 생성( VMWare설치 ) 총 4대의 CentOS 설치 root => 프롬프트 # 일반계정 =.프롬프트 $ home(디렉토리) 특정 계정으로 로그인 했을 때 자동으로 위치하는 폴더 모든 계정은 홈디렉토리를 갖고 있다. 기본 설정은 홈디렉토리 명이 계정명과 동일 root의 홈디렉토리명은 root폴더 " / " 최상위로 빠져나감 cd~ => 홈으로 빠져나감 cd.. => 한단게 빠져나감 컴퓨터 - etc => 리눅스 설정 파일들이 담겨 있는 폴더 컴퓨터 - usr => 윈도우로 ..

IT/[ Bigdata ] 2020.08.10

꾸준함이 무기입니다.

운영체제 공룡책 강의 퀴즈, 운영체제 공룡책, 임베디드 개발, 프로그래머스 알고리즘, Programming, Java, IT취업, Android, C, django framework, 투포인터 알고리즘, RTOS, DP, IT, Python, 리눅스 커널, Linux Kernel, django, 백트래킹, 개발자,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

programmer life guidance 101

IT/[ Bigdata ] 6

티스토리툴바