반응형
20-03-19 목
Mapredce 와 HDFS 위에 몽고디비가 올라가기도 하고~ 하이브가 올라가기도하고~
로그발생시키고~ RDBMS~ 등등 < mapreduce,hdfs >로 들어가면 처리결과를 MongoDB, R, 머아웃?
빅데이터로 갈거면 " spark ".. 꼭 해라..!! 덩치는 하둡이다!!!
하둡과 스파크, 사용되는 쓰임새가 다르다~ 하둡은 배치, 스파크는 리얼타임~
R.. 반드시 알아야행.. 통계교수님들이 좋아하는언어.. 파이썬으로 갈아타는고 요구하고 있는 경우가 많다
R
데이터 분석 전문 도구(소프트웨어)
https://www.r-project.org/[\출처]**
- 오픈소스라서 좋아용~
- 컴퓨터이름, 사용자이름, 설치경로(공백도 X) => 한글 X
csv_exam.csv를 읽어서 데이터를 수정한 후 csv_exam_result.csv로 저장하기
- science가 80이상인 데이터를 추출
- 추출된 데이터에 mytotal과 myavg컬럼을 추가
- mytotal : 모든 과목의 총점
- myavg : 모든 과목의 평균
mydata <- read.csv("csv_exam.csv")
mydataResult <- mydata[mydata$science>=80, ]
mydataResult$mytotal <- as.numeric(mydataResult$math+mydataResult$english+mydataResult$science)
mydataResult$myavg <- as.numeric(mydataResult$mytotal/3)
write.csv9mydataResult, file="result.csv"
20-03-20 금
- vector : type 동일 "자바의 배열"
- matrix : type 동일 "자바의 행렬(테이블)"
- dataframe : 열방향으로 type이 동일 "테이블인데 열별로 다름"
- list : 각 요소마다 타입이 다르다~ (2차원배열이라고 생각) "2차원 가변배열"
[데이터분석]
1. 데이터가져오기
R에서 사용할 수 있는 여러 형태의 데이터로 변환, 변환된 데이터를 액세스
- 외부파일
- 크롤링
- DB(오라클,mongodb,hadoop,....)
2. 데이터의 정보를 확인
컬럼갯수, row갯수, 타입, 유형, 실제 저장된 데이터...
20-03-21 토
- apply_test
- apply
- filter
- 데이터 정제
- 이상데이터 잘라내기
- crawl
- 웹페이지에서 데이터를 추출(csv저장)
크롤링
문자열관련 함수
- Paste : 벡터를 연결해서 하나의 문자열로 생성
- paste0 - 여러개를 연결
str<-c("java","hadoop","mongodb")
20-03-23 월
몽고디비에 크롤링한 데이터 집어넣기.
- 몇만건의 데이터가 있을땐 csv파일보다 RData로 보는게 훨씬 빠르고 성능이 좋다.
- RData 불러오기
<< 실습 1 >>
crawl_content
fianl_data의 1번 글의 내용을 출력하기
- 기본적인 크롤링 방법
crawl_content_teacher.R 파일 확인
- Final-Crawling
<< 실습 2 >>
모두의 광장의 1페이지 : 10페이지의모든 게시글 크롤링
- 모든페이지의 title,hit,url,content 추출하기
- crawl_result.csv, crawl_result.RData저장
- mongodb저장 ( 300개 저장 )
- for, if문을 활용
- 형태소분석
반응형
'IT > [ Bigdata ]' 카테고리의 다른 글
[ Bigdata ] 04. MongoDB (0) | 2020.08.10 |
---|---|
[ Bigdata ] 03. Sqoop과 Flume설치 후 Hadoop에 WAS 구축하기 (0) | 2020.08.10 |
[ Bigdata ] 02. Hadoop 커스터마이징하기 (0) | 2020.08.10 |
[ Bigdata ] 01. 하둡의 HDFS와 MapReduce (0) | 2020.08.10 |
[ Bigdata ] 00. 빅데이터 플랫폼 구축(CentOS & Hadoop) (0) | 2020.08.10 |