[ Bigdata ] 05. R과 크롤링(Crawling)

IT/[ Bigdata ]

[ Bigdata ] 05. R과 크롤링(Crawling)

kim.svadoz 2020. 8. 10. 13:37

20-03-19 목

Mapredce 와 HDFS 위에 몽고디비가 올라가기도 하고~ 하이브가 올라가기도하고~

로그발생시키고~ RDBMS~ 등등 < mapreduce,hdfs >로 들어가면 처리결과를 MongoDB, R, 머아웃?

빅데이터로 갈거면 " spark ".. 꼭 해라..!! 덩치는 하둡이다!!!

하둡과 스파크, 사용되는 쓰임새가 다르다~ 하둡은 배치, 스파크는 리얼타임~

R.. 반드시 알아야행.. 통계교수님들이 좋아하는언어.. 파이썬으로 갈아타는고 요구하고 있는 경우가 많다

R

데이터 분석 전문 도구(소프트웨어)

https://rstudio.com/

https://www.r-project.org/[\출처]**

오픈소스라서 좋아용~
컴퓨터이름, 사용자이름, 설치경로(공백도 X) => 한글 X

csv_exam.csv를 읽어서 데이터를 수정한 후 csv_exam_result.csv로 저장하기

science가 80이상인 데이터를 추출
추출된 데이터에 mytotal과 myavg컬럼을 추가
mytotal : 모든 과목의 총점
myavg : 모든 과목의 평균

mydata <- read.csv("csv_exam.csv")
mydataResult <- mydata[mydata$science>=80, ]
mydataResult$mytotal <- as.numeric(mydataResult$math+mydataResult$english+mydataResult$science)
mydataResult$myavg <- as.numeric(mydataResult$mytotal/3)
write.csv9mydataResult, file="result.csv"

20-03-20 금

vector : type 동일 "자바의 배열"
matrix : type 동일 "자바의 행렬(테이블)"
dataframe : 열방향으로 type이 동일 "테이블인데 열별로 다름"
list : 각 요소마다 타입이 다르다~ (2차원배열이라고 생각) "2차원 가변배열"

[데이터분석]

1. 데이터가져오기

R에서 사용할 수 있는 여러 형태의 데이터로 변환, 변환된 데이터를 액세스

외부파일
크롤링
DB(오라클,mongodb,hadoop,....)

2. 데이터의 정보를 확인

컬럼갯수, row갯수, 타입, 유형, 실제 저장된 데이터...

20-03-21 토

apply_test
- apply
filter
- 데이터 정제
- 이상데이터 잘라내기
crawl
- 웹페이지에서 데이터를 추출(csv저장)

크롤링

문자열관련 함수

Paste : 벡터를 연결해서 하나의 문자열로 생성
- paste0 - 여러개를 연결

str<-c("java","hadoop","mongodb")

20-03-23 월

몽고디비에 크롤링한 데이터 집어넣기.

몇만건의 데이터가 있을땐 csv파일보다 RData로 보는게 훨씬 빠르고 성능이 좋다.

RData 불러오기

<< 실습 1 >>

crawl_content

fianl_data의 1번 글의 내용을 출력하기

- 기본적인 크롤링 방법

crawl_content_teacher.R 파일 확인

- Final-Crawling

<< 실습 2 >>

모두의 광장의 1페이지 : 10페이지의모든 게시글 크롤링

모든페이지의 title,hit,url,content 추출하기
crawl_result.csv, crawl_result.RData저장
mongodb저장 ( 300개 저장 )
for, if문을 활용

- 형태소분석

저작자표시 비영리 변경금지 (새창열림)

'IT > [ Bigdata ]' 카테고리의 다른 글

[ Bigdata ] 04. MongoDB (0)	2020.08.10
[ Bigdata ] 03. Sqoop과 Flume설치 후 Hadoop에 WAS 구축하기 (0)	2020.08.10
[ Bigdata ] 02. Hadoop 커스터마이징하기 (0)	2020.08.10
[ Bigdata ] 01. 하둡의 HDFS와 MapReduce (0)	2020.08.10
[ Bigdata ] 00. 빅데이터 플랫폼 구축(CentOS & Hadoop) (0)	2020.08.10

현재글[ Bigdata ] 05. R과 크롤링(Crawling)

꾸준함이 무기입니다.

Python, Linux Kernel, django, Android, django framework, 운영체제 공룡책 강의 퀴즈, C, Programming, 운영체제 공룡책, 리눅스 커널, 프로그래머스 알고리즘, 개발자, 백트래킹, IT취업, IT, 투포인터 알고리즘, Java, RTOS, DP, 임베디드 개발,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

programmer life guidance 101

[ Bigdata ] 05. R과 크롤링(Crawling)

20-03-19 목

R