IT/[ Bigdata ]

[ Bigdata ] 05. R과 크롤링(Crawling)

kim.svadoz 2020. 8. 10. 13:37
반응형

20-03-19 목

Mapredce 와 HDFS 위에 몽고디비가 올라가기도 하고~ 하이브가 올라가기도하고~

로그발생시키고~ RDBMS~ 등등 < mapreduce,hdfs >로 들어가면 처리결과를 MongoDB, R, 머아웃?

빅데이터로 갈거면 " spark ".. 꼭 해라..!! 덩치는 하둡이다!!!

하둡과 스파크, 사용되는 쓰임새가 다르다~ 하둡은 배치, 스파크는 리얼타임~

R.. 반드시 알아야행.. 통계교수님들이 좋아하는언어.. 파이썬으로 갈아타는고 요구하고 있는 경우가 많다

R

데이터 분석 전문 도구(소프트웨어)

https://rstudio.com/

https://www.r-project.org/[\출처]**

  • 오픈소스라서 좋아용~
  • 컴퓨터이름, 사용자이름, 설치경로(공백도 X) => 한글 X

csv_exam.csv를 읽어서 데이터를 수정한 후 csv_exam_result.csv로 저장하기

  • science가 80이상인 데이터를 추출
  • 추출된 데이터에 mytotal과 myavg컬럼을 추가
  • mytotal : 모든 과목의 총점
  • myavg : 모든 과목의 평균
mydata <- read.csv("csv_exam.csv")
mydataResult <- mydata[mydata$science>=80, ]
mydataResult$mytotal <- as.numeric(mydataResult$math+mydataResult$english+mydataResult$science)
mydataResult$myavg <- as.numeric(mydataResult$mytotal/3)
write.csv9mydataResult, file="result.csv"

20-03-20 금

  • vector : type 동일 "자바의 배열"
  • matrix : type 동일 "자바의 행렬(테이블)"
  • dataframe : 열방향으로 type이 동일 "테이블인데 열별로 다름"
  • list : 각 요소마다 타입이 다르다~ (2차원배열이라고 생각) "2차원 가변배열"

[데이터분석]

1. 데이터가져오기

R에서 사용할 수 있는 여러 형태의 데이터로 변환, 변환된 데이터를 액세스

  • 외부파일
  • 크롤링
  • DB(오라클,mongodb,hadoop,....)

2. 데이터의 정보를 확인

컬럼갯수, row갯수, 타입, 유형, 실제 저장된 데이터...


20-03-21 토

  • apply_test
    • apply
  • filter
    • 데이터 정제
    • 이상데이터 잘라내기
  • crawl
    • 웹페이지에서 데이터를 추출(csv저장)

크롤링

문자열관련 함수

  • Paste : 벡터를 연결해서 하나의 문자열로 생성
    • paste0 - 여러개를 연결
str<-c("java","hadoop","mongodb")

20-03-23 월

몽고디비에 크롤링한 데이터 집어넣기.

image-20200323094959287
image-20200323095042468

  • 몇만건의 데이터가 있을땐 csv파일보다 RData로 보는게 훨씬 빠르고 성능이 좋다.

image-20200323095448373

  • RData 불러오기

image-20200323100827510

<< 실습 1 >>

crawl_content

fianl_data의 1번 글의 내용을 출력하기

- 기본적인 크롤링 방법

crawl_content_teacher.R 파일 확인

- Final-Crawling

<< 실습 2 >>

모두의 광장의 1페이지 : 10페이지의모든 게시글 크롤링

  1. 모든페이지의 title,hit,url,content 추출하기
  2. crawl_result.csv, crawl_result.RData저장
  3. mongodb저장 ( 300개 저장 )
  4. for, if문을 활용

- 형태소분석

반응형