목록Cloud Computing/Spark (10)
MJay
Edit Scala 공부해보기 - Day 1 왜 스칼라 인가 scalable language 간결하고 우유연하다 정적 타입의 다중 패러다임 JVM 언어이다. 작은 인터프리터 방식의 스크립트부터 대규모의 복잡한 애플리케이션에 이르기까지 폭넓은 규모 확장성을 제공하는 도구이다. JVM과 자바스크립트 언어 스칼라는 JVM의 성능과 최적화를 활욯했다. 정적 타입 스칼라는 튼튼한 애플리케이션을 만드는 도구로 정적 타입 지정을 채택했다. 타입 추론을 사용해서 대부분의 귀찮고 불필요한 타입표기를 생략할 수 있게 지원한다. 객체 지향 프로그래밍을 완벽히 지원한다. 스칼라는 혼합 합성을 사용해서 타입을 깔끔하게 구현하는 트레이트로 자바 객체 모델을 보완한다. 스칼라에서는 모든 것이 객체이다. 수를 표현하는 함수도 객체이..
Edit i3.instance 의 /dev/nvme0n1에 mount하기 일단 개념부터 -> 마운트 현재 접근가능한 파일시스템에 추가적인 파일시스템을 붙이는 일 스토리지를 사용하기 위해 장치와 디렉토리[1]를 연결하는 작업 저장장치[2]에 접근할 수 있는 경로를 디렉토리 구조에 편입시키는 작업 마운트 포인트[편집] 장치가 연결되는 디렉토리 [root@zetawiki ~]# mount | grep ^/dev /dev/mapper/VolGroup00-LogVol00 on / type ext3 (rw) /dev/vda1 on /boot type ext3 (rw) → /dev/mapper/VolGroup00-LogVol00 의 마운트 포인트: / → /dev/vda1 의 마운트 포인트: /boot i3 inst..
Edit spark-ec2 i3 instance iostat 알아보기 & NVMe 비교해보기 iostat명령은 CPU 및 디스크 입출력 통계에 대한 기본정보를 보여줍니다. apt-get install sysstat을 통해 설치를 해줘야합니다. 맨 첫째줄에 시스템 커널 버전, 호스트명, 날짜가 나오고, 두번째줄에는 마지막 재부팅 후 시스템 평균 CPU 활용률을 보여줍니다. %user : 사용자가 사용중인 프로세서가 사용한 시간(백분율) %nice : nice(작업우선순위)정책에 의해 우선순위가 바뀐 프로세서가 사용한 시간 %system : 시스템이 사용한 시간 %iowait : 입출력 대기 시간 %steal : Stael CPU 사용 시간 %idle : 유휴상태 시간 마지막줄에는 각 디스크의 장치 활용량 ..
Edit r4 Instance Scalability 조사 Item vCPU 클록 속도(GHz) Memory SSD(GB) ECU 네트워킹 성능 향상된 네트워킹 가격(시간당) r4.large 2 2.3 15.25 EBS 7 최대 10기가비트 예 $0.133 r4.xlarge 4 2.3 30.5 EBS 13.5 최대 10기가비트 예 $0.266 r4.2xlarge 8 2.3 61 EBS 27 최대 10기가비트 예 $0.532 r4.4xlarge 16 2.3 122 EBS 53 최대 10기가비트 예 $1.064 r4.8xlarge 32 2.3 244 EBS 99 10기가비트 예 $2.128 r4.16xlarge 64 2.3 488 EBS 195 25기가비트 예 $4.256 ECU와 vCPU에 대해 알아보기처음..
Edit Spark-EC2 Too large frame spark-ec2 부분을 수정하여 Instance Storage 사이즈 늘림 if opts.spot_price is not None: # Launch spot instances with the requested price ondemand_price = get_instance_price(opts.instance_type) bid_spot_price = ondemand_price if opts.spot_price > ondemand_price else ondemand_price print("Requesting %d slaves as spot instances with price $%.3f" % (opts.slaves, bid_spot_price)) zo..
Edit Spark에서 왜 결과값이 16*16이 아니라 4*4 인지 Code를 통해 설명 private[mllib] object GridPartitioner { /** Creates a new [[GridPartitioner]] instance. */ def apply(rows: Int, cols: Int, rowsPerPart: Int, colsPerPart: Int): GridPartitioner = { new GridPartitioner(rows, cols, rowsPerPart, colsPerPart) } /** Creates a new [[GridPartitioner]] instance with the input suggested number of partitions. */ def apply(r..
Edit Spark Cluster 구조 Driver 사용자 프로그램을 실행시키는 main() 함수를 갖고 있는 프로세수이다. spark-shell을 사용할 때 Driver Program이 생성된다. Worker Node Executor를 가지고 있다. 각 Executor는 Task 들을 수행하게 RDD를 저장하게 된다.Spark Job의 Task들을 수행하는 역할을 한다.Spark -Submit을 통해 Application을 배포한다 %23%23%23%23%20Spark%20Cluster%20%uAD6C%uC870%0A@%28Marxico%29%0A%0A%21%5BAlt%20text%5D%28./1506046826284.png%29%0A%0A%0A%23%23%23%23%23%20Driver%0A%0A%u..
Edit Spark-EC2에서 EBS Instance Storage를 올리는 방법 Block Size를 늘리다보면 Java Heap Space - Memory 랑 관련이 있다.Disk Instance - Disk Storage랑 관려된 문제이다.해결책은 Instance Storage를 늘리는 것이다. if opts.spot_price is not None: # Launch spot instances with the requested price ondemand_price = get_instance_price(opts.instance_type) bid_spot_price = ondemand_price if opts.spot_price > ondemand_price else ondemand_price prin..
Edit SparkCL 논문을 읽어봄 tistory Spark CL 2번 읽고 구현해보자 ㄲ Abstract Device Programming Layer에서 한다 Aparapi and Spark programming layer Introduction Heterogeneous Environment가 뜨고 있다. OpenCL 좋지만, C, C++ 위주로 돼 있어서 별로다 Hadoop and Spark treat computer as a collection of conventional cores GPU나 가속기에 대해 잘 통합된 구조가 아니다 spark는 GPU를 core operation으로 통합하는 게 SparkCL 이걸 하기 위해 2개의 OpenSouce를 쓴다 SparkCL Aparapi 구성 자바 유..
2c0ffa7149810378947b26bd641e5a19_spark_lesson_1_slidesSpark의 구조에 대해서 알아봅시다스팍 프로그램은 일반적으로 Driver Program이라고 한다.Drive Program은 수 백개의 병렬적인 작업(Worker Nodes)으로 나누어진다.Spark의 WorkerNode에 있는 Executor에서 실행된다. Executor는 Java Virtual Machine이다 Java Virtual Machine은 Mapping, Reducing 이나 다른 Spark 작업을 할 대 사용된다 Java Virtual Machine은 HDFS랑 연결되있다. Spark는 Computional Jobs를 HDFS에 있는 Data로 보낸다 예로 들어보자 아마존은 1tb를 가지고..