Sparkいれてみた
CentOS 6.8に入れてみる。
1.インストール
・scala # rpm -ivh http://downloads.lightbend.com/scala/2.10.6/scala-2.10.6.rpm ・spark # wget http://ftp.riken.jp/net/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz # tar xvzf spark-1.6.2-bin-hadoop2.6.tgz # mv spark-1.6.2-bin-hadoop2.6 /usr/local/lib/spark
2.動作確認
# cd /usr/local/lib/spark # ./bin/spark-shell log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. Using Spark's repl log4j profile: org/apache/spark/log4j-defaults-repl.properties To adjust logging level use sc.setLogLevel("INFO") Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 1.6.2 /_/ Using Scala version 2.10.5 (OpenJDK 64-Bit Server VM, Java 1.7.0_99) Type in expressions to have them evaluated. Type :help for more information.
これで動いたらしい。
いくつかサンプルがあるので動かしてみる。
3.サンプルの実行
# cd examples/src/main/python # ls als.py cassandra_outputformat.py kmeans.py mllib pi.py status_api_demo.py wordcount.py avro_inputformat.py hbase_inputformat.py logistic_regression.py pagerank.py sort.py streaming cassandra_inputformat.py hbase_outputformat.py ml parquet_inputformat.py sql.py transitive_closure.py
とりあえずword_conunt.pyを選択。
文字数を数えてくれるものらしい。
# ../../../../bin/spark-submit wordcount.py ../../../../README.md help: 1 when: 1 Hadoop: 3 "local": 1 including: 3 …
とりあえずこんなもん。
次はkafkaと動かしてみたいな。