DIY

とりあえずやってみるのメモ。技術的なメモもありますが、独り言もあります。

Sparkいれてみた

CentOS 6.8に入れてみる。


1.インストール

・scala
# rpm -ivh http://downloads.lightbend.com/scala/2.10.6/scala-2.10.6.rpm

・spark
# wget http://ftp.riken.jp/net/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz
# tar xvzf spark-1.6.2-bin-hadoop2.6.tgz
# mv spark-1.6.2-bin-hadoop2.6 /usr/local/lib/spark

2.動作確認

# cd /usr/local/lib/spark
# ./bin/spark-shell
log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
Using Spark's repl log4j profile: org/apache/spark/log4j-defaults-repl.properties
To adjust logging level use sc.setLogLevel("INFO")
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.6.2
      /_/

Using Scala version 2.10.5 (OpenJDK 64-Bit Server VM, Java 1.7.0_99)
Type in expressions to have them evaluated.
Type :help for more information.

これで動いたらしい。
いくつかサンプルがあるので動かしてみる。

3.サンプルの実行

# cd examples/src/main/python
# ls 
als.py                    cassandra_outputformat.py  kmeans.py               mllib                   pi.py    status_api_demo.py     wordcount.py
avro_inputformat.py       hbase_inputformat.py       logistic_regression.py  pagerank.py             sort.py  streaming
cassandra_inputformat.py  hbase_outputformat.py      ml                      parquet_inputformat.py  sql.py   transitive_closure.py

とりあえずword_conunt.pyを選択。
文字数を数えてくれるものらしい。

# ../../../../bin/spark-submit wordcount.py ../../../../README.md
help: 1
when: 1
Hadoop: 3
"local": 1
including: 3

とりあえずこんなもん。
次はkafkaと動かしてみたいな。