[ICT] Apache Spark 3.3.1 / Scala 環境を5分でデプロイする

投稿者斉藤之雄 (Yukio Saito) 2022年11月5日

Apache Spark

ほぼ備忘録です。
秒速を目指しましたが実際は 5分38秒でした。ソースからビルドしません。
Apache Spark 3.3.1 について　→ 　Spark 3.3.1 released | Apache Spark
環境を作るのに時間をかけたくない方へ参考になれば。

Apache Spark とは

Apache Spark は、大規模なデータ処理のための統合分析エンジンです。 Java、Scala、Python、R の高レベルAPIを提供します。一般的な実行グラフをサポートする最適化されたエンジン。また、SQL と構造化データ処理のための Spark SQL、Panda のワークロードのための Spark 上の Panda API、機械学習のための MLlib、グラフ処理のための GraphX、増分計算とストリーム処理のための構造化ストリーミングなど、高レベルのツールの豊富なセットもサポートしています。
（引用元/英文：https://spark.apache.org/docs/latest/index.html ）

補足：Spark は分散コレクション RDD / Resilient Distributed Dataset

構築環境

Windows 11 Home (64ビット）, RAM 32GB (おそらく 8GB でも動作します）
Docker Desktop for Windows
それなりに高速で安定しているインターネット回線
https://hub.docker.com/r/apache/spark から概要を読んでおく

その他：ウィルス駆除ソフトがバックグラウンドで起動していても構いません

構築手順

docker pull apache/spark 投入

2. 対話型の Scala シェル起動　（scala プロンプトが表示されるまで 5分38秒でした）

Spark 環境

PATH
/usr/local/openjdk-11/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

JAVA_HOME
/usr/local/openjdk-11

LANG
C.UTF-8

JAVA_VERSION
11.0.16

SPARK_HOME
/opt/spark

補足：Docker Terminal 起動時
/opt/spark/work-dir

コマンド確認

次のコマンド投入すると 1,000,000,000 が返すことを確認。

spark.range(1000 * 1000 * 1000).count()

Docker Terminal でサンプル実行（円周率計算）

sh-5.1$ /opt/spark/bin/run-example SparkPi 10

1回目　Pi is roughly 3.13987113987114
2回目　Pi is roughly 3.142231142231142
3回目　Pi is roughly 3.141271141271141
4回目　Pi is roughly 3.142939142939143
5回目　Pi is roughly 3.140755140755141

演算結果はあまり良くないですねｗ

他に試せそうなもの

Scala example

github にあります。

<Basic>
https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples

<Streaming>
https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples/streaming

ここでは割愛します。

以上、ご覧いただきありがとうございました。

関連

投稿者斉藤之雄 (Yukio Saito)

Global Information and Communication Technology OTAKU / Sports volunteer / Social Services / Master of Technology in Innovation for Design and Engineering, AIIT / BA, Social Welfare, NFU / twitter@yukio_saitoh

Written by 斉藤之雄
・世界最大の ICT ディストリビュータでシニアプリセールスコンサルタント（マルチクラウドで Data and AI 領域に強みあり）
・東京オリンピックフィールドキャスト (MED/FR)
・東京パラリンピックマラソンコースサポートリーダー
・社会福祉士（免許登録済み）
・東京都登録公認障がい者スポーツ指導員
・東京都中野区スポーツ推進委員（非常勤公務員）
・AWS認定ソリューションアーキテクトアソシエイト (2021-2024)

■Microsoft MCP 取得歴
・AZ-700(Mar/2022)★★
・MS-720 (Feb/2022)★★
・AZ-204 (Feb/2022)★★
・DA-100 (Dec/2021)★★
・Azure DevOps Engineer Expert (Dec/2021) ★★★
・AZ-400 (Dec/2021)★★★
・AZ-600 (Dec/2021)★★
・PL-200 (Oct/2021)★★
・AZ-140 (Oct/2021)★★
・SC-300 (Oct/2021)★★
・AZ-104 (Sep/2021)★★
・Azure Solutions Architect Expert (Sep/2021) ★★★
・AZ-304 (Sep/2021) ★★★
・MB-920 (Sep/2021) ★
・AZ-303 (Aug/2021) ★★★
・MS-900 (Aug/2021) ★
・SC-900 (Jul/2021) ★
・PL-900 (Jul/2021) ★
・AI-102 (Jul/2021) ★★
・DP-900 (Jun/2021) ★
・MB-901 (Jun/2021) ★
・AI-900 (May/2021) ★
・AZ-900 (Apr/2021) ★
—
■所属学会
・日本ロボット学会
・人工知能学会
・計測自動制御学会
・日本生産性本部（個人賛助会員）
—
■将来実現したいこと（Social Action）
・障害者（手帳保有に関係なく）の就労支援
・気づき難い大人の学習障害者に対する就労支援
・日本語を母国語としない方への就労支援
・成長あり共生社会
—
自宅メインマシン IdeaPad Gaming 3 シリーズ

—

[ICT] Apache Spark 3.3.1 / Scala 環境を5分でデプロイする

Apache Spark とは

構築環境

構築手順

Spark 環境

コマンド確認

Docker Terminal でサンプル実行（円周率計算）

他に試せそうなもの

Scala example

関連

投稿者斉藤之雄 (Yukio Saito)

関連投稿

見逃しています

[資格取得] 2024/06/30 時点での状況 132個（備忘録）

[受講メモ] NVIDIA GTC 2024

[資格取得] IBM Cloud for Professional Architect v6 (合格体験談）

[ICT] Lenovo IdeaPad Gaming 370 RAM 64GB 環境

[ICT] Apache Spark 3.3.1 / Scala 環境を5分でデプロイする

Apache Spark とは

構築環境

構築手順

Spark 環境

コマンド確認

Docker Terminal でサンプル実行（円周率計算）

他に試せそうなもの

Scala example

関連

投稿者 斉藤之雄 (Yukio Saito)

関連投稿

見逃しています

[資格取得] 2024/06/30 時点での状況 132個（備忘録）

[受講メモ] NVIDIA GTC 2024

[資格取得] IBM Cloud for Professional Architect v6 (合格体験談）

[ICT] Lenovo IdeaPad Gaming 370 RAM 64GB 環境

投稿者斉藤之雄 (Yukio Saito)