コロナに負けず、できることを少しずつ。

[ML Study Jams Vol.4] Baseline: Data, ML, AI / Dataflow: Qwik Start – テンプレート 受講メモ

[ML Study Jams Vol.4] Baseline: Data, ML, AI / Dataflow: Qwik Start – テンプレート 受講メモ

GSP192 Baseline: Data, ML, AI の 1コマ「Dataflow: Qwik Start – テンプレート」 注意:45分コマです。
https://google.qwiklabs.com/focuses/1101

概要

このラボでは、Google の Cloud Dataflow テンプレートの 1 つを使用してストリーミング パイプラインを作成する方法を学習します。具体的には、Cloud Pub/Sub to BigQuery テンプレートを使用します。このテンプレートは、Pub/Sub トピックから JSON 形式のメッセージを読み取り、BigQuery テーブルに push します。このテンプレートのドキュメントについては、こちらをご覧ください。

BigQuery でデータセットとテーブルを作成するには、Cloud Shell コマンドラインまたは GCP Console を使用します。いずれかの方法を選択し、ラボの作業を進めてください。両方の方法を試したい場合は、このラボを 2 回行ってください。
(qwiklabs から引用)

ハンズオンの内容

タクシー乗車データ 1,000件を BQ から抽出する。

あれ?と思った箇所①:Storage バケットを作成した後のハンズオン操作

バケットを作成したら、「パイプラインを実行する」セクションまで下にスクロールします。

ほんまに飛ばしていいのか?と思い・・・。Data Flow へ進むと、デフォルトの Data Flow チュートリアルが右ペイン表示するので迷わず「終了」すること。さもなくば、時間が足らなくなります。

あれ?と思った箇所②:DataFlow テンプレートから ジョブを作成

ジョブ名は自由です。↓

先ほど作成したバケットの配下を一時的なロケーションに指定します。↓

すると、ジョブグラフが表示されて右ペイン[ジョブ情報:実行中] を確認します。↓ なお、確認後は次のパラグラフへ進めます。BQ エディタ操作へ。

あれ?と思った箇所③:クエリエディタでハマる方へ

クエリは、このハンズオン用プロジェクト ID を使うので
例:SELECT * FROM qwiklabs-gcp-03-c7d0f24a6210.taxirides.realtime LIMIT 1000 などを投入してください。

以前、メンターを実施したときに SELECT * FROM `myprojectid.taxirides.realtime` LIMIT 1000 これをそのまま投入して【動作しないよ】と仰られる方がおられましたので。

ラボ終了

このコマ終了に要した時間は 28分ほど。
blog 記事を書きながらなので、まぁまぁサクサク進められたかな。

まだまだコマは続くよ・・・。

ご覧いただき有難うございました。

以上

Baseline: Data, ML, AIカテゴリの最新記事