[ICT] OpenAI CLIP を Windows 10 端末で動作させるまで僅か 5 分でした

5
(2)

2022/02/24 AWS Innovate – AI/ML Edition イベント開催がありました

https://aws.amazon.com/jp/events/aws-innovate/machine-learning/

招待講演の中で OpenAI CLIP を知りました。

CLIP: Connecting Text and Images (openai.com)

OpenAI 概要

(クイックチュートリアルより抜粋:クイック スタート チュートリアル – OpenAI API )

OpenAIは、テキストの理解と生成に非常に優れた最先端の言語モデルを学習しました。API はこれらのモデルへのアクセスを提供し、言語の処理を含む事実上すべてのタスクを解決するために使用できます。

このクイック スタート チュートリアルでは、簡単なサンプル アプリケーションをビルドします。その過程で、次のタスクに API を使用する際に基本的な主要な概念と手法を学習します。

  • コンテンツ生成
  • 要約
  • 分類、分類、およびセンチメント分析
  • データ抽出
  • 翻訳

早速試してみたい気持ちに駆られ…招待講演を聴きながらデプロイ

Quickstart tutorial – OpenAI API ここを参照すると、誰でも簡単にセットアップ可能です。

使うのは Node.js 導入済み環境。私の場合は Windows 端末でした。
git clone で持ってきて、API Key 取得しデプロイするだけ。
クラウド上にデプロイするのではないのでとても簡単でした。

Windows 10 Pro X64 環境で npm install, npm run dev の実施でローカル Web インスタンスを起動。
http://localhost:3000 リッスン状態

挙動確認

ローカルブラウザ (Microsoft Edge Beta を使用)から http://localhost:3000 へアクセスし
入力フォーム内へ、ここでは mikeneko をタイプ。

コンソール上の対話ログも更新されます。wait > event

ブラウザ表示も更新されます

API 応答結果

プロンプトとしてテキストを入力すると、API は指定した命令やコンテキストに一致するテキスト補完を返す様子が分かり易い。
入力:mikeneko (三毛猫)
出力:Super Cat, Might Mouse, The Claw

制約

制約の一つとして、ほとんどのモデルでは 1 つの API 要求が、プロンプトと完了の間に最大 2,048 トークン (約 1,500 語) しか処理できない。
ref; クイック スタート チュートリアル – OpenAI API

ゆるいまとめ

AI/ML 環境を普段から提案シナリオ含め PoC まで SaaS 基盤で実践しているので、OpenAI CLIP とは何じゃらほい?と思ったのでローカル環境で即試してみました。特にハマりポイントもなく。サクサクでした。

備忘録:twitter に公開済。

斉藤之雄 / Yukio Saito 😺さんはTwitterを使っています 「OpenAI CLIP を Windows 10 x64 環境で遊んでみた。 すぐに API KEY を生成できるので .env に入れて npm instll と run dev するだけ。 console 画面は 初期、そして入力応答の模様 (wait, event) のもの。めっちゃ簡単に遊べるので、そこらへんの方は是非。 https://t.co/HdFmXPtmaS #AWSInnovate https://t.co/EGAI9Vj7qe」 / Twitter

今後の展望

 少し落ち着いたら文言トリガーによる類語表記などを通じ、一人英会話アプリ即興開発し遊んでみたいなと思った。また、プログラミングが不得手と捉えている方で AI 体験をしてみたいなら、教育シナリオを考えて展開してみるのも良さそうとも感じました。

以上、ご覧いただき有難うございました。

How useful was this post?

Click on a star to rate it!

Average rating 5 / 5. Vote count: 2

No votes so far! Be the first to rate this post.