[python] 画像クローラーライブラリ icrawler を Windows 環境で試す

投稿者斉藤之雄 (Yukio Saito) 2022年3月21日

icrawler

はじめに

使用した環境について

・Windows 10 / 64bit 環境 (21H2)
・Python 3.9.4 (tags/v3.9.4:1f2e308, Apr 6 2021, 13:40:21) [MSC v.1928 64 bit (AMD64)] on win32

icrawler ライブラリ導入

pip install icrawler を pip version が少し古い環境で実施。
ここでは先に icrawler ライブラリを導入してから upgrade pip 実行。

コマンド実行のための python script

ここでは hoge.py として C:\icrwaler に保存。

from icrawler.builtin import GoogleImageCrawler
import sys
import os
argv = sys.argv
if not os.path.isdir(argv[1]): os.makedirs(argv[1])
crawler = GoogleImageCrawler(storage = {"root_dir" : argv[1]})
crawler.crawl(keyword = argv[2], max_num = 1000)

python script を実行

c:\icrawler カレントパスにて python hoge.py ./ cat を実行。

実行結果を Windows Explorer で参照

ML アノテーション画像集に最適ですね。

IC705 （ICOM アマチュア無線機器）画像を集めてみました。

サブフォルダ IC705 をカレントパスに作成してから、
python hoge.py /IC705 IC705 を実行。

画像収集結果

これまた、一体何が嬉しいのか分からない画像収集結果となりました。

折角なので icrawler 仕様を参照します。

Docs はこちら：Welcome to icrawler — icrawler 0.6.6 documentation

Tips: Search engines will limit the number of returned images, even when we use a browser to view the result page. The limitation is usually 1000 for many search engines such as google and bing. To crawl more than 1000 images with a single keyword, we can specify different date ranges.

(snip)

This framework contains 6 built-in image crawlers.

Google
Bing
Baidu
Flickr
General greedy crawl (crawl all the images from a website)
UrlList (crawl all images given an url list)

ということで、ダウンロードパスを as is のままのサンプルソールを sample.py としてカレントパスに保存。最大 1,000 件をクロールしてダウンロードするぞな。

from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler
google_crawler = GoogleImageCrawler( feeder_threads=1, parser_threads=1, downloader_threads=4, storage={'root_dir': 'your_image_dir'})
filters = dict( size='large', color='orange', license='commercial,modify', date=((2017, 1, 1), (2017, 11, 30)))
google_crawler.crawl(keyword='cat', filters=filters, offset=0, max_num=1000, min_size=(200,200), max_size=None, file_idx_offset=0)
bing_crawler = BingImageCrawler(downloader_threads=4, storage={'root_dir': 'your_image_dir'})
bing_crawler.crawl(keyword='cat', filters=None, offset=0, max_num=1000)
baidu_crawler = BaiduImageCrawler(storage={'root_dir': 'your_image_dir'})
baidu_crawler.crawl(keyword='cat', offset=0, max_num=1000, min_size=(200,200), max_size=None)

sample.py を実行 (引数は検索対象のみ：茶トラ）

やばい、超楽しい。

ただし、パーサーのスレッドで例外が発生してダウンロード完了せず

まとめ

お手軽な画像検索クローラによって ML アノテーション素材を集めるのがラクですね。

画像条件も指定できます：

original
large 2048: 2048 on longest side†
large 1600: 1600 on longest side†
large: 1024 on longest side*
medium 800: 800 on longest side†
medium 640: 640 on longest side
medium: 500 on longest side
small 320: 320 on longest side
small: 240 on longest side
thumbnail: 100 on longest side
large square: 150×150
square: 75×75

当然ながら収集した画像は個人用途で。
何らかの仕事用に使うのは倫理面での問題のみならず。

以上、ご覧いただき有難うございました。

関連

投稿者斉藤之雄 (Yukio Saito)

Global Information and Communication Technology OTAKU / Sports volunteer / Social Services / Master of Technology in Innovation for Design and Engineering, AIIT / BA, Social Welfare, NFU / twitter@yukio_saitoh

Written by 斉藤之雄
・世界最大の ICT ディストリビュータでシニアプリセールスコンサルタント（マルチクラウドで Data and AI 領域に強みあり）
・東京オリンピックフィールドキャスト (MED/FR)
・東京パラリンピックマラソンコースサポートリーダー
・社会福祉士（免許登録済み）
・東京都登録公認障がい者スポーツ指導員
・東京都中野区スポーツ推進委員（非常勤公務員）
・AWS認定ソリューションアーキテクトアソシエイト (2021-2024)

■Microsoft MCP 取得歴
・AZ-700(Mar/2022)★★
・MS-720 (Feb/2022)★★
・AZ-204 (Feb/2022)★★
・DA-100 (Dec/2021)★★
・Azure DevOps Engineer Expert (Dec/2021) ★★★
・AZ-400 (Dec/2021)★★★
・AZ-600 (Dec/2021)★★
・PL-200 (Oct/2021)★★
・AZ-140 (Oct/2021)★★
・SC-300 (Oct/2021)★★
・AZ-104 (Sep/2021)★★
・Azure Solutions Architect Expert (Sep/2021) ★★★
・AZ-304 (Sep/2021) ★★★
・MB-920 (Sep/2021) ★
・AZ-303 (Aug/2021) ★★★
・MS-900 (Aug/2021) ★
・SC-900 (Jul/2021) ★
・PL-900 (Jul/2021) ★
・AI-102 (Jul/2021) ★★
・DP-900 (Jun/2021) ★
・MB-901 (Jun/2021) ★
・AI-900 (May/2021) ★
・AZ-900 (Apr/2021) ★
—
■所属学会
・日本ロボット学会
・人工知能学会
・計測自動制御学会
・日本生産性本部（個人賛助会員）
—
■将来実現したいこと（Social Action）
・障害者（手帳保有に関係なく）の就労支援
・気づき難い大人の学習障害者に対する就労支援
・日本語を母国語としない方への就労支援
・成長あり共生社会
—
自宅メインマシン IdeaPad Gaming 3 シリーズ

—

[python] 画像クローラーライブラリ icrawler を Windows 環境で試す

はじめに

icrawler ライブラリ導入

コマンド実行のための python script

python script を実行

実行結果を Windows Explorer で参照

IC705 （ICOM アマチュア無線機器）画像を集めてみました。

画像収集結果

折角なので icrawler 仕様を参照します。

sample.py を実行 (引数は検索対象のみ：茶トラ）

ただし、パーサーのスレッドで例外が発生してダウンロード完了せず

まとめ

関連

投稿者斉藤之雄 (Yukio Saito)

関連投稿

見逃しています

[受講メモ] NVIDIA GTC 2024

[資格取得] IBM Cloud for Professional Architect v6 (合格体験談）

[ICT] Lenovo IdeaPad Gaming 370 RAM 64GB 環境

[Stable-Diffusion-webui] NVIDIA GPU を持たない安価 NotePC (Windows 11)で簡単に動かす方法

はじめに

icrawler ライブラリ導入

コマンド実行のための python script

python script を実行

実行結果を Windows Explorer で参照

IC705 （ICOM アマチュア無線機器）画像を集めてみました。

画像収集結果

折角なので icrawler 仕様を参照します。

sample.py を実行 (引数は検索対象のみ：茶トラ）

ただし、パーサーのスレッドで例外が発生してダウンロード完了せず

まとめ

関連

投稿者 斉藤之雄 (Yukio Saito)

関連投稿

見逃しています

投稿者斉藤之雄 (Yukio Saito)