コラム

2026年4月8日

【2026年版】非エンジニアがAIでスクレイピングした方法を伝えたい

【2026年4月 追記アップデート】 この記事を公開してから約9ヶ月。AIの進化により、スクレイピングはさらに簡単になりました。現在は「HTMLすらコピー不要」な視覚解析(Visual Scraping)が主流になりつつあります。最新のやり方については、「HTML解析」から「視覚解析(Visual Scraping)」へをぜひチェックしてください!

  1. はじめに
  2. この記事でできること
  3. 【実践】気象庁のサイトで、Webスクレイピングに初挑戦!
  4. まとめ:非エンジニアの私がプログラミングなしに、Webスクレイピングができた



定型業務の繰り返しにお困りですか? Coopelならプログラミング知識なしで業務自動化!
⇒Coopelの資料を見てみたい

はじめに

きっかけは、毎日の退屈な「コピペ作業」

週末になると毎週のように雪山に行く「Coopel」マーケティング担当です。シーズン中は週末が近くなると、仕事中も今雪降ってるのかなーと気になって仕方ありません。


私はこれまで、毎日気象庁のサイトを巡回して、積雪量をスプシに記録していました。1週間の積雪量が多かった地域のスキー場を目的地に選んで行くようにしていました。数十か所以上もある計測地点の、過去24時間の積雪量のコピペは骨の折れる作業で、「この時間がもっと他のことに使えたら…」Coopelのマーケティングの仕事にもっと時間が使えるのに、と何度思ったことか分かりません。


「自動化・効率化」という言葉が頭をよぎるたびに、「でも、プログラミングなんてできないし、エンジニアに頼む予算もない」と、すぐにかき消していました。それが、2025年の今、AIでできるかもしれない、と思いやってみたら、気象庁のサイトを毎朝巡回して取得、整形、要約する仕組みが作れてしまいました。


今では、同じ仕組みを使って、プライベート用に積雪量を取ってくるだけでなく、色々なサイトからの情報収集に使って毎日の仕事でも流用しています!

AIが「エンジニア必須の仕事」を「私のツール」に変えてくれた

きっかけは、最近話題のAI、特に大規模言語モデル(LLM)の進化でした。これまで専門知識が必要だったWebからのデータ収集(Webスクレイピング)が、特別なスキルがなくても、AIに日本語でお願いするだけでできるようになった、という話を聞いたのです。


正直、半信半疑でした。本当に、HTMLやCSSといった専門知識がなくても、私がいつもやっているようなデータ収集ができるのでしょうか?

結果

Google Gemini で毎日の積雪量取得を自動化することができました!毎朝30~40分取られていたサイトを開いて、コピペして・・・の時間を、ゼロにすることができました。


(*気象庁の全国観測値ランキングのページからデータ取得については規約で確認しました)


気象庁ホームページ利用規約

公共データ利用規約(第1.0版)

この記事でできること


「RPA導入事例集」によって手作業によるミスや遅延を解決するには?
進めるための具体的なステップを紹介!
⇒導入事例集のダウンロードはこちらから

全体の流れ

【実践】気象庁のサイトで、Webスクレイピングに初挑戦!

百聞は一見にしかず。まずは実際に手を動かしてみることにしました。本当は降雪情報を取ってくるところなのですが、今は夏、気象庁の積雪情報のページは冬季限定なので、今回は練習台として、気象庁が公開している「全国観測値ランキング」のページから、最高気温ランキングのデータを取得することに挑戦します。


私が普段使っているGoogle Geminiですが、AnthropicのClaude や OpenAIのChatGPTでも同じようにできました。


ステップ1:Webページの情報を丸ごとコピー


まず、気象庁の毎日の全国観測値ランキングの「今日の全国観測値ランキング(執筆時は2025年6月29日)」をブラウザで開き、「ページのソースを表示」を選んで、HTMLソースを表示させました。


画面全体のテキストを選択してコピーします。


ステップ2:AIに「丸投げ」してみる


次に、コピーしたHTMLのテキストをGeminiの入力欄に貼り付け、こうお願いしてみました。

実行ボタンを押すと、ほんの数秒で、Geminiは見事にデータを整理して、きれいな表形式で結果を返してくれました。


気象庁の最新気象データのテーブル

HTMLソースを貼り付けたGeminiのプロンプトとその結果

もっと楽をする方法を試してみた

一度成功すると、欲が出てくるものです。 「毎回HTMLをコピーするのも、少し面倒だな…」


そこで、プロンプトを少し工夫してみました。今度はHTMLを貼り付ける代わりに、WebページのURLを直接指定してみることに。

意図した通り、URLにアクセスして、データを抽出してくれました!


URLを直接指定したGeminiのプロンプトとその結果

これで、URLを貼り付けるだけで済むようになり、手間が省けました。


さらに、このURLは日付部分が変わることに気づきました。そこで、「今日の日付のデータを取得して」とお願いできるように、プロンプトをさらに改良。

結果は、大成功。これで、毎日同じプロンプトを実行するだけで、その日の最新データを自動で取得できるプロンプトが完成しました。

Gemini でURLを変数化してスクレイピング

いかがでしょうか?HTMLをコピペするだけで、AIが完璧にデータを整理してくれましたね。
ですが、AIの進化速度は凄まじいものです。2025年7月にこの記事を書いた後、さらに驚きの「進化形」が一般化したので、追記として紹介させてください。

「HTML解析」から「視覚解析(Visual Scraping)」へ

これまでは「HTMLソース(呪文のような英単語の羅列)」をAIに読み込ませるのが王道でした。しかし、2026年現在の最新AI(Gemini 3やGPT-5など)は、「目」の能力が飛躍的に向上しています。

もはや、F12キーを押してHTMLコードを探す必要すらありません。

画面のスクショを撮るだけでデータ化

最新のスクレイピング手法は、「スクリーンショットをAIに見せるだけ」。これを「ビジュアル・スクレイピング」と呼びます。

具体的な手順:

  1. データを取得したいWebサイトをブラウザで開く。
  2. 画面のスクリーンショットを撮る。
  3. GeminiなどのAIに画像をアップロードし、「この画像にある表を、スプレッドシート形式で書き出して」と頼む。

これだけで、AIが画像内の文字や数字、さらには表の構造までを瞬時に理解し、データに変換してくれます。前述のページのHTML コードの代わりに、画面のスクショをアップロードします。

なぜ「視覚解析」が最強なのか?

非エンジニアにとって、この進化には3つの大きなメリットがあります。

どちらを使うべき?

現在は、以下のように使い分けるのが「AI使い」のスマートなやり方です。

手法メリット向いているケース
HTML方式精度が非常に高く、大量のデータ向き商品リストや名簿など、100件以上のデータを正確に抜きたい時
視覚解析とにかく楽。直感的。数十件程度のデータや、HTML構造が複雑すぎて手が出せない時

この「視覚」を使った技術により、スクレイピングのハードルは、もはや「スマホで写真を撮る」のと同じレベルまで下がったと言えます。

【応用】毎日プロンプトを実行しないといけないの?

データが自動で取れるようになって満足です。が、やっぱり欲が出てくるもの。毎日Geminiを開いて同じプロンプトを実行しないといけないの?と思うように。


そこで、Coopelを使って、取得してきたデータをGoogle Spreadsheetにコピペして、過去一週間の積雪量を合算し、どの地域に良質の雪があるのかSlackで通知してもらうシナリオを作って、毎朝8時に定期実行することにしました。

CoopelでスプシコピーとSlack通知

やってみて分かった、大切なルール

この便利なWebスクレイピングですが、調べてみると、守るべき大切なルールやマナーがあることも分かりました。技術的に簡単になったからこそ、法的な側面と相手のサイトに迷惑をかけないための配慮は不可欠です。

  1. アクセス頻度に気をつける: サーバーに負荷をかけないよう、短時間に何度もアクセスするのは避ける。
  2. robots.txtを確認する: サイトが定めている自動アクセスのルールを事前に確認し、許可された範囲でのみ利用する。
  3. 利用規約・著作権を尊重する: 取得したデータの使い方には細心の注意を払う。特に、商用利用や再配布は慎重になるべき。

技術的に簡単になったからこそ、こうした倫理的な側面をしっかり意識することが、トラブルなくこの素晴らしい技術と付き合っていく上で重要だと感じました。


Gemini に聞いて参考にしました。

まとめ:非エンジニアの私がプログラミングなしに、Webスクレイピングができた

最初は「自分には縁のない世界だ」と思っていたデータ収集の自動化。それが、AIのおかげで、プログラミング知識が全くない私でも、驚くほど簡単に実現できてしまいました。


これまで単純なコピペ作業に費やしていた時間を、今はもっと分析や企画といった、本来やるべき創造的な仕事に使えるようになっています。もし、かつての私のように「エンジニアがいないから」と諦めている方がいたら、ぜひ一度、今お使いのAIに「このサイトの情報をまとめて」と話しかけてみてください。きっと、新しい可能性の扉が開くはずです。



「RPA導入事例集」によって手作業によるミスや遅延を解決するには?
⇒導入事例集のダウンロードはこちらから



* 出典:気象庁ウェブサイト(https://www.data.jma.go.jp/stats/data/mdrr/rank_daily/data0629.html)、PDL1.0(https://www.digital.go.jp/resources/open_data/public_data_license_v1.0)

* 気象庁「全国観測値ランキング(6月29日)」(https://www.data.jma.go.jp/stats/data/mdrr/rank_daily/data0629.html)を加工して作成