コラム
2026年4月8日
【2026年4月 追記アップデート】 この記事を公開してから約9ヶ月。AIの進化により、スクレイピングはさらに簡単になりました。現在は「HTMLすらコピー不要」な視覚解析(Visual Scraping)が主流になりつつあります。最新のやり方については、「HTML解析」から「視覚解析(Visual Scraping)」へをぜひチェックしてください!
週末になると毎週のように雪山に行く「Coopel」マーケティング担当です。シーズン中は週末が近くなると、仕事中も今雪降ってるのかなーと気になって仕方ありません。
私はこれまで、毎日気象庁のサイトを巡回して、積雪量をスプシに記録していました。1週間の積雪量が多かった地域のスキー場を目的地に選んで行くようにしていました。数十か所以上もある計測地点の、過去24時間の積雪量のコピペは骨の折れる作業で、「この時間がもっと他のことに使えたら…」Coopelのマーケティングの仕事にもっと時間が使えるのに、と何度思ったことか分かりません。
「自動化・効率化」という言葉が頭をよぎるたびに、「でも、プログラミングなんてできないし、エンジニアに頼む予算もない」と、すぐにかき消していました。それが、2025年の今、AIでできるかもしれない、と思いやってみたら、気象庁のサイトを毎朝巡回して取得、整形、要約する仕組みが作れてしまいました。
今では、同じ仕組みを使って、プライベート用に積雪量を取ってくるだけでなく、色々なサイトからの情報収集に使って毎日の仕事でも流用しています!
きっかけは、最近話題のAI、特に大規模言語モデル(LLM)の進化でした。これまで専門知識が必要だったWebからのデータ収集(Webスクレイピング)が、特別なスキルがなくても、AIに日本語でお願いするだけでできるようになった、という話を聞いたのです。
正直、半信半疑でした。本当に、HTMLやCSSといった専門知識がなくても、私がいつもやっているようなデータ収集ができるのでしょうか?
Google Gemini で毎日の積雪量取得を自動化することができました!毎朝30~40分取られていたサイトを開いて、コピペして・・・の時間を、ゼロにすることができました。
(*気象庁の全国観測値ランキングのページからデータ取得については規約で確認しました)
百聞は一見にしかず。まずは実際に手を動かしてみることにしました。本当は降雪情報を取ってくるところなのですが、今は夏、気象庁の積雪情報のページは冬季限定なので、今回は練習台として、気象庁が公開している「全国観測値ランキング」のページから、最高気温ランキングのデータを取得することに挑戦します。
私が普段使っているGoogle Geminiですが、AnthropicのClaude や OpenAIのChatGPTでも同じようにできました。
ステップ1:Webページの情報を丸ごとコピー
まず、気象庁の毎日の全国観測値ランキングの「今日の全国観測値ランキング(執筆時は2025年6月29日)」をブラウザで開き、「ページのソースを表示」を選んで、HTMLソースを表示させました。
画面全体のテキストを選択してコピーします。
ステップ2:AIに「丸投げ」してみる
次に、コピーしたHTMLのテキストをGeminiの入力欄に貼り付け、こうお願いしてみました。

実行ボタンを押すと、ほんの数秒で、Geminiは見事にデータを整理して、きれいな表形式で結果を返してくれました。


一度成功すると、欲が出てくるものです。 「毎回HTMLをコピーするのも、少し面倒だな…」
そこで、プロンプトを少し工夫してみました。今度はHTMLを貼り付ける代わりに、WebページのURLを直接指定してみることに。

意図した通り、URLにアクセスして、データを抽出してくれました!

これで、URLを貼り付けるだけで済むようになり、手間が省けました。
さらに、このURLは日付部分が変わることに気づきました。そこで、「今日の日付のデータを取得して」とお願いできるように、プロンプトをさらに改良。

結果は、大成功。これで、毎日同じプロンプトを実行するだけで、その日の最新データを自動で取得できるプロンプトが完成しました。

いかがでしょうか?HTMLをコピペするだけで、AIが完璧にデータを整理してくれましたね。
ですが、AIの進化速度は凄まじいものです。2025年7月にこの記事を書いた後、さらに驚きの「進化形」が一般化したので、追記として紹介させてください。
これまでは「HTMLソース(呪文のような英単語の羅列)」をAIに読み込ませるのが王道でした。しかし、2026年現在の最新AI(Gemini 3やGPT-5など)は、「目」の能力が飛躍的に向上しています。
もはや、F12キーを押してHTMLコードを探す必要すらありません。
最新のスクレイピング手法は、「スクリーンショットをAIに見せるだけ」。これを「ビジュアル・スクレイピング」と呼びます。
具体的な手順:
これだけで、AIが画像内の文字や数字、さらには表の構造までを瞬時に理解し、データに変換してくれます。前述のページのHTML コードの代わりに、画面のスクショをアップロードします。

非エンジニアにとって、この進化には3つの大きなメリットがあります。
現在は、以下のように使い分けるのが「AI使い」のスマートなやり方です。
| 手法 | メリット | 向いているケース |
| HTML方式 | 精度が非常に高く、大量のデータ向き | 商品リストや名簿など、100件以上のデータを正確に抜きたい時 |
| 視覚解析 | とにかく楽。直感的。 | 数十件程度のデータや、HTML構造が複雑すぎて手が出せない時 |
この「視覚」を使った技術により、スクレイピングのハードルは、もはや「スマホで写真を撮る」のと同じレベルまで下がったと言えます。
データが自動で取れるようになって満足です。が、やっぱり欲が出てくるもの。毎日Geminiを開いて同じプロンプトを実行しないといけないの?と思うように。
そこで、Coopelを使って、取得してきたデータをGoogle Spreadsheetにコピペして、過去一週間の積雪量を合算し、どの地域に良質の雪があるのかSlackで通知してもらうシナリオを作って、毎朝8時に定期実行することにしました。

この便利なWebスクレイピングですが、調べてみると、守るべき大切なルールやマナーがあることも分かりました。技術的に簡単になったからこそ、法的な側面と相手のサイトに迷惑をかけないための配慮は不可欠です。
技術的に簡単になったからこそ、こうした倫理的な側面をしっかり意識することが、トラブルなくこの素晴らしい技術と付き合っていく上で重要だと感じました。
Gemini に聞いて参考にしました。

最初は「自分には縁のない世界だ」と思っていたデータ収集の自動化。それが、AIのおかげで、プログラミング知識が全くない私でも、驚くほど簡単に実現できてしまいました。
これまで単純なコピペ作業に費やしていた時間を、今はもっと分析や企画といった、本来やるべき創造的な仕事に使えるようになっています。もし、かつての私のように「エンジニアがいないから」と諦めている方がいたら、ぜひ一度、今お使いのAIに「このサイトの情報をまとめて」と話しかけてみてください。きっと、新しい可能性の扉が開くはずです。
* 気象庁「全国観測値ランキング(6月29日)」(https://www.data.jma.go.jp/stats/data/mdrr/rank_daily/data0629.html)を加工して作成