Perlを使って特定のURLからファイルをダウンロードする方法

2016年1月10日(日) 12時02分48秒 [Perl/CGI]

Perlを使って特定のURLからファイルをダウンロードする方法

ある特定のURLに存在する画像などの任意のファイルを、Perlを使ってダウンロードしたい場合があります。「一定時間ごとに自動取得したい」とか「ブラウザでアクセスしたタイミングで取得したい」とか、用途はいろいろだと思いますが。
Perlモジュールを使っても良いんですが、wgetコマンドが使用可能であれば、それを使う方が短く書けて楽な気がします。(ウェブサーバ上で動かす場合で、ウェブサーバのOSがUNIX系ならたぶん使用可能だと思います。)

Perlからwgetコマンドを使って、ファイルをダウンロードする記述

以下の1行をPerlソース内に書くと、変数「$targetUrl」で指定したURLにあるファイルを、変数「$fileName」で指定したファイル名でダウンロードできます。

`/usr/local/bin/wget -q -O $fileName $targetUrl`;

※wgetコマンドの存在位置はもしかしたら /usr/local/bin/wget ではないかも知れません。
※オプション「-q」は、wgetコマンドの実行結果の詳細を出力しなくするオプション(＝wgetコマンドからは何も表示しなくなる指定)です。これを書かないと、wgetコマンドが実行した詳細情報が標準エラー出力に出力されます。コマンドプロンプト上で試験実行する際には「-q」オプションは付けない(＝wgetコマンドが報告する情報を確認できるようにする)方が良いと思います。
※オプション「-O」は、保存する場所を指定するオプションです。ファイル名だけを書けば、カレントディレクトリ内にそのファイル名で保存されます。

例えば、以下のようにPerlソースを記述すれば、

my $targetUrl  = "http://www.example.com/path/to/image.jpg";
my $fileName = "exampleimage.jpg";
`/usr/local/bin/wget -q -O $fileName $targetUrl`;

このスクリプトが実行された際には、 http://www.example.com/path/to/image.jpg にあるJPEGファイルが、exampleimage.jpg というファイル名で、カレントディレクトリ内に保存(ダウンロード)されます。

前回のダウンロードから一定期間は再ダウンロードしないようにする記述

で、毎回Perlスクリプトを実行するたびに問答無用でダウンロードすれば良いなら上記だけで構わないんですが、「前回のダウンロードから10分間は再取得したくない」というような制限を加えたい場合もあります。サーバ負荷が高まるのを防ぐためとか、余計な通信を発生させなくするためとか。
そのときは、「ダウンロード(保存)したファイルのタイムスタンプ」と「現在時刻」とを比較して、指定時間が経過しているかどうかを条件分岐すれば良さそうです。
例えば、以下のように記述します。

my $diffsec = time - (stat $fileName)[9];

上記の1行で、変数「$diffsec」に『「現在時刻」と「変数$fileNameで指定されたファイルの更新時刻」との差』が数値で入ります。数値の単位は「秒」です。
なので、10分間は再ダウンロードさせたくないのなら、この値が600以上かどうかをif文でチェックすれば良いでしょう。

# 10分(600秒)以上開いていたらダウンロード
if( $diffsec > 600 ) {
   `/usr/local/bin/wget -q -O $fileName $targetUrl`;
}
else {
   print "まだ $diffsec 秒しか経ってないよ。\n";
}

これだと、「現在時刻」から「タイムスタンプ(更新時刻)」を引いた秒数が600以下の場合は、「まだ xx 秒しか経ってないよ。」というメッセージを表示するだけで、ダウンロード(＝wgetコマンドの実行)はしません。

Perlを使って特定のURLからファイルをダウンロードするソース

上記の点からPerlソースをまとめると、だいたい以下のような感じになるでしょうか。

#!/usr/bin/perl
use strict;
use warnings;

print "Content-type: text/html\n\n";

# ダウンロード元と保存先の指定
my $targetUrl = "http://www.example.com/path/to/image.jpg";
my $fileName = "exampleimage.jpg";

# 前回のダウンロードからの秒数を得る
my $diffsec = time - (stat $fileName)[9];

# 10分以上開いていたらダウンロード
if( $diffsec > 600 ) {
   `/usr/local/bin/wget -q -O $fileName $targetUrl`;
   print "ダウンロードしました。\n";
}
else {
   print "まだ $diffsec 秒しか経ってないよ。\n";
}

上記のソースでは、wgetコマンドが失敗した場合(指定した先にファイルがなかった場合)とか、ディスクに書き込めなかった場合とか、エラー処理は一切していませんが。
まあそんなわけで、Perlを使って特定のURLからファイルをダウンロードする方法のメモでした。

ツイート facebookシェア LINEで送るはてなブックマーク Pocket URLとタイトルをコピー ☕ コーヒーをおごる

この日記へのコメントはお気軽に！コメント数:0件

著者紹介

にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊＋小説1冊)。著書や記事は「西村文宏(にしむらふみひろ)」名義。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

にしし(西村文宏)連絡先

☕ コーヒーをおごる

製作ツール

以下のようなツールを作って配布しています。

CGIてがろぐお手軽マイクロブログ的フリーCGI

➡ 備忘録・メモ帳・日記・チャットツールなどとしてのほか、「自分専用Twitter」などとしても活用可能な、お手軽メモ掲示板フリーCGIです。
CGIさんごよみスキン式のカレンダー表示フリーCGI

➡ カレンダー形式でスケジュールを表示できる予定表掲示板フリーCGIです。日本の祝日規則や移動祝日にも対応するほか、独自記念日の登録や、RSS配信も可能。