wgetはFTPサイトやWWWサイトからファイルをダウンロードするときに有用なツールです。
$ wget -r ftp://ftp.somesite/somedir1/somedir2/
こうすると現在のディレクトリにftp.somesite/somedir1/somedir2が作成されます。 そしてそこへsomedir2に存在するファイルが保存されます。 ftp.somesiteディレクトリが作成されないようにするには-nHをつけます。 さらにsomedir1をつけないようにするには--cut-dirs=1をつけます。
$ wget ftp://ftp.somesite/somedir1/somedir2/filename
ファイル名の指定にはワイルドカード(*?)が使えます。
いろいろな情報がウェブにはあふれていますが、それを自動でとってくるプログラムをよく開発しています。 そのとき、基本的にはHTMLフォームを解析して、サーバーに送るデータをつくるのですが、うまく動作しないときがあります。 そんなとき、きちんと動作するInternetExplorerなどのブラウザーとサーバーのやり取りをのぞいて、まねをするのが参考になります。
HTTPのやりとりは全てテキストデータなのでその内容が見られればGETやPOSTでデータを送信するときにどういう形式でデータを送るのかよくわかります。 これは特にJavaScriptなどをつかっているサイトとの生のデータのやり取りを見ることができ、自動化の手順を考えるときに役立ちます。
# yum install tcpdump # tcpcump -XX -s 4098 -sオプションをつけて表示するデータの量を増やさないとHTTPの中身は見られません。 -XXオプションをつけるとどんなデータがやりとりされているか良くわかります。 # tcpcump -XX -s 4098 'dst www.google.com' 特定のホストに送信しているデータのみを表示します。 # tcpcump -XX -s 4098 'dst www.google.com or src www.google.com' 特定のホストとの送受信データを表示します
Unixのマニュアルページ(man page)をHTML形式のファイルに変更します。でも日本語が化けてしまうので英語のページしか使えません。今時googleで検索すれば世界中にman pageが公開されているので利用頻度は低いと思います。
$ zcat /usr/share/man/man1/man1.1.gz | man2html > file.html