ウェブ ボットの作成方法

Google や Yahoo! などの検索エンジンは、インターネットをスキャンして Web サイトをデータベースにインデックス化するプログラムである Web ボット (スパイダーまたはクローラーとも呼ばれます) を使用して、Web ページを検索結果に取り込みます。 Web ボットは、C、Perl、Python、PHP など、ほとんどのプログラミング言語を使用して作成できます。これらの言語を使用すると、ソフトウェア エンジニアは Web スキャンやインデックス作成などの手続き型タスクを実行するスクリプトを作成できます。
ステップ 1
Microsoft Windows に含まれているメモ帳や Mac OS X の TextEdit などのプレーン テキスト編集アプリケーションを開き、Python Web ボット アプリケーションを作成します。
ステップ 2
次のコード行を含めて Python スクリプトを開始し、サンプル URL をスキャンする Web サイトの URL に置き換え、サンプル データベースの名前を結果を保存するデータベースに置き換えます。
import urllib2, re, string enter_point ='http://www.exampleurl.com' db_name ='example.sql'
ステップ 3
次のコード行を含めて、Web ボットが従う一連の操作を定義します:
def uniq(seq):set ={} map(set.setitem , seq, []) set.keys() を返す</P>
ステップ 4
次のコード行を使用して、Web サイトの構造内の URL を取得します。
def geturls(url):item =[] request =urllib2.Request(url) request.add.header('User', 'Bot_name;)') content =urllib2.urlopen(request).read() items =re. findall('href="http://.?"', content) urls =[] URL を返す</P>
ステップ 5
Web ボットが使用するデータベースを定義し、Web ボットの作成を完了するために保存する必要がある情報を指定します。
db =open(db_name, 'a') allurls =uniq(geturls(enter_point))
ステップ 6
テキスト ドキュメントを保存し、スクリプトを実行して Web ページのスキャンを開始できるインターネット接続のあるサーバーまたはコンピューターにアップロードします。