neerolyte · December 22, 2015 01:19 · Sep 17, 2013 · Aug 31, 2013 · Aug 31, 2013
diff --git a/gistfile1.php b/gistfile1.php
@@ -1,64 +1,67 @@
 <?php
 function docurl($url) {
-	$opts = array(
-		CURLOPT_RETURNTRANSFER => true,
-		CURLOPT_URL => $url,
-		CURLOPT_HEADER => true,
-	);
-
-	$ch = curl_init();
-	curl_setopt_array($ch, $opts);
-
-	$data = array();
-
-	$res = curl_exec($ch);
-
-	$data['info'] = curl_getinfo($ch);
-
-	$data['header'] = substr($res, 0, $data['info']['header_size']);
-	$data['body'] = substr($res, $data['info']['header_size']);
-
-	$data['error'] = curl_error($ch);
-	$data['errorno'] = curl_errno($ch);
-	
-	curl_close($ch);
-
-	return $data;
+        $opts = array(
+                CURLOPT_RETURNTRANSFER => true,
+                CURLOPT_URL => $url,
+                CURLOPT_HEADER => true,
+        );
+ 
+        $ch = curl_init();
+        curl_setopt_array($ch, $opts);
+ 
+        $data = array();
+ 
+        $res = curl_exec($ch);
+ 
+        $data['info'] = curl_getinfo($ch);
+ 
+        $data['header'] = substr($res, 0, $data['info']['header_size']);
+        $data['body'] = substr($res, $data['info']['header_size']);
+ 
+        $data['error'] = curl_error($ch);
+        $data['errorno'] = curl_errno($ch);
+
+        curl_close($ch);
+ 
+        return $data;
 }
-
-function extractSubs($main, $ignores) {
-	$ignores = array_map(function($v) { return "+-site:$v"; }, $ignores);
-	$url = "http://www.google.com/search?q="
-		."site:$main"
-		.implode('', $ignores);
-
-	$res = docurl($url);
-
-	$doc = new DOMDocument();
-	$doc->loadHTML($res['body']);
-	$xpath = new DOMXPath($doc);
-	$nodes = $xpath->query("//cite");
-
-	$cites = array();
-	foreach ($nodes as $node) {
-		$cite = $node->nodeValue;
-		$cite = preg_replace('%^https?://%', '', $cite);
-		$cite = preg_replace("%/.*%", '', $cite);
-		if (!in_array($cite, $cites)) $cites []= $cite;
-	}
-
-	return $cites;
+
+function extractSubs($main, $ignores, $filter = '') {
+        $ignores = array_map(function($v) { return "+-site:$v"; }, $ignores);
+        $url = "http://www.google.com/search?q="
+                ."site:$main+$filter"
+                .implode('', $ignores);
+
+        echo "Testing URL: $url\n";
+
+        $res = docurl($url);
+
+        $doc = new DOMDocument();
+        $doc->loadHTML($res['body']);
+        $xpath = new DOMXPath($doc);
+        $nodes = $xpath->query("//cite");
+
+        $cites = array();
+        foreach ($nodes as $node) {
+                $cite = $node->nodeValue;
+                $cite = preg_replace('%^https?://%', '', $cite);
+                $cite = preg_replace("%/.*%", '', $cite);
+                if (!in_array($cite, $cites)) $cites []= $cite;
+        }
+
+        return $cites;
 }
 libxml_use_internal_errors(true);
-
+ 
 $start = $argv[1];
+$filter = isset($argv[2])?$argv[2]:'';
 $subs = array();
-
+ 
 do {
-	$newSubs = extractSubs($start, $subs);
-	$subs = array_merge($subs, $newSubs);
-
-	print_r($subs);
-
-	sleep(1);
+        $newSubs = extractSubs($start, $subs, $filter);
+        $subs = array_merge($subs, $newSubs);
+
+        sleep(1);
 } while(!empty($newSubs));
+
+echo implode("\n", $subs);
diff --git a/gistfile1.txt → gistfile1.php b/gistfile1.txt → gistfile1.php
diff --git a/gistfile1.txt b/gistfile1.txt
@@ -0,0 +1,64 @@
+<?php
+function docurl($url) {
+	$opts = array(
+		CURLOPT_RETURNTRANSFER => true,
+		CURLOPT_URL => $url,
+		CURLOPT_HEADER => true,
+	);
+
+	$ch = curl_init();
+	curl_setopt_array($ch, $opts);
+
+	$data = array();
+
+	$res = curl_exec($ch);
+
+	$data['info'] = curl_getinfo($ch);
+
+	$data['header'] = substr($res, 0, $data['info']['header_size']);
+	$data['body'] = substr($res, $data['info']['header_size']);
+
+	$data['error'] = curl_error($ch);
+	$data['errorno'] = curl_errno($ch);
+
+	curl_close($ch);
+
+	return $data;
+}
+
+function extractSubs($main, $ignores) {
+	$ignores = array_map(function($v) { return "+-site:$v"; }, $ignores);
+	$url = "http://www.google.com/search?q="
+		."site:$main"
+		.implode('', $ignores);
+
+	$res = docurl($url);
+
+	$doc = new DOMDocument();
+	$doc->loadHTML($res['body']);
+	$xpath = new DOMXPath($doc);
+	$nodes = $xpath->query("//cite");
+
+	$cites = array();
+	foreach ($nodes as $node) {
+		$cite = $node->nodeValue;
+		$cite = preg_replace('%^https?://%', '', $cite);
+		$cite = preg_replace("%/.*%", '', $cite);
+		if (!in_array($cite, $cites)) $cites []= $cite;
+	}
+
+	return $cites;
+}
+libxml_use_internal_errors(true);
+
+$start = $argv[1];
+$subs = array();
+
+do {
+	$newSubs = extractSubs($start, $subs);
+	$subs = array_merge($subs, $newSubs);
+
+	print_r($subs);
+
+	sleep(1);
+} while(!empty($newSubs));