注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

牧笔临风

己有能,勿自私!

 
 
 

日志

 
 
 
 

php页面链接抓取函数  

2011-06-28 13:35:32|  分类: php |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
<?php
function printLinks ($url) {
    $fp = @fopen($url, 'r') or die('Could not contact '. $url);
    $page_contents = '';
    while ($new_text = fread($fp, 100)) {
        $page_contents .= $new_text;
    }
    $match_result = preg_match_all('/<\s*A\s*HREF="([^\"]+)"\s*>([^>]*)<\/A>/i', $page_contents, $match_array, PREG_SET_ORDER);
    $astr = '';
foreach ($match_array as $entry) {
        $href = $entry[1];
        $anchortext = $entry[2];
$dtencod = mb_detect_encoding($anchortext, 'UTF-8, GBK, GB2312');
$anchortext = mb_convert_encoding($anchortext, 'UTF-8', $dtencod);
        $astr .= "<B><font color='#990099'>链接</font></B>: ". $href."; <B><font color='#0000FF'>链接文本</font></B>: ".$anchortext. "<BR />";
    }
print($astr);
}

if(isset($_POST['graburl'])){
$graburl  = $_POST['graburl'];
$graburl = trim($graburl);
$graburl = strtolower($graburl);
if(false === strpos($graburl, 'http://')){
$graburl = 'http://' . $graburl;
}
printLinks($graburl);
echo '<br /><br /><a href="javascript:window.history.back(-1)">&lt;&lt;返回</a>';
exit;
}
?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>抓取链接URL</title>
</head>
<body>
<div align="center">
<h3>抓取网站中的链接</h3><br />
<form method="post" target="_self">
请输入链接地址: <input type="text" name="graburl" />
<input type="submit" value="抓取" />
</form>
</div>
</body>
</html>

  评论这张
 
阅读(212)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017