博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于php抓取页面信息的简单代码
阅读量:6304 次
发布时间:2019-06-22

本文共 724 字,大约阅读时间需要 2 分钟。

hot3.png

利用php DOM函数实现简单的单页信息抓取   (在这里尽抓取a标签,功能实现了,但是扩展页链接抓取没有实现,欢迎大家批评指导)
<?php
error_reporting(E_ERROR);
$pages = file_get_contents('http://www.php100.com');
//$pages = htmlspecialchars($pages);
$doc = new DOMDocument();
$new_doc = new DOMDocument('1.0', 'utf-8');
$doc->loadhtml($pages);
$dom = $doc->getElementsByTagName('a');
for ($i=0;$i<$dom->length;$i++){
$node = $new_doc->createElement('a',$dom->item($i)->nodeValue);
$newnode = $new_doc->appendChild($node);
$newnode->setAttribute('href',$dom->item($i)->getAttribute('href'));
$newnode->setAttribute('style','display:block;margin-left:30px;');//echo $dom->item($i)->getAttribute('src').'</br>';
}
echo $new_doc->saveHTML();
?>

转载于:https://my.oschina.net/u/224509/blog/39174

你可能感兴趣的文章
暑假练习赛 003 A Spider Man
查看>>
【Zookeeper系列】ZooKeeper伸缩性(转)
查看>>
Android studio教程:[4]真机测试
查看>>
mongodb和python交互
查看>>
linux下svn操作(专)
查看>>
C/C++——C语言常用库函数
查看>>
Beyond Compare 激活解决办法
查看>>
ATI的SDK,框架写的就像和女朋友谈恋爱。优美散乱,从满刺激。NVSDK用的是DX的框架,DX框架写的就像女朋友成为妻子了,一块过日子了。平淡。...
查看>>
线性回归 城市气候与海洋的关系研究
查看>>
2018.10.23-dtoi-2004:象棋Chess(Chess)
查看>>
2018.10.25-dtoj-1588-Intelligence test(test)
查看>>
C#学习(二)之基础杂谈
查看>>
UIpickerView
查看>>
c# 学习笔记(二)
查看>>
TeamViewer安装使用
查看>>
关于横竖屏切换导致的Activity重建问题
查看>>
软件开发辅助工具收集
查看>>
python中break与continue区别
查看>>
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
查看>>
计算机视觉、机器学习相关领域论文和源代码大集合--持续更新……
查看>>