技巧:怎么用5行代码写一个你自己的数据抓取程序
优采云 发布时间: 2020-09-15 17:22如何用5行代码编写自己的数据捕获程序
我们平时可能会在网站上看到很多数据,我们可以自己进行分析。但是,如果需要捕获数据,则需要一个捕获程序。
通过该程序,您可以轻松地将他人网站的上一页,数百页或页面的某些内容带到您自己的本地。
当然,如果要使用5行代码,则需要做一些准备工作。例如框架,数据库等。
我们在这里使用php + mysql + PHPquery + arphp解决方案。
1、 phpquery可以查看使用计划。
2、 arphp可以查看一些使用方法。
当然,您可以编写该程序而无需阅读本文档,也可以使用其他框架,也可以不使用框架。
特定代码:
require('phpQuery/phpQuery.php');//加载这个框架
$eg1=phpQuery::newDocumentFile("http://www.whu.edu.cn/tzgg.htm");//将你需要的抓取的页面对象化
$res = pq("ul,li")->html()."
";//获取页面中某个对象的html数据
$myfile = fopen("newfile.txt", "w") or die("不能打开文件");//打开一个文件
fwrite($myfile, $res);//将页面内容写入txt
当然,您可以构建数据库,然后将内容放入数据库中。
仅需上述五行,您就可以基本完成页面内容的爬网。当然,可以更深入地研究更复杂的问题,例如多页爬网,单页内容遍历和内容过滤,https内容或反网站 IP阻止。