php抓取网页数据插入数据库(师傅说最近需要将电视频道列表及各频道节目列表写入数据库)
优采云 发布时间: 2022-01-01 17:11php抓取网页数据插入数据库(师傅说最近需要将电视频道列表及各频道节目列表写入数据库)
师傅说最近要把电视频道列表和每个频道的节目列表写入数据库。当然,这个动作需要自动执行。人工一一添加是不现实的。
很快这个任务就决定交给服务器厂商来解决。作为一个菜鸟,我还是想自己弄清楚。我认为,尽量结合现有条件来进行这个操作,尽量不要添加新的东西。我观察了开发中使用的xampp,发现里面有一个叫php的东西。上网查了一下,php的一些实际应用可以在上面进行。查了一下php对数据库的操作,是可行的,虽然我觉得好像不是正规的方法,但是试一试也无妨。于是结合安装的xampp环境,启动phptest.php。
问题1:在已经安装了xampp的环境下不知道怎么开发php。经过验证,我发现编辑后的xxx.php文件需要放在xampp安装目录下的htdocs文件夹中。我的xampp安装在D盘。 ,所以我的xxx.php放在D:\xampp\htdocs下,然后在浏览器中输入:
php文件可以通过运行格式的地址来执行
/xxx.php.
问题2:我不会编辑php,我使用开发工具吗?使用了哪些开发工具?终于发现可以用记事本了,我用ultraedit 32进行编辑,最后保存为“.php”文件。
问题3:如何获取我需要的信息,即电视台列表和节目列表,我们做Android,高手从webervice获取大量信息。当时不知道怎么想,也没有想过用php从webervice获取信息(结果还可以)。想到的就是解析网页,于是找了个网站有这个信息,准备分析他,这里又晕了,一行一行的看页面源码,不知道怎么弄解析一下,这么多东西,至少肯定有过滤器之类的东西给我用,通过百度,可以用正则表达式来做,好像不止这个方法,好像还有其他方法,这里是知识参考等文章(非常感谢作者),思路比较清晰,连接数据库(见),将网页的所有内容按照字符串赋值url,然后使用正则表达式从该字符串中提取所需的数据。进行一些冗余部分的替换和去除等操作,使其成为所需的格式,然后将数据插入到已建立的数据库表中。我觉得对我来说最难的就是正则表达式,这很头疼。这里确实需要深入研究。另外,第一次接触php,感觉有点像c。
我是菜鸟,需要总结一下,所以记录一下。如果能帮到别人就更好了。