php如何抓取网页内容(我想解析一个网页并从中提取有意义的内容。)
优采云 发布时间: 2022-01-22 23:11php如何抓取网页内容(我想解析一个网页并从中提取有意义的内容。)
我想解析一个网页并从中提取有意义的内容。有道理,我的意思是用户希望在该特定页面中看到的内容(仅文本)(不包括广告、横幅、cmets 等的数据)。我想确保当用户保存页面时,他的数据想读已保存,仅此而已。
简而言之,我需要构建一个类似于 Readability 的应用程序。() 我需要将这些有用的网页内容存储在一个单独的文件中。我真的不知道该怎么办。
我不想使用需要我连接到互联网并从他们的服务器获取数据的 API,因为数据提取过程需要离线完成。
我能想到的方法有两种:
使用基于机器学习的算法(例如:)
开发一个网页抓取工具,可以令人满意地清除所有杂乱的网页。
是否有任何现有的工具可以做到这一点?我遇到了样板库(),但没有使用它。有人用过吗?它是否给出了令人满意的结果?有没有其他工具,特别是用 PHP 或 Python 编写的,可以进行这种网络抓取?
如果我需要构建自己的工具来做到这一点,你们有什么建议吗?
因为我需要在开始解析之前清理凌乱或不完整的 HTML,所以我使用 Tidy() 或 Beautiful Soup() 之类的工具来完成这项工作。
但是我不知道如何在这一步之后提取内容。
笔记。我是一个业余爱好者,如果有开源工具可以轻松集成到我将用 PHP 或 Python 编写的代码中,我会很高兴。或者,如果我必须编写自己的代码,我很想获得有关以前进行此类工作的指导!:)太感谢了!