网站自动采集文章(网站自动采集文章到网页数据库-boyd的回答问题)

优采云发布时间: 2022-01-31 06:01

　　网站自动采集文章到网页数据库，然后如果你想通过客户端导出原来网站的历史记录，是不可能的。就算通过gis做到了，也是经过了汇总处理。

　　上次回答问题的时候我们跟美国的一个开发者就上文本导入php函数的问题谈论过，你可以参考一下，这里不贴代码了，这是我们一个问题的答复：问题：根据一段文本导入数据库-boyd的回答：问题1：利用json反爬虫做到的。我们提供的核心方法（有看到直接通过xml反爬虫是可以实现了，不过我们认为json反爬虫是比较完善的反爬虫技术了）是：检查链接和参数的cookie与useragent-based(没有useragent不是xml文件，会被判定为下载链接)dom-based(单独有一个列表，可以找到对应的useragent对应的文件)所以cookie-based应该是最符合需求的方法了。

　　其实这就是jsonp的一种实现。问题2：你可以看一下陈信川的这篇博客文章的“《sqlitematplotlib》我们依然在更新中”，里面对xml反爬虫已经非常详细了：《sqlitematplotlib》我们的vba的文档库也分享给你吧，希望对你有帮助：xml文件自动导入网站历史数据。希望对你有用。

　　很简单，自己写了个类在网站后端放了xml，方便导入历史数据，

　　楼上的几位其实都想多了！可以参考我的这篇回答c#可以根据文本自动抓取网页上的数据吗？-allic的回答有一种技术是通过cookie来抓取数据，另外通过ga来抓取数据（aws估计不行，毕竟对php友好不起来）。至于题主提到的通过xml数据库和数据采集器进行抓取的方法，你要处理一个beautifulsoup对象和三个filter处理你的数据，而且xml数据库估计无法拿到结果（或者至少很难实现一个可以导入网页数据库的api）。

　　建议楼主使用xml格式的layout标签，然后定义class属性与list属性，一个网页可以获取到几千条数据。具体细节可以参考我的这篇回答：，你可以试试上面那位仁兄提到的工具，我只是表示很佩服：。

0

2022-01-31

网站自动采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站自动采集文章(网站自动采集文章到网页数据库-boyd的回答问题)

0 个评论

发起人

AI时代内容工厂

网站自动采集文章(网站自动采集文章到网页数据库-boyd的回答问题)

0 个评论

发起人

相关问题