js提取指定网站内容(js提取指定网站内容是什么?怎么做好php提取)

优采云 发布时间: 2022-04-16 07:03

  js提取指定网站内容(js提取指定网站内容是什么?怎么做好php提取)

  js提取指定网站内容或者是加入到任何一种后端语言的数据库中,比如百度抓取的是搜索引擎的数据,抓取的是数据库里的数据,微信抓取的是网页数据等等。js接收的只是一个字符串,js加在百度搜索页面上的,它把抓取到的网页数据提取出来存入后端语言数据库里,当然能加载进来。并没有什么语言之间的转换,再说这个速度慢到谁也无法接受的程度了。

  所以,你抓取数据并不需要把原网页上所有的字符串都转换,不然谁写得出这么丑陋的js库。而是抓取要抓取的网页数据,并加上你需要的数据,然后就可以拿到你需要的数据了。

  同意楼上的。

  有没有可能是因为你所抓取的网页是空白的啊

  你需要加一个前置条件js加载任意网页。网页空白就是没有js,那这个肯定是不能抓取到。

  楼上的问题,要看具体网站,如果对一些js完全无感知,比如一些静态站点(大部分是用jquery写的),抓包后得到js是会有框框让它提示js错误的,虽然ie网页抓取插件有个jsinvalidatexss绕过的选项,但是大部分情况下js是不需要显示的,比如@contentdata2d/xxx.js就是直接提示正在加载中,直接禁止执行,不会给服务器提示js错误。

  这种方式抓取的只是网页的静态的js文件,apache提供一个nginx,网站抓取的时候加入到php中,提交给php做解析,并不存在图片等内容。如果是在web网站抓取方面,有些web前端和web后端是在一个项目内部写好的,对网站模块不是很懂的可以学一下iis的web配置,一个静态网站全是js。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线