vb抓取网页内容(网页上无法复制的文字多半是什么意思?两种方法可以取文字)

优采云 发布时间: 2021-12-15 19:12

  vb抓取网页内容(网页上无法复制的文字多半是什么意思?两种方法可以取文字)

  网页上不能复制的大部分文字都受到网络技术的限制。在这种情况下,常规的“鼠标选择+复制粘贴”无法完成文本复制,甚至“查看源代码”、F12开发者模式等方法也无法获取文本。但是下面两种方法可以得到想要的文字。

  

  1、截图OCR

  这种方法的原理很简单,就是通过截图的方式对网页上的可见文字进行截图,通过OCR算法立即识别出图片中的文字。以目前的OCR识别技术,文字识别还是相当准确的。这个方法的前提是下载一个好用的工具,我一直在用“Tino OCR”这个小软件。

  ,指示

  首先,双击启动“Tano OCR”。软件启动后,会最小化到任务栏的右下角。然后,打开要复制的网页。最后双击“Tino OCR”图标,鼠标会变成十字进行截屏,您可以选择要截取的文字。选中框后,软件会自动识别里面的文字。这时候你只需要简单的复制粘贴即可。

  , 的优点和缺点

  优点:只要是可见的网页文字都可以进行截图OCR,没有任何技术可以限制,而且OCR的速度非常快。

  缺点:必须运行该工具,会占用系统资源的一小部分,基本可以忽略。另外,如果需要VIP来展示内容,也不能绕过VIP。

  

  2、使用搜索或翻译功能

  这种方法特别适用于“一定程度图书馆”的文章。其原理是利用一定程度上提供的搜索或翻译功能来获取文章的文本。因为搜索和翻译本身需要获取文章的文本。

  ,指示

  打开某个学位库的文章后,选择一段你想要的文字。这时候系统会自动弹出一个浮动框,里面有“搜索、复制、发送到手机、翻译”4个选项。当您单击搜索或翻译这两个菜单时,Web 浏览器会自动打开一个新选项卡并在搜索框或翻译框中显示文本。这时候就可以自由复制粘贴了。(注:菜单中的副本只有开通VIP后才能使用)

  , 的优点和缺点

  优点:无需购买VIP,即可自由复制库内容;

  缺点:只适用于一定程度的图书馆。同时,如果预览查看部分被限制在一定程度上,也是无法实现的。

  

  总结

  目前,很多禁止复制的网站都采用了先进的限制技术。普通的查看源码和开发者模式已经应付不来了,但是截图OCR还是经得起时间考验的,只要能看,就能被OCR识别和复制。至于一定程度的图书馆,也可以复制,自带搜索翻译功能。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线