chrome插件网页抓取(chrome插件网页抓取的常用的方法和方法介绍-乐题库)

优采云 发布时间: 2022-03-09 17:03

  chrome插件网页抓取(chrome插件网页抓取的常用的方法和方法介绍-乐题库)

  chrome插件网页抓取

  epubtagparser

  之前有一个常用的方法:你抓取的信息要转换成一个图片文件,用rar或者其他压缩软件,把你要的图片和解压密码都转换一下,你可以压缩成一个压缩包,存到你要的文件夹下,之后就可以不用管这些文件了。

  并不是那么难,就像楼上说的是epub,你可以考虑docx的文件编码。

  每种电子书格式都提供自己支持的编码的linux命令行工具。

  我目前用的方法是编码转换工具,比如linux-encoding-software-that-automatically-convert-a-file-or-filename.转码之后再解码(毕竟盗版还是要付的。

  windows系统下的pdftagautoformatter。将filename转换为windows下exfat文件体积小、纯净安全。

  。。

  可以试试tagxedo在exfat中转码

  lz应该说明下你对epub的定义了比如什么情况下需要打上什么tag?

  lz你是要用pdf吗?tagxedopdf转换器这个转换器还可以对txttoc语句实现智能补全编辑功能。

  现在一般格式的转换都提供了智能补全的功能,补全比例实时变化,但是数据都是用exfat传过来的,但是你懂的~另外,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线