抓取网页生成电子书(《利用Python进行数据分析·第2版》|markdown文件下载)

优采云 发布时间: 2021-09-16 15:17

  抓取网页生成电子书(《利用Python进行数据分析·第2版》|markdown文件下载)

  降价至PDF→ 用降价制作电子书

  

  前言

  你可以解决你遇到的任何问题,学到你不能学到的东西

  它是这样的,因为我正在阅读《使用python进行数据分析》一书,这是原著的第二版。这本书的英文版已经有很长时间了,但我在网上找不到英文版,但有人在这本书上发表了中文译本。因为它不是一本电子书,我觉得阅读起来很不方便,携带起来也很困难。简单的书籍有HTML文档,GitHub有标记文档翻译,所以我想知道是否可以将HTML和标记文件转换成PDF,然后将它们转换成电子书。当你有需求时,你就开始想方设法。互联网上有很多方法。我曾经使用atom的markdown插件导出它们,但是效果不是很好。有些图片无法导出,我无法生成docx文档。现在我将介绍两种制作电子书的方法

  工具准备

  

  工具1:pandoc工具2:pypandoc工具3:Adobe Acrobat DC

  下载并安装:Adobe Acrobat DC PDF编辑器

  建议:如果您不熟悉Python,请使用第一种方法。相对而言,第一种方法简单且文档丰富。第二种方法需要安装python环境,这非常麻烦,除非您使用python进行开发

  使用方法

  对于特定用途,建议您阅读文档操作。毕竟,每个人的需求都是不同的。pandoc的转换功能非常强大和实用

  此外,需要安装latex将标记文件转换为PDF文件,但在使用过程中会遇到很多麻烦,很难解决

  所以我的想法是将降价转换成docx文件,然后合并,最后将合并后的电子书转换成PDF文件

  这也可以节省很多不必要的麻烦

  当然,有很*敏*感*词*。我只是介绍了一些,或者根据我的需要选择。您也可以选择其他方法

  “使用Python进行数据分析·第二版”​降价文件下载

  如下所示,我在本地下载了这本书的降价文件,共17个文件

  因为在转换过程中文件名收录中文时会出现错误,所以我会将所有文件名修改为数字

  提供一个工具,单击即可修改文件名。你可以下载并直接打开它

  更多其他使用方法,让我们自己测试一下

  Freerename下载提取代码:bg86

  方法1

  开始转换。这里,使用简单书籍作者的代码生成一个Windows可处理文件

  简单的书籍÷更优雅地将降价文件转换为PDF格式

  脚本封装,支持批量转换

  将转换命令封装到bat批处理脚本中。稍后转换时,只需双击bat脚本,例如,将其转换为convertpdf.bat文件。内容如下:

  pandoc text.md -o text.docx && pause

  批处理:如果成批将数十个或数百个MD文件转换为docx文件,是否手动复制这些文件名和pandoc命令以逐个转换?没必要。bat脚本(convert.bat):

  @echo off

:: 遍历当前文件夹下的所有后缀名为md的文件

for /f %%a in ('dir /b *.md') do (

:: 执行pandoc命令,把每个md文件都转为docx文件,docx文件的文件名为:md文件名.md.docx

pandoc %%a -o %%a.docx

)

pause

  使用方法非常简单。使用文本编辑器创建一个TXT文档,复制上面的代码,保存它,最后退出以修改文件后缀。蝙蝠。将要转换的标记文件放入文件夹,将convertpdf.bat复制到目录中,双击打开它,然后等待转换完成

  此时,降价文件将转换为docx文档

  方法2

  直接使用pandoc转换

  pandoc text.md -o text.docx

  注意:要运行此代码,您需要输入此目录

  有关更多用法,请参阅pandoc演示文档

  方法3

  使用python进行操作

  相对而言,使用pypandoc有很多优点。例如,您可以使用该库轻松开发一个简单的应用程序,也可以使用该库实现一些抓取网页的功能,因为pandoc可以下载网页并将其转换为docx或其他格式文件,pypandoc提供了pandoc的接口参数,非常方便。当然,对于学习python的人来说,这是相对简单的

  import pypandoc

output = pypandoc.convert_file('somefile.md', 'docx', outputfile="somefile.docx")

  最简单的例子就是这个。首先输入此文件夹或在Python中指定文件目录,然后运行上述代码。如果要批量转换,可以定义相对路径,编写脚本,将其打包成exe可执行文件,并实现从markdown到docx的遍历转换。此操作将不在此处写入。这是相对简单的。对于那些打包为可执行文件的文件,请参考我以前的文章

  使用Python开发图像下载程序的教程和源代码共享

  对于学习python的学生,我仍然建议使用pypandoc,因为可以调用python程序

  合并docx&转换为PDF

  您可以转换为PDF,然后合并PDF,但感觉它不像一个完整的PDF文件,而且不够漂亮。因此考虑首先合并DOXX,然后转换成PDF,这是更完美的

  合并docx

  我们使用Office2010合并了17个docx文件

  使用Python转换为PDF数据分析第二版下载

  

  因为我看不到任何可以下载的免费电子书,所以请在这里分享我制作的这本电子书

  这本书非常适合学习Python数据分析。你可以下载它

  您可以在练习环境中使用Anaconda|Jupiter笔记本

  潘多克的其他职能

  顺便说一下,让我们谈谈pandoc的其他一些功能。有关详细信息,请参见文档学习测试

  例如,我前面提到的那本书

  《学刮痧》

  精通Python爬虫框架

  还有一些简单的书籍翻译

  

  学习脚本÷短篇小说

  不幸的是,作者没有给出降价源文件,所以我们只能在线阅读。为什么我们需要降价源文件?因为markdown良好的编辑格式在转换过程中保持了层次和书签板,这对我们制作电子书非常方便,并且节省了大量时间

  幸运的是,pandoc提供了将网页转换为docx的功能

  让我们试试看

  一个页面在这里被随机转换,但是在降价下的预览非常糟糕,因为有很多其他冗余内容

  然后我首先将其转换为docx文档,然后删除多余的内容,然后修改并保存它。看来效果还是很好的

  pandoc doc.md -o doc.docx

  我已经测试了多个页面的爬行和转换,发现效果仍然很好。在这里,如果您使用Python的pypandoc,您可以生成一个EXE程序。非常方便。您可以自动进入WebGurl进行抓取和转换,这仍然是一个很好的体验

  让我们自己测试和思考更多的用法。我在这里不再重复了

  降价在线生成PDF|网站

  在这里,我们推荐一个免费的@网站栏,用于自动转换PDF。经历过之后,我感觉很好

  Mdtr2pdf降价在线生成PDF

  简介

  推荐免费文档转换

  自由变换器

  这种设计非常广泛,有许多文件和内容可以转换

  这里我不介绍细节。它真的很富有

  欢迎使用我的个人公共帐户:网吧

  目前,涉及的领域有:

  Python、数据库、C++

  数据分析、网络爬虫、GUI开发

  我喜欢学习我感兴趣的东西

  在这里,我将坚持分享许多有用的学习经验和学习资源

  你可以在这里找到一些你需要的学习经验和学习资源

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线