5.文章怎么拿到自己最需要的内容其实还是个问题
优采云 发布时间: 2021-08-18 23:205.文章怎么拿到自己最需要的内容其实还是个问题
1、如何获取每个文章的原创链接,这是最关键的一步,也是很多人卡住的地方。目前的方法是用fiddler配合Android模拟器,或者用anyproxy配合模拟器等等,当然最好配真机。
2、文章获取链接后怎么下载,特别是文章里面的图片都是懒加载的,不容易下载。另外,批量下载时,需要控制速度,防止被微信屏蔽。微信的反爬虫策略还是很厉害的。此外,我们必须谨慎行事。虽然微信是一头大象,我们是小蚂蚁,但我们拼命的防止别人被微信屏蔽。太不厚道了(你是不是好心给自己找麻烦),看到其他网友说他同时开4个线程下载,我笑了,开1个线程的时候要控制下载频率,还有我一次打开4个。你在找东西怕微信不会被屏蔽吗?
3、已下载文,js\css等文件如何处理。如果公众号的主要用途是奇怪编辑器的奇怪字体,如何保持兼容性。还有各种奇怪的排版和图片。
4、html 下载完成了,如何转成pdf?您不能将 chrome 与按钮向导一起使用。有一个开源的 html to pdf 组件,但它有缺陷。很多图片转换后会变得异常。我想有些人在商业解决方案中使用了这个组件,但是文章中的一些图片都会出现异常,不知道是没有找到还是没有很好的方法解决。
5.文章 落伍了。如何高效获取你最需要的内容,其实还是一个问题。建立一个简单的索引非常有用。
6.具体实现过程中会遇到的各种坑。我已经解决了python编程中遇到的大部分坑。顺便说一句,我还用C#写了一个普通用户可以使用的图形软件。且不说写可视化软件过程中的流畅性,坑都已经爬过了,换种语言重写也只是复习巩固而已。这时候我才深刻的体会到,大师说的语言不是重点。 ,思想和观念才是王道的真谛。
欢迎技术交流,不欢迎白手起家,但可以洽谈合作。