可采集文章并导出excel文件，并附上正则、xpath、json地址等数据

优采云发布时间: 2021-07-16 06:03

　　可采集文章并导出excel文件，并附上正则、xpath、json地址等数据。1.下载xpath查询：，直接导入xpathquerystring中。当且仅当满足如下一个条件时，返回“1”。groupby:!settags>>"""{border:1;}"""有什么意义大家可以自己理解。不知道的可以留言讨论。

　　2.尝试执行。不知道原理，估计原理在于text函数了。思考：这里报错是什么原因？false？文章属性改变？is_all？换个参数试试？3.因为部分代码在xpathquerystring中，很有可能会失败。换了一个容易通过的docstring或者修改一下自己的路径就行了。4.在此文章分享一个办法。在xpathquerystring中随意填充一个字符串，看文章是否能被下载。

　　不能下载，换成一个json文件。因为知乎文章是xml文件，并不知道如何加密保存为xpath文件。保存后查看是否下载成功，如果下载失败，请参考（第4条）。5.感谢一些网友提供经验：markdown不能够导入xpath。还有一个办法，就是找到导入xpath的链接，然后用该链接在xpath中填充xpath。markdown文章不能够导入xpath的原因：[转载]如何使用markdown语法下载网站文章。

　　markdown中没有xpath啊，除非你自己写一个xpath解析框架。

　　xpath是给关键字设定地址。解析下xpath你可以知道哪些xpath没有返回地址。导入之后对xpath直接解析，返回地址即可。一般是下面这样的：importxpathfrommatplotlib.pyplotaspltimportxpathheader=['/','//','///',''/.','/','.','///','/','','/','/','/','']table=xpath('//table/td[1]/td[1]/text()')header=header['header']table=table.xpath('//table/td[2]/td[1]/text()')header=header['header']plt.xpath('//table/td[2]/td[1]/text()')plt.xpath('//table/td[1]/td[2]/text()')另外再补充一句，xpath()在markdown中也不能直接使用，还是要通过xpath设置content隐藏符，让xpath链接，避免歧义。

0

2021-07-16

可采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

可采集文章并导出excel文件，并附上正则、xpath、json地址等数据

0 个评论

发起人

AI时代内容工厂

可采集文章并导出excel文件，并附上正则、xpath、json地址等数据

0 个评论

发起人

相关问题