网站内容自动更新(如何添加新的RSS内容源呢-每日自动更新版])

优采云 发布时间: 2022-01-19 21:00

  网站内容自动更新(如何添加新的RSS内容源呢-每日自动更新版])

  中文语料库——每日自动更新版的初衷

  网上有一些中文语料库,但不会自动更新。

  可以忍受和无法忍受。我想在没有新数据的情况下自动挖掘和研究市场热点以推测股票。

  于是,就有了这个项目:“中文语料库——每日自动更新”。

  通过 RSS 提要的核心思想是归档内容。

  然后通过 GitHub Actions 实现日常运行,从而实现无服务器自动更新语料库。

  Github 仓库有 1GB 的容量限制,但是人气高的项目可以申请更多的存储空间。

  为防止因空间不足导致语料更新,请给语料仓库多加星。

  已经收录网站收录历史数据(为这些网站定制爬虫,抓取了所有文章)极客信息语料库不收录历史数据(只订阅了RSS,没写历史数据爬虫,订阅日后才收录文章)阮一峰的网络日志语料月光博客语料库知乎每日语料库36氪语料库有眼社语料库

  欢迎大家分享有价值的 RSS 提要。如何添加新的 RSS 内容提要?过程如下:

  找到高质量全文输出的RSS参考 rss/知乎-daily.coffee, rss/.coffee, rss/.coffee 创建文件修改dump/README.md,在上面添加新源的介绍。提交代码合并请求格式说明

  示例如下:

  ➜标题

链接 时间

正文

  演示文档

  标题和内容中的➜替换为➔(两个箭头不是同一个字符),TAB替换为空格,解析时直接拆分即可。

  文件名日期:date=round(timestamp/86400)

  文档中的时间为:时间戳秒减去当天零秒

  实际时间戳 = 文件名 * 86400 + 文档第二行的时间

  文本解析的代码可以在这里找到

  关于作者

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线