网站内容自动更新(如何添加新的RSS内容源呢-每日自动更新版])
优采云 发布时间: 2022-01-19 21:00网站内容自动更新(如何添加新的RSS内容源呢-每日自动更新版])
中文语料库——每日自动更新版的初衷
网上有一些中文语料库,但不会自动更新。
可以忍受和无法忍受。我想在没有新数据的情况下自动挖掘和研究市场热点以推测股票。
于是,就有了这个项目:“中文语料库——每日自动更新”。
通过 RSS 提要的核心思想是归档内容。
然后通过 GitHub Actions 实现日常运行,从而实现无服务器自动更新语料库。
Github 仓库有 1GB 的容量限制,但是人气高的项目可以申请更多的存储空间。
为防止因空间不足导致语料更新,请给语料仓库多加星。
已经收录网站收录历史数据(为这些网站定制爬虫,抓取了所有文章)极客信息语料库不收录历史数据(只订阅了RSS,没写历史数据爬虫,订阅日后才收录文章)阮一峰的网络日志语料月光博客语料库知乎每日语料库36氪语料库有眼社语料库
欢迎大家分享有价值的 RSS 提要。如何添加新的 RSS 内容提要?过程如下:
找到高质量全文输出的RSS参考 rss/知乎-daily.coffee, rss/.coffee, rss/.coffee 创建文件修改dump/README.md,在上面添加新源的介绍。提交代码合并请求格式说明
示例如下:
➜标题
链接 时间
正文
演示文档
标题和内容中的➜替换为➔(两个箭头不是同一个字符),TAB替换为空格,解析时直接拆分即可。
文件名日期:date=round(timestamp/86400)
文档中的时间为:时间戳秒减去当天零秒
实际时间戳 = 文件名 * 86400 + 文档第二行的时间
文本解析的代码可以在这里找到
关于作者