稿件采集稿件采集(皆さ線画と塗った後を見さい)

优采云发布时间: 2021-09-02 18:10

　　我在 Twitter 上发现了一些可能用于机器（或手动）学习的材料，所以我尝试在这里制作一个自制的数据集。

　　背景介绍

　　此标签下的推文

　　本周推特上有一个事件叫做#都さん线画と涂った后oo见せてください。许多艺术家分享他们自己的线稿和完整插图的比较。它似乎是一种值得学习的资源，无论是谁。人工智能仍然如此。

　　人们如何学习绘画是我一直无法理解的。在 AI 方面，我知道许多研究人员梦想开发可以自动为线条草图着色的程序。训练这样的AI需要将大量的线稿和彩*敏*感*词*片成对地馈送到神经网络，而目前流行的数据集基本只包括完成的稿，对应的线稿很少。一般采用边缘检测等技术，通过颜色绘图重新提取线稿。这样的“线稿”其实和人类画的完全不同，当然也削弱了AI的性能。

　　人们已经意识到了这个问题并提出了改进方案，比如在边缘检测后人为地引入了一些噪声和失真，但是我没有看到用真实艺术家线稿进行训练的例子，不知道这个是可能的。进一步提升学习效果。 Twitter 上的这些图片或许可以填补这一空白，作为对现有数据集的补充。我不是这方面的专家，我无法预测结果会是什么，但简而言之，我决定在数据集上尝试采集。另外，除了行草稿，采集还获取了很多推文的元数据，所以这个数据集还可以用在其他方面，比如社交媒体分析。

　　数据集已经发布在Kaggle上，地址如下：

　　提取过程

　　Twint 提取的推文统计

　　推特是出了名的不喜欢别人翻旧账号，所以我需要尽快开始爬，但我现在没有开发者的资格，所以我用了第三方库用于硬爬行。我用的是Twint，功能很全。它会自动从爬取的推文中提取信息并生成 CSV 表。但是，Twitter 经常更改 API，因此有一天这个库突然变得不可用也就不足为奇了。

　　我一直想试试著名的 Pandas，现在我找到了一个机会，可以用它对 CSV 中的推文进行排序，提取媒体 URL，并下载一些图片。当前数据集收录此标签下的前 3,000 条推文。没有歧视的意思。一方面，我的下载能力有限。另一方面，同一个标签下可能有不相关的内容。，但点赞数高的一般不会。看来这个标签已经不是第一次成为热门话题了，我可能会考虑采集更多更早的数据——之后我想了解我想用它们做什么。

　　数据格式

　　示例图像文件

　　这个数据集的内容分为两部分：

　　CSV 文件，收录原创推文、图片地址和其他元数据（发布时间、转发点赞数等）。具体格式请参考 Twint 的文档。按点赞数排序，前3000条推文所附的JPG/PNG图片以[推文排名]-[图片编号]-[作者ID].jpg/png格式命名。注意数据集仅用于学习和分析。请尊重作者的权利，未经许可请勿直接使用原图。

0

2021-09-02

稿件采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

稿件采集稿件采集(皆さ線画と塗った後を見さい)

0 个评论

发起人

AI时代内容工厂

稿件采集 稿件采集(皆さ線画と塗った後を見さい)

0 个评论

发起人

相关问题

稿件采集稿件采集(皆さ線画と塗った後を見さい)