稿件采集 稿件采集(皆さ線画と塗った後を見さい)

优采云 发布时间: 2021-09-02 18:10

  稿件采集 稿件采集(皆さ線画と塗った後を見さい)

  我在 Twitter 上发现了一些可能用于机器(或手动)学习的材料,所以我尝试在这里制作一个自制的数据集。

  背景介绍

  

  此标签下的推文

  本周推特上有一个事件叫做#都さん线画と涂った后oo见せてください。许多艺术家分享他们自己的线稿和完整插图的比较。它似乎是一种值得学习的资源,无论是谁。人工智能仍然如此。

  人们如何学习绘画是我一直无法理解的。在 AI 方面,我知道许多研究人员梦想开发可以自动为线条草图着色的程序。训练这样的AI需要将大量的线稿和彩*敏*感*词*片成对地馈送到神经网络,而目前流行的数据集基本只包括完成的稿,对应的线稿很少。一般采用边缘检测等技术,通过颜色绘图重新提取线稿。这样的“线稿”其实和人类画的完全不同,当然也削弱了AI的性能。

  人们已经意识到了这个问题并提出了改进方案,比如在边缘检测后人为地引入了一些噪声和失真,但是我没有看到用真实艺术家线稿进行训练的例子,不知道这个是可能的。进一步提升学习效果。 Twitter 上的这些图片或许可以填补这一空白,作为对现有数据集的补充。我不是这方面的专家,我无法预测结果会是什么,但简而言之,我决定在数据集上尝试采集。另外,除了行草稿,采集还获取了很多推文的元数据,所以这个数据集还可以用在其他方面,比如社交媒体分析。

  数据集已经发布在Kaggle上,地址如下:

  提取过程

  

  Twint 提取的推文统计

  推特是出了名的不喜欢别人翻旧账号,所以我需要尽快开始爬,但我现在没有开发者的资格,所以我用了第三方库用于硬爬行。我用的是Twint,功能很全。它会自动从爬取的推文中提取信息并生成 CSV 表。但是,Twitter 经常更改 API,因此有一天这个库突然变得不可用也就不足为奇了。

  我一直想试试著名的 Pandas,现在我找到了一个机会,可以用它对 CSV 中的推文进行排序,提取媒体 URL,并下载一些图片。当前数据集收录此标签下的前 3,000 条推文。没有歧视的意思。一方面,我的下载能力有限。另一方面,同一个标签下可能有不相关的内容。 ,但点赞数高的一般不会。看来这个标签已经不是第一次成为热门话题了,我可能会考虑采集更多更早的数据——之后我想了解我想用它们做什么。

  数据格式

  

  示例图像文件

  这个数据集的内容分为两部分:

  CSV 文件,收录原创推文、图片地址和其他元数据(发布时间、转发点赞数等)。具体格式请参考 Twint 的文档。按点赞数排序,前3000条推文所附的JPG/PNG图片以[推文排名]-[图片编号]-[作者ID].jpg/png格式命名。注意数据集仅用于学习和分析。请尊重作者的权利,未经许可请勿直接使用原图。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线