php如何抓取网页数据库(8.根据数据集大小下载数据匹配的所有数据摘要)

优采云 发布时间: 2022-03-08 09:06

  php如何抓取网页数据库(8.根据数据集大小下载数据匹配的所有数据摘要)

  8. 根据数据集大小下载数据集。

  9. 根据与之关联的机器学习任务下载数据集。

  案例(搜索并下载数据集)

  例如,如果您想下载著名的鸢尾花数据集,只需从菜单中选择选项 3,然后输入存储它的本地数据库的名称(以便更快地搜索)。只需下载 Iris 数据集并将其存储在名为“Iris”的文件夹中!

  

  案例(搜索收录 关键词 的数据集)

  如果选择了选项 7,将使用关键字搜索来获取名称与搜索字符串匹配的所有数据集(甚至部分)的简短摘要。您还可以获得每个结果的 Web 链接,以便根据需要进一步探索数据。下面的截图是使用 关键词Cancer 搜索的结果。

  

  如果你想另辟蹊径

  如果你想避开这个简单的用户API,使用基本功能,也是可以的。大致流程如下,先导入必要的包。

  从 UCI_ML_Functions 导入 *import pandas as pd

  read_dataset_table():从url读取数据集并进一步处理,用于后续的数据清洗和分类。

  网址:

  clean_dataset_table():清理原创数据集(DataFrame)并返回数据。处理后的数据会删除收录缺失值的观测值。还移除了 Default Tasks 列,该列用于显示与数据集关联的主机学习任务。

  build_local_table(filename=None, msg_flag=True):读取UCI ML网站,构建本地表,收录名称、大小、ML任务、数据类型等信息。

  build_dataset_list():从 UCI ML 数据集页面获取信息并构建收录所有数据集信息的列表。

  build_dataset_dictionary():从 UCI ML 数据集页面获取信息并构建收录所有数据集名称和描述的字典。此外,还会生成一个与数据集对应的唯一标识符,下载器需要这个标识符字符串来下载数据文件。在这种情况下,通用名称无效。

  build_full_dataframe():构建一个收录所有信息的 DataFrame,包括用于下载数据的 URL 链接。

  build_local_database(filename=None, msg_flag=True):读取 UCI ML网站 并使用以下信息构建本地数据库:名称、摘要、数据页 URL。

  return_abstract(name,local_database=None,msg_flag=False):通过搜索给定的名称返回特定数据集的单行描述(以及指向更多信息的 Web 链接)。

  describe_all_dataset(msg_flag=False):调用build_dataset_dictionary函数,显示所有数据集的描述。

  print_all_datasets_names(msg_flag=False):调用build_dataset_dictionary函数,显示所有数据集的名称。

  extract_url_dataset(dataset,msg_flag=False):给定一个数据集标识符,该函数提取实际原创数据所在页面的URL。

  download_dataset_url(url,directory,msg_flag=False,download_flag=True):从给定 url 中的链接下载所有文件。

  download_datasets(num=10,local_database=None,msg_flag=True,download_flag=True):下载数据集并将其放在以数据集命名的本地目录中。默认情况下,仅下载前 10 个数据集。用户可以选择要下载的数据集数量。

  download_dataset_name(name,local_database=None,msg_flag=True,download_flag=True):下载指定名称的数据集。

  download_datasets_size(size='Small',local_database=None,local_table=None,msg_flag=False,download_flag=True):下载所有符合“大小”标准的数据集。

  download_datasets_task(task='Classification',local_database=None,local_table=None,msg_flag=False,download_flag=True):下载用户想要满足 ML 任务条件的所有数据集。

  原标题:

  为 UCI 机器学习存储库引入简单直观的 Python API

  原文链接:

  关于译者

  

  UIUC统计学硕士王雨桐,主修统计学,目前专注于编码能力的提升。在从理论到应用的转化中,我们尊重数据,不断进化。

  ——结束——

  关注清华-青岛数据科学研究所官方微信公众平台“THU数据学院”及其姊妹号“数据学院THU”,获取更多讲座福利和优质内容。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线