php如何抓取网页数据库(8.根据数据集大小下载数据匹配的所有数据摘要)
优采云 发布时间: 2022-03-08 09:06php如何抓取网页数据库(8.根据数据集大小下载数据匹配的所有数据摘要)
8. 根据数据集大小下载数据集。
9. 根据与之关联的机器学习任务下载数据集。
案例(搜索并下载数据集)
例如,如果您想下载著名的鸢尾花数据集,只需从菜单中选择选项 3,然后输入存储它的本地数据库的名称(以便更快地搜索)。只需下载 Iris 数据集并将其存储在名为“Iris”的文件夹中!
案例(搜索收录 关键词 的数据集)
如果选择了选项 7,将使用关键字搜索来获取名称与搜索字符串匹配的所有数据集(甚至部分)的简短摘要。您还可以获得每个结果的 Web 链接,以便根据需要进一步探索数据。下面的截图是使用 关键词Cancer 搜索的结果。
如果你想另辟蹊径
如果你想避开这个简单的用户API,使用基本功能,也是可以的。大致流程如下,先导入必要的包。
从 UCI_ML_Functions 导入 *import pandas as pd
read_dataset_table():从url读取数据集并进一步处理,用于后续的数据清洗和分类。
网址:
clean_dataset_table():清理原创数据集(DataFrame)并返回数据。处理后的数据会删除收录缺失值的观测值。还移除了 Default Tasks 列,该列用于显示与数据集关联的主机学习任务。
build_local_table(filename=None, msg_flag=True):读取UCI ML网站,构建本地表,收录名称、大小、ML任务、数据类型等信息。
build_dataset_list():从 UCI ML 数据集页面获取信息并构建收录所有数据集信息的列表。
build_dataset_dictionary():从 UCI ML 数据集页面获取信息并构建收录所有数据集名称和描述的字典。此外,还会生成一个与数据集对应的唯一标识符,下载器需要这个标识符字符串来下载数据文件。在这种情况下,通用名称无效。
build_full_dataframe():构建一个收录所有信息的 DataFrame,包括用于下载数据的 URL 链接。
build_local_database(filename=None, msg_flag=True):读取 UCI ML网站 并使用以下信息构建本地数据库:名称、摘要、数据页 URL。
return_abstract(name,local_database=None,msg_flag=False):通过搜索给定的名称返回特定数据集的单行描述(以及指向更多信息的 Web 链接)。
describe_all_dataset(msg_flag=False):调用build_dataset_dictionary函数,显示所有数据集的描述。
print_all_datasets_names(msg_flag=False):调用build_dataset_dictionary函数,显示所有数据集的名称。
extract_url_dataset(dataset,msg_flag=False):给定一个数据集标识符,该函数提取实际原创数据所在页面的URL。
download_dataset_url(url,directory,msg_flag=False,download_flag=True):从给定 url 中的链接下载所有文件。
download_datasets(num=10,local_database=None,msg_flag=True,download_flag=True):下载数据集并将其放在以数据集命名的本地目录中。默认情况下,仅下载前 10 个数据集。用户可以选择要下载的数据集数量。
download_dataset_name(name,local_database=None,msg_flag=True,download_flag=True):下载指定名称的数据集。
download_datasets_size(size='Small',local_database=None,local_table=None,msg_flag=False,download_flag=True):下载所有符合“大小”标准的数据集。
download_datasets_task(task='Classification',local_database=None,local_table=None,msg_flag=False,download_flag=True):下载用户想要满足 ML 任务条件的所有数据集。
原标题:
为 UCI 机器学习存储库引入简单直观的 Python API
原文链接:
关于译者
UIUC统计学硕士王雨桐,主修统计学,目前专注于编码能力的提升。在从理论到应用的转化中,我们尊重数据,不断进化。
——结束——
关注清华-青岛数据科学研究所官方微信公众平台“THU数据学院”及其姊妹号“数据学院THU”,获取更多讲座福利和优质内容。