干货:非常实用的 Python 库,推一次火一次
优采云 发布时间: 2022-12-26 00:55干货:非常实用的 Python 库,推一次火一次
Python 是一种伟大的语言。 它是世界上发展最快的编程语言之一。 它在开发人员角色和跨行业的数据科学角色中一次又一次地被证明是有用的。 Python 及其库的整个生态系统使其成为全世界用户(初学者和高级用户)的合适选择。 其成功和受欢迎的原因之一是其强大的第三方库集合使其保持活力和高效。
在本文中,我们将了解一些用于数据科学任务的 Python 库,而不是 pandas、scikit-learn 和 matplotlib 等常见库。 尽管 pandas 和 scikit-learn 等库在机器学习任务中很常见,但了解该领域的其他 Python 产品总是有好处的。
1.wget
从网络中提取数据是数据科学家的重要任务之一。 Wget 是一个免费的实用程序,可用于从 Web 下载非交互式文件。 它支持 HTTP、HTTPS 和 FTP 协议,以及通过 HTTP 代理检索文件。 由于它是非交互式的,即使用户没有登录,它也可以在后台工作。所以下次你想下载网站或页面上的所有图像时,wget 可以帮助你。
安装:
$ pip install wget
例子:
import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'
filename = wget.download(url)
100% [................................................] 3841532 / 3841532
filename
'razorback.mp3'
### Pendulum
2. 钟摆
对于那些在 python 中处理日期时间时感到沮丧的人,Pendulum 适合你。 它是一个简化日期时间操作的 Python 包。 它是 Python 本机类的直接替代品。 请参阅文档以进行深入学习。
安装:
$ pip install pendulum
例子:
import pendulum
dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
print(dt_vancouver.diff(dt_toronto).in_hours())
3
3. 不平衡学习
可以看出,大多数分类算法在每类样本数基本相同时效果最佳,即需要保持数据平衡。 然而,现实世界中的大多数案例都是不平衡的数据集,这对机器学习算法的学习阶段和后续预测有很大的影响。 幸运的是,这个库就是为解决这个问题而设计的。 它与 scikit-learn 兼容,是 scikit-lear-contrib 项目的一部分。 下次你有一个不平衡的数据集时试试看。
安装:
pip install -U imbalanced-learn
# 或者
conda install -c conda-forge imbalanced-learn
例子:
使用方法和示例请参考文档。
4.闪光文字
在 NLP 任务中,清洗文本数据往往需要替换句子中的关键词或从句子中提取关键词。 通常,这可以使用正则表达式来完成,但如果您要搜索数千个术语,这会变得很麻烦。 Python 的 FlashText 模块基于 FlashText 算法为这种情况提供了一个合适的替代方案。 FlashText 的一大优点是无论搜索词的数量如何,运行时都是相同的。 您可以在此处了解更多信息。
安装:
$ pip install flashtext
例子:
提取关键词
from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()
# keyword_processor.add_keyword(, )
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
keywords_found
['New York', 'Bay Area']
替换关键字
keyword_processor.add_keyword('New Delhi', 'NCR region')
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
new_sentence
'I love New York and NCR region.'
Fuzzywuzzy
五、fuzzywuzzy
这个库的名字听起来很奇怪,但是在字符串匹配方面,fuzzywuzzy 是一个非常有用的库。 可以很方便的实现字符串匹配度、token匹配度的计算等操作,也可以很方便的匹配存储在不同数据库中的记录。
安装:
$ pip install fuzzywuzzy
例子:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# 简单匹配度
fuzz.ratio("this is a test", "this is a test!")
97
# 模糊匹配度
fuzz.partial_ratio("this is a test", "this is a test!")
100
<p>
</p>
更多有趣的示例可以在 GitHub 存储库中找到。
六、PyFlux
时间序列分析是机器学习领域最常见的问题之一。 PyFlux 是 Python 中的一个开源库,用于处理时间序列问题。 该库拥有大量现代时间序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型。 简而言之,PyFlux 为时间序列建模提供了一种概率方法。 这值得一试。
安装
pip install pyflux
例子
详细用法和示例请参考官方文档。
7.Ipy卷
结果的呈现也是数据科学的一个重要方面。 能够将结果可视化将是一个很大的优势。 IPyvolume 是一个 Python 库,可以在 Jupyter 笔记本中可视化 3D 体积和图形(如 3D 散点图等),并且只需要少量配置。 但目前处于pre-1.0版本阶段。 用一个更贴切的比喻来解释:IPyvolume的volshow对三维数组的好用就如同matplotlib的imshow对二维数组的好用一样。 更多可以在这里获得。
使用 pip
$ pip install ipyvolume
使用康达/蟒蛇
$ conda install -c conda-forge ipyvolume
例子
8. 破折号
Dash 是用于构建 Web 应用程序的高效 Python 框架。 它基于 Flask、Plotly.js 和 React.js 设计,绑定了下拉框、滑块和图表等许多现代 UI 元素。 可以直接使用Python代码编写相关分析,无需使用javascript。 Dash 非常适合构建数据可视化应用程序。 然后可以在 Web 浏览器中呈现这些应用程序。 用户指南可在此处获得。
pip install dash==0.29.0 # 核心 dash 后端
pip install dash-html-components==0.13.2 # HTML 组件
pip install dash-core-components==0.36.0 # 增强组件
pip install dash-table==3.1.3 # 交互式 DataTable 组件(最新!)
示例 下面的示例显示了一个具有下拉功能的高度交互图表。 当用户在下拉菜单中选择一个值时,应用程序代码会将数据从 Google Finance 动态导出到 panda DataFrame。
9. 健身房
OpenAI 的 Gym 是一个用于开发和比较强化学习算法的工具包。 它与任何数值计算库兼容,例如 TensorFlow 或 Theano。 Gym 库是解决一系列测试问题的必备工具,也称为环境 - 您可以使用它来开发强化学习算法。 这些环境有一个共享接口,允许您编写通用算法。
安装
pip install gym
示例 此示例运行具有 1000 个时间步的 CartPole-v0 环境实例,在每个步骤渲染整个场景。
总结
上面这些对数据科学有用的Python库都是我精心挑选的,不是numpy、pandas等常用库。 如果您知道要添加到列表中的其他库,请在下面的评论中提及它们。 也不要忘记先尝试运行它们。
最新版:石青SEO伪原创工具v3.2.0官方免费版
Azurite SEO伪原创工具是一款高级SEO工具,可以生成原创文章和伪原创文章。 使用伪原创工具可以制作出全网独一无二的伪原创文章,支持中英文伪原创原创文章。
本软件是一款免费的专业伪原创文章*敏*感*词*,专门针对百度、谷歌的爬虫习惯和分词算法而开发。 经过本软件优化后的文章会更受搜索引擎的青睐。
本软件是网络写手、群发用户、SEO不可多得的利器,也是网站推广者的必备利器。
“伪原创工具”具有以下优势:
1、伪原创工具全球首创:本地和网络两种不同的伪原创方法;
2.支持中英文伪原创;
3、采用独特的分词引擎,完全匹配baidu和google的使用习惯。 同时,我们提供免费的开发参数接口,使用-help查看。
4、独有的同义词和反义词引擎,由独特的算法控制,可以适当改变文章的语义。
5、独特的段落和段内迁移功能;
6、伪原创内容支持导入导出为txt或html格式,方便客户迁移数据;
7、独家支持动易、心云、老鸭、dede、Empire、PHPCMS、 伪原创等主流大型CMS系统;
8、绿色软件,免安装,体积小。 软件下载包仅1M多,占用系统资源少,是同类软件的1/3;
9、可以制作含有html标签的伪原创文章;
10、可以制作图片、flash等多媒体格式的伪原创文章;
11、在线升级,免费,每月定期为您升级程序,保证baidu和google的更新算法同步;
12、提供贴心的“替换链接”功能,有效增加SEO外链;
13、本机编译代码,win2000以上所有平台,包括winxp、win2003、vista等;
14、多核系统,制作数万字伪原创文章,速度极快;
变更日志:
伪原创工具2.1.6.10更新最新功能!
1.修复了综合采集中的一些问题;
2.改进内存管理;
3.再次修改标题;
伪原创工具更新最新功能!
1、整合采集模式升级;
2. 测试版无法通过优采云更新;
3、标题已更新;
伪原创工具2.1.4.10更新最新功能!
1.更新了部分词库;
2、更新了网络伪原创模式;
3、cpu算法升级;