Evidently AI 是一个强大的开源 Python 包,专注于分析和监控机器学习模型。该软件包的设计目的是建立一个易于使用的机器学习仪表盘,以及检测数据中的漂移。它被特别设计用于生产环境,因此在存在数据管道的情况下,使用它能够更好地实现监控。然而,即使在模型开发的早期阶段,您也可以充分利用它的功能。
Evidently AI 官网与 GitHub 项目
Evidently AI 官网: https://www.evidentlyai.com/

该项目在 GitHub 上已经积累了超过 3.5k 的 star,展示了它在开源社区中的广泛认可。您可以在 GitHub 上查看项目的具体详情:Evidently GitHub
Evidently AI 的特性
Evidently 提供了强大的功能,用于监测模型的效果。它能够从 Pandas DataFrame 或 CSV 文件中生成交互式可视化报告,同时支持 JSON 格式的效果简介。这一特性使得在 Jupyter Notebook 中使用变得非常方便。
目前,Evidently AI 能够提供六种重要的报告,涵盖了多个方面的模型性能,包括:
- 数据漂移报告: 分析数据漂移的情况,及时发现数据分布的变化。
- 数值目标漂移报告: 针对数值目标的模型,检测其性能是否受到数据漂移的影响。
- 分类目标漂移报告: 针对分类目标的模型,追踪分类性能随时间的变化。
- 回归模型性能报告: 评估回归模型的性能,帮助调整模型参数以提高预测准确性。
- 分类模型性能报告: 用于监测分类模型的性能,并及时发现潜在问题。
- 概率分类模型性能报告: 针对概率分类模型,提供详细的性能分析和可视化。
如何使用 Evidently AI
要使用 Evidently AI,您可以首先在项目的 GitHub 页面 上获取源代码。随后,您可以根据文档提供的指南,将其集成到您的机器学习项目中。
以下是一个简单的示例,展示了如何从 Pandas DataFrame 中生成一个数据漂移报告:
import pandas as pd
from evidently.dashboard import Dashboard
from evidently.tabs import DataDriftTab
# 创建示例数据
data_before = pd.read_csv('data_before.csv')
data_after = pd.read_csv('data_after.csv')
# 创建 DataDriftTab
data_drift_tab = DataDriftTab(data_before, data_after, column_mapping='auto')
# 创建仪表盘并保存为 HTML
dashboard = Dashboard(tabs=[data_drift_tab])
dashboard.save('data_drift_report.html')
通过这个简单的例子,您可以看到 Evidently AI 的使用是直观而灵活的。您可以根据您的需求,选择不同的报告类型,并根据实际情况调整参数。
Evidently AI 为机器学习从业者提供了一个强大的工具,帮助监控模型性能、及时发现潜在问题,并在生产环境中提高模型的可靠性。随着开源社区的不断支持和贡献,Evidently AI 将继续发展,为机器学习领域带来更多创新和便利。