シェル: エネルギー分野で使用される機械学習モデルのパフォーマンスの評価
シェルのケーススタディ。
このプロジェクトは、ディープラーニングを利用してコンピューター ビジョン タスク、つまり特殊なアプリケーション ドメインでのセマンティック セグメンテーションを実行します。 このプロジェクトには、約 15 のディープラーニング (DL) モデルがアクティブに展開されていました。 DL モデルは、生成された予測にカスケード方式で適用され、一連の下流タスクにフィードされて、手動解釈タスクに入力される最終出力が生成されます。 したがって、堅牢で説明可能な AI 結果を保証するには、モデルのパフォーマンス評価による AI 保証が重要です。 3 種類のモデル評価テストが設計され、DL 推論パイプラインに実装されました。
AI ホワイトペーパーの規制原則の詳細については、こちらをご覧ください。
バックボーンからの回帰テストと統合テストにより、一連のテスト データに対するモデルの解釈可能性が提供されます。 モデルの開発中に、モデルのトレーニング データとパラメーターに応じて、モデルのパフォーマンスが向上しているか低下しているかを解釈するためのベースラインが提供されます。 モデル展開フェーズでは、これらのテストにより、コンセプトのドリフトを早期に示すこともできます。
統計テストは、テスト データの統計を考慮してモデルのパフォーマンスを予測するように設計されているため、モデルのデプロイ時にデータ ドリフトを検出するメカニズムが提供されます。 さらに、DL モデルのパフォーマンスがテスト データの統計的変動に対してどの程度堅牢であるかを示すこともできます。
この AI 保証手法の出力は、AI 開発者と製品所有者に伝達され、予想される DL モデルのパフォーマンスからの潜在的な逸脱を監視します。 さらに、パフォーマンスが逸脱した場合、これらのチームは適切な緩和策を実行できます。
また、最前線のユーザーやビジネス関係者が DL モデルの結果に対する高度な信頼を維持できるようにします。
AI 開発者は、パフォーマンス テストを強化するためのモデル評価テストの設計と実行を担当します。 製品所有者は、新しいモデルを展開する前の防御の最前線としてこれらのテストを活用する責任があります。 プロジェクト チームは協力してテストを調整し、展開中のデータとコンセプトのドリフトに対処します。
このプロジェクトでは、DL モデルの予測により、最終的に手動解釈タスクの入力が生成されます。 このタスクは複雑で、時間と労力がかかるため、開始点 (この場合は DL モデル予測) が精度、検出範囲、非常に低いノイズの点で高品質であることが重要です。 さらに、手動による解釈の結果は、大きな影響を与える意思決定プロセスに反映されます。
したがって、DL モデルの予測の品質と堅牢性が最も重要です。 ML モデルの予測パフォーマンスを判断するための最も重要な指標は、人間による品質管理です。 ただし、防御の第一線としてパフォーマンス テストを自動化するために、モデル評価テスト スイート手法が採用されました。 データのバージョン管理と暗黙的な ML 実験パイプラインの作成は、主に許容誤差範囲内でモデルをエンドツーエンド (データ、コード、モデルのパフォーマンス) で再生成できるようにするためでした。
防御の最前線、QA 向けの自動 DL パフォーマンス テスト
モデルの堅牢性と DL モデルのパフォーマンスの解釈可能性をテストします。
AI開発者とエンドユーザー向けにDLモデルのパフォーマンスをしっかりと説明
ユーザー コミュニティと DL モデルおよびワークフローの信頼を構築する
概念ドリフトを検出するメカニズムを確立することで、モデルのモニタリングを可能にします。
モデルのデプロイ中に CI-CD を有効にするための MLOps フック。
検出、分類、ノイズ低減など、非常に異なるタスクを実行する多数の DL モデル。
DL によって対処される問題の複雑さと変動性により、KPI の設計が困難になります。
モデル評価の設計に使用できる高品質で代表的なデータが不足している
回帰、統合、統計テストを設計するための明確な指標/しきい値が欠如している。
安定したモデル評価ライブラリの欠如。
他の手法の詳細については、OECD カタログのツールと指標をご覧ください: https://oecd.ai/en/catalogue/overview
関連する標準の詳細については、AI 標準ハブをご覧ください: https://aistandardshub.org/