GitHub Actions · 25種のゲートタイプ · Blind Gates · デフォルトFail-Closed

AIが閾値を読めない
品質ゲート

AIコーディングをCI/CDに組み込む開発チーム向けの、フェイルクローズド品質ゲートです。Evidence GateはBlind Gatesで判定基準をAIから隠したまま評価し、テストカバレッジ、SBOM、来歴、NemoClaw設定まで、マージ前に検証します。

.github/workflows/ci.yml
# 3行で品質ゲートを追加
- uses: evidence-gate/evidence-gate-action@v1
  with:
    gate_type: "test_coverage"
    phase_id: "testing"
    evidence_files: "coverage.json"

仕組み

3ステップで、プルリクエストに品質基準を適用

1

定義

GitHub ActionsのワークフローにEvidence Gateを追加し、ゲートタイプ、対象ファイル、評価条件を指定します。

2

評価

Evidence Gateがエビデンスファイルを自動検証します。ファイルの有無、スキーマ適合性、閾値、整合性などを確認します。

3

強制

基準を満たさない場合はパイプラインを停止します。結果はPRサマリーやワークフローアノテーションで確認できます。

Blind Gates

判定基準を隠すことで、閾値への過剰最適化を防ぐ

従来のゲート CIパイプライン GATE カバレッジ 80% (公開) 80.1 AIが閾値を読み取る LLMが空疎なテストを生成 ちょうど80.1%を狙って vs Blind Gate CIパイプライン GATE PASS or FAIL AIが基準を読めない × 見えないものは 不正できない

LLMがコードだけでなくテストまで生成する状況では、見えている閾値は「品質基準」ではなく「最適化の目標」になりがちです。

問題: 従来のCIゲートでは、たとえばテストカバレッジの閾値がワークフローYAMLに書かれています。AIコーディングエージェントはその数値を読み取り、ぎりぎり通過するためだけの空疎なテストを作ることができます。数値は満たしていても、品質を保証しているとは言えません。

解決策: Blind Gatesでは、評価基準をパイプラインやリポジトリ、AIエージェントに公開しません。パイプラインはエビデンスファイルを提出し、Evidence Gate APIがチームごとの非公開基準で評価します。判定基準そのものは秘匿され、結果と補助情報(不足エビデンス、推奨アクションなど)のみ返されます。基準が見えないため、AIが閾値に合わせて過剰最適化することを困難にします。

AIガバナンスを前提にした設計

フェイルクローズド、証跡整合性、監査可能性を中心に設計

フェイルクローズド

すべてのゲートはデフォルトでFAILです。明示的に検証されたエビデンスだけがPASSになります。

透明性と信頼レベル

エビデンスの信頼性をL1〜L4のレベルで整理できます。SHA-256によるエビデンスチェーンで、判断に使ったデータの整合性も確認できます。

セキュリティと説明責任

AWS KMSによる暗号化、HMAC署名カーソル、成熟度ベースの品質状態モデルにより、各ステップを監査可能な形で管理できます。

※本製品は、いかなる政府機関の認証・推奨・提携を示すものではありません。記載内容は情報提供を目的としたものであり、コンプライアンス認証を意味するものではありません。

シンプルで透明な料金体系

無料で始めて、必要に応じて拡張

機能 Free
($0/月)
Pro
(お問い合わせ)
Enterprise
(お問い合わせ)
月間評価回数 100 無制限
月間APIコール数 1,000 無制限
全32種のゲートタイプ
SARIF出力
GitHub Check Runs
SHA-256整合性ハッシュ
フェイルクローズドエラー処理
3つの適用モード(warn / observe / enforce)
設定ファイル(.evidencegate.yml) — 必須入力なし
SBOMゲート(CycloneDX/SPDX構造検証)
来歴ゲート(SLSAビルド証明)
NemoClawゲート(ブループリント + ポリシー + サンドボックスライフサイクル)
推論ルーティング検証(NVIDIA Cloud、NIM、vLLM)
サンドボックスセキュリティ態勢チェック(Landlock、seccomp、netns)
シグナルソートJob Summary(Critical > Warning > Info)
AIエージェント修復コントラクト(retry_prompt出力)
ゲートプリセット
スティッキーPRコメント
Blind Gate評価
エビデンスチェーン検証(L4)
品質状態トラッキング
改善ワークフロー
エビデンス不足検出 + 推奨アクション
セルフホストデプロイ
カスタムAPIベースURL
専用サポート
無料で始める 営業に問い合わせ

クイックスタート

5分で導入

1 Marketplaceから追加

GitHub MarketplaceでEvidence Gate Actionをリポジトリに追加します。

2 ワークフローに追加

GitHub ActionsにEvidence Gateステップを設定します。

name: Quality Gate
on: [pull_request]

permissions:
  contents: read
  checks: write

jobs:
  evaluate:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      # Your build & test steps here...

      - name: Evidence Gate
        uses: evidence-gate/evidence-gate-action@v1
        with:
          # Or use .evidencegate.yml config file for zero required inputs
          gate_type: "test_coverage"
          phase_id: "testing"
          evidence_files: "coverage.json"

3 PRで結果を確認

評価結果はGITHUB_STEP_SUMMARYやPR上の実行結果から確認できます。合否、エビデンスハッシュ、評価内容が自動で表示されます。

New

NVIDIA NemoClaw + Evidence Gate

NemoClawガバナンス

NemoClawは、NVIDIAが提供するAIエージェント実行用のサンドボックス基盤です。
Evidence Gateは、NemoClawのブループリント、ポリシー、推論設定をCI段階で検証し、
危険な設定や矛盾をデプロイ前に検出・ブロックします。

詳しく見る ↓ GitHub ↗

Evidence Gateが守るもの

Evidence Gateは、NemoClawサンドボックスそのものを実行する製品ではなく、その設定が安全かどうかをデプロイ前に検証するゲートです。具体的には、ブループリント、ポリシー、推論設定をチェックし、分離設定の漏れ、危険なネットワーク許可、誤った推論ルーティングをマージ前に止めます。

NemoClawでは、設定ファイルにもとづいてサンドボックスが組み立てられます。Evidence Gateが見ているのは、アプリのコードそのものではなく、そのサンドボックス設定が本番投入してよい状態かどうかです。下の図は、NemoClawの設定がどのように実行環境に反映されるかと、Evidence Gateがどこを検証するかを示しています。

NEMOCLAW OpenClaw CLI extends CLI command nemo run NemoClaw Plugin TypeScript package resolve verify execute @evidence-gate/nemoclaw subprocess NemoClaw Blueprint Python artifact (blueprint.yaml) plan sandbox apply policy configure inference nemoclaw-governance validate OpenShell Sandbox ghcr.io/nvidia/openshell container isolated runtime network + resource policy Evidence Gate ― CIで検証 NemoClaw Evidence Gate

NemoClawでは、ブループリントとポリシーの設定によって、サンドボックスの分離、ネットワーク制御、推論接続先が決まります。Evidence Gateは、その設定に危険な抜けや矛盾がないかをCIで検証し、問題があればデプロイ前に止めます。

アーキテクチャの詳細はGitHubで →

エージェントガバナンスの全体像

CI検証からランタイム制御まで — 3層のプロテクション

3-Layer Governance Architecture

CIレイヤー
デプロイ前
Blueprint検証
構造・バージョン・プロファイル
Policy監査
TLS・ワイルドカード・FS制限
SBOM・来歴
CycloneDX・SLSA検証
▼ deploy ▼
インフラレイヤー
ランタイム分離
ファイルシステム分離
Landlock LSM
ネットワーク制御
デフォルト拒否・agentgovのみ
プロセスサンドボックス
seccomp・権限昇格なし
▼ inference requests ▼
ランタイムレイヤー
リクエスト制御
予算ゲート
Hold/Settle
HITL承認
Slack / webhook
ループ検出
自動停止
監査ログ
SHA-256チェーン
▼ governed LLM call ▼
LLM Provider — OpenAI / Anthropic / Gemini

evidence-gate-action

NemoClawブループリント、ポリシー、サンドボックスライフサイクル検証を含む32種のゲートタイプ。SARIF出力とAIエージェント修復コントラクト付きフェイルクローズドCIゲート。

GitHubで見る →

nemoclaw-governance

NVIDIA OpenShellサンドボックス向けPlugin+Blueprint設定を検証。blueprint.yaml、policy.yaml、推論プロファイルをチェック。pip install nemoclaw-governance

GitHubで見る →

agentgov

NemoClawサンドボックス向けランタイムガバナンスプロキシ。hold/settle課金による予算強制、3つの推論プロファイルサポート(NVIDIA Cloud、Local NIM、Local vLLM)、オペレーター管理ネットワーク承認。

GitHubで見る →

なぜ3層なのか? NemoClawはLandlock+seccomp+netnsによるサンドボックス分離を提供しますが、コスト制御はありません。agentgovがランタイム予算強制と推論ルーティングガバナンスを追加します。Evidence GateはCI時にすべての設定を検証します — ブループリントが本番サンドボックスに到達する前に。

NemoClaw統合クイックスタート

NemoClaw設定の検証、ランタイム予算の強制、すべてをCIでゲート — 1つのワークフロー

name: NemoClaw Governance
on: [pull_request]

permissions:
  contents: read
  checks: write

jobs:
  validate-blueprint:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      # Validate NemoClaw blueprint.yaml
      - name: Blueprint Gate
        uses: evidence-gate/evidence-gate-action@v1
        with:
          gate_type: "nemoclaw_blueprint"
          evidence_files: "blueprint.yaml"

  validate-policy:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      # Validate sandbox policy constraints
      - name: Policy Gate
        uses: evidence-gate/evidence-gate-action@v1
        with:
          gate_type: "nemoclaw_policy"
          evidence_files: "policy.yaml"

  enforce-budget:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      # Validate agentgov budget configuration
      - name: Budget Gate
        uses: evidence-gate/evidence-gate-action@v1
        with:
          gate_type: "custom"
          phase_id: "budget"
          evidence_files: "agentgov.config.json"

3つの並列ジョブ — ブループリント構造、サンドボックスポリシー、ランタイム予算 — すべてマージ前に検証。各ゲートはフェイルクローズド: いずれかの設定が無効であればPRがブロックされます。