Methodologie
Reproduzierbare Anker-Rubrik, versioniert, mit JSON-Schema und Evidenz-Anforderungen.
1 · Formel
score(0..100) = round( (autonomy + multimodality + production) / 15 · 100 ) per_category_blended = 0.6 · curator + 0.4 · community community drops out automatically until quorum (n ≥ 5 votes). confidence(votes) = 0.5 + min(votes / 5, 1) · 0.5 ∈ [0.5, 1.0]
2 · Anker-Rubrik
Jede Kategorie wird auf einer 1–5-Skala bewertet. Ein Score ist nur gültig, wenn die geforderte Evidenz pro Level (Commit-Hash, Doc-URL, Release-Tag, Eval-Run) zitiert werden kann.
Autonomie(autonomy)
Self-direction, Planung, Tool-Use, Selbstkorrektur, Lauflängen ohne Mensch im Loop.
| L | Label | Anker | Evidenz |
|---|---|---|---|
| 1 | Scripted | Einzel-Prompt-Ketten, kein Planner, keine Tool-Wahl zur Laufzeit. | repo example without planner · no tool-router module |
| 2 | Reactive | ReAct-Tool-Calls, einmalige Retries, kein Cross-Run-Memory. | tool-call loop in core · retry policy in code |
| 3 | Planning | Expliziter Planner, Subziel-Zerlegung, begrenzte Selbstkritik. | planner class/graph · critique step in docs |
| 4 | Persistent | Persistenter Zustand, Long-Horizon-Memory, überwachte Selbstkorrektur. | persistent memory store · documented horizon > 30 steps |
| 5 | Open-ended | Open-ended Aufgaben, reproduzierbare Runs > 8h ohne Mensch, publizierte Evals. | published eval (e.g. GAIA/SWE-bench) · public run trace > 8h |
Multimodalität(multimodality)
Text · Vision · Voice · Code · Computer-Use · World-Models — wie nativ das Framework zugreift.
| L | Label | Anker | Evidenz |
|---|---|---|---|
| 1 | Text-only | Text rein / Text raus. Keine Vision, Audio oder Code-Execution. | only text adapters in repo |
| 2 | Code-capable | Code-Execution-Sandbox oder first-class Code-Interpreter. | code-exec module · sandbox docs |
| 3 | Bi-modal | Native Vision ODER Voice zusätzlich zu Text+Code. | vision adapter · voice adapter |
| 4 | Tri-modal | Text + Code + Vision + Voice mit dokumentierten Beispielen. | multi-modal example · released cookbook |
| 5 | Computer-use | Computer-Use, GUI-Steuerung oder World-Model als unterstütztes Feature. | computer-use module · release notes shipping it |
Production(production)
Eval-Harnesses, Observability, Cost-Control, Skalierung, Deployment-Pfade.
| L | Label | Anker | Evidenz |
|---|---|---|---|
| 1 | Demo | Notebook-Niveau. Keine Tests, keine Observability, keine Deployment-Guide. | no CI · no tracing |
| 2 | Tested | CI-Tests, Basis-Logging, manuelles Deployment-Rezept. | CI workflow · logging module |
| 3 | Observable | Eingebautes Tracing (OTel/LangSmith/W&B), Cost-Telemetrie, strukturierte Retries. | tracing integration · cost metering hooks |
| 4 | Scaled | Async/Distributed-Runtime, Queueing, Scale-Out-Docs, SLO-Guidance. | distributed runner · scale-out guide |
| 5 | Hardened | Referenz-Deployment (k8s/serverless), Eval-Harness als Release-Gate, SOC2-fähiges Logging. | reference k8s/serverless template · eval gating release notes |
3 · Datenquellen
- Kurator-Baseline mit zitierbarer Evidenz pro Level (siehe oben).
- Community-Votes: eingeloggte Nutzer, 1–5 pro Kategorie, dedupliziert; Community-Signal greift ab Quorum n ≥ 5.
- GitHub-Signale: Stars, Forks, Pushed-At, 30-Tage-Commit-Momentum — stündlich gepullt.
4 · Reproduzierbarkeit & Schema
Jeder Framework-Record validiert gegen ein veröffentlichtes JSON-Schema. Rubrik, Gewichte und Changelog sind als maschinenlesbare API verfügbar.
5 · Was nicht zählt
- Closed-Source-Frameworks (per Definition außerhalb des Indexes).
- Marketing-Claims ohne zitierbare Evidenz nach Rubrik.
- Anonyme oder mehrfach abgegebene Votes (werden dedupliziert).
6 · Changelog
- v2.0 · 2026-06-25
5-stufige Anker-Rubrik pro Kategorie, Evidenz-Anforderungen, Confidence-Score und JSON-Schema für den Framework-Record ergänzt.
- v1.0 · 2026-04-01
Erstveröffentlichung: Drei Kategorien (Autonomie, Multimodalität, Production), 60/40 Kurator/Community, 1–5-Skala.
7 · Zitation
openagilayer.com (2026-06-25). AGI Readiness Index, v2.0. Methodology and data, CC-BY-4.0. https://openagilayer.com/legal/methodology