v2.02026-06-25· CC-BY-4.0

Methodologie

Reproduzierbare Anker-Rubrik, versioniert, mit JSON-Schema und Evidenz-Anforderungen.

1 · Formel

score(0..100) = round( (autonomy + multimodality + production) / 15 · 100 )

per_category_blended = 0.6 · curator + 0.4 · community
community drops out automatically until quorum (n ≥ 5 votes).

confidence(votes) = 0.5 + min(votes / 5, 1) · 0.5   ∈ [0.5, 1.0]

2 · Anker-Rubrik

Jede Kategorie wird auf einer 1–5-Skala bewertet. Ein Score ist nur gültig, wenn die geforderte Evidenz pro Level (Commit-Hash, Doc-URL, Release-Tag, Eval-Run) zitiert werden kann.

Autonomie(autonomy)

Self-direction, Planung, Tool-Use, Selbstkorrektur, Lauflängen ohne Mensch im Loop.

LLabelAnkerEvidenz
1ScriptedEinzel-Prompt-Ketten, kein Planner, keine Tool-Wahl zur Laufzeit.repo example without planner · no tool-router module
2ReactiveReAct-Tool-Calls, einmalige Retries, kein Cross-Run-Memory.tool-call loop in core · retry policy in code
3PlanningExpliziter Planner, Subziel-Zerlegung, begrenzte Selbstkritik.planner class/graph · critique step in docs
4PersistentPersistenter Zustand, Long-Horizon-Memory, überwachte Selbstkorrektur.persistent memory store · documented horizon > 30 steps
5Open-endedOpen-ended Aufgaben, reproduzierbare Runs > 8h ohne Mensch, publizierte Evals.published eval (e.g. GAIA/SWE-bench) · public run trace > 8h

Multimodalität(multimodality)

Text · Vision · Voice · Code · Computer-Use · World-Models — wie nativ das Framework zugreift.

LLabelAnkerEvidenz
1Text-onlyText rein / Text raus. Keine Vision, Audio oder Code-Execution.only text adapters in repo
2Code-capableCode-Execution-Sandbox oder first-class Code-Interpreter.code-exec module · sandbox docs
3Bi-modalNative Vision ODER Voice zusätzlich zu Text+Code.vision adapter · voice adapter
4Tri-modalText + Code + Vision + Voice mit dokumentierten Beispielen.multi-modal example · released cookbook
5Computer-useComputer-Use, GUI-Steuerung oder World-Model als unterstütztes Feature.computer-use module · release notes shipping it

Production(production)

Eval-Harnesses, Observability, Cost-Control, Skalierung, Deployment-Pfade.

LLabelAnkerEvidenz
1DemoNotebook-Niveau. Keine Tests, keine Observability, keine Deployment-Guide.no CI · no tracing
2TestedCI-Tests, Basis-Logging, manuelles Deployment-Rezept.CI workflow · logging module
3ObservableEingebautes Tracing (OTel/LangSmith/W&B), Cost-Telemetrie, strukturierte Retries.tracing integration · cost metering hooks
4ScaledAsync/Distributed-Runtime, Queueing, Scale-Out-Docs, SLO-Guidance.distributed runner · scale-out guide
5HardenedReferenz-Deployment (k8s/serverless), Eval-Harness als Release-Gate, SOC2-fähiges Logging.reference k8s/serverless template · eval gating release notes

3 · Datenquellen

  • Kurator-Baseline mit zitierbarer Evidenz pro Level (siehe oben).
  • Community-Votes: eingeloggte Nutzer, 1–5 pro Kategorie, dedupliziert; Community-Signal greift ab Quorum n ≥ 5.
  • GitHub-Signale: Stars, Forks, Pushed-At, 30-Tage-Commit-Momentum — stündlich gepullt.

4 · Reproduzierbarkeit & Schema

Jeder Framework-Record validiert gegen ein veröffentlichtes JSON-Schema. Rubrik, Gewichte und Changelog sind als maschinenlesbare API verfügbar.

5 · Was nicht zählt

  • Closed-Source-Frameworks (per Definition außerhalb des Indexes).
  • Marketing-Claims ohne zitierbare Evidenz nach Rubrik.
  • Anonyme oder mehrfach abgegebene Votes (werden dedupliziert).

6 · Changelog

  • v2.0 · 2026-06-25

    5-stufige Anker-Rubrik pro Kategorie, Evidenz-Anforderungen, Confidence-Score und JSON-Schema für den Framework-Record ergänzt.

  • v1.0 · 2026-04-01

    Erstveröffentlichung: Drei Kategorien (Autonomie, Multimodalität, Production), 60/40 Kurator/Community, 1–5-Skala.

7 · Zitation

openagilayer.com (2026-06-25). AGI Readiness Index, v2.0.
Methodology and data, CC-BY-4.0. https://openagilayer.com/legal/methodology