v2.02026-06-25· CC-BY-4.0

Methodologie

Reproduzierbare Anker-Rubrik, versioniert, mit JSON-Schema und Evidenz-Anforderungen.

1 · Formel

score(0..100) = round( (autonomy + multimodality + production) / 15 · 100 )

per_category_blended = 0.6 · curator + 0.4 · community
community drops out automatically until quorum (n ≥ 5 votes).

confidence(votes) = 0.5 + min(votes / 5, 1) · 0.5   ∈ [0.5, 1.0]

2 · Anker-Rubrik

Jede Kategorie wird auf einer 1–5-Skala bewertet. Ein Score ist nur gültig, wenn die geforderte Evidenz pro Level (Commit-Hash, Doc-URL, Release-Tag, Eval-Run) zitiert werden kann.

Autonomie(autonomy)

Self-direction, Planung, Tool-Use, Selbstkorrektur, Lauflängen ohne Mensch im Loop.

L	Label	Anker	Evidenz
1	Scripted	Einzel-Prompt-Ketten, kein Planner, keine Tool-Wahl zur Laufzeit.	repo example without planner · no tool-router module
2	Reactive	ReAct-Tool-Calls, einmalige Retries, kein Cross-Run-Memory.	tool-call loop in core · retry policy in code
3	Planning	Expliziter Planner, Subziel-Zerlegung, begrenzte Selbstkritik.	planner class/graph · critique step in docs
4	Persistent	Persistenter Zustand, Long-Horizon-Memory, überwachte Selbstkorrektur.	persistent memory store · documented horizon > 30 steps
5	Open-ended	Open-ended Aufgaben, reproduzierbare Runs > 8h ohne Mensch, publizierte Evals.	published eval (e.g. GAIA/SWE-bench) · public run trace > 8h

Multimodalität(multimodality)

Text · Vision · Voice · Code · Computer-Use · World-Models — wie nativ das Framework zugreift.

L	Label	Anker	Evidenz
1	Text-only	Text rein / Text raus. Keine Vision, Audio oder Code-Execution.	only text adapters in repo
2	Code-capable	Code-Execution-Sandbox oder first-class Code-Interpreter.	code-exec module · sandbox docs
3	Bi-modal	Native Vision ODER Voice zusätzlich zu Text+Code.	vision adapter · voice adapter
4	Tri-modal	Text + Code + Vision + Voice mit dokumentierten Beispielen.	multi-modal example · released cookbook
5	Computer-use	Computer-Use, GUI-Steuerung oder World-Model als unterstütztes Feature.	computer-use module · release notes shipping it

Production(production)

Eval-Harnesses, Observability, Cost-Control, Skalierung, Deployment-Pfade.

L	Label	Anker	Evidenz
1	Demo	Notebook-Niveau. Keine Tests, keine Observability, keine Deployment-Guide.	no CI · no tracing
2	Tested	CI-Tests, Basis-Logging, manuelles Deployment-Rezept.	CI workflow · logging module
3	Observable	Eingebautes Tracing (OTel/LangSmith/W&B), Cost-Telemetrie, strukturierte Retries.	tracing integration · cost metering hooks
4	Scaled	Async/Distributed-Runtime, Queueing, Scale-Out-Docs, SLO-Guidance.	distributed runner · scale-out guide
5	Hardened	Referenz-Deployment (k8s/serverless), Eval-Harness als Release-Gate, SOC2-fähiges Logging.	reference k8s/serverless template · eval gating release notes

3 · Datenquellen

Kurator-Baseline mit zitierbarer Evidenz pro Level (siehe oben).
Community-Votes: eingeloggte Nutzer, 1–5 pro Kategorie, dedupliziert; Community-Signal greift ab Quorum n ≥ 5.
GitHub-Signale: Stars, Forks, Pushed-At, 30-Tage-Commit-Momentum — stündlich gepullt.

4 · Reproduzierbarkeit & Schema

Jeder Framework-Record validiert gegen ein veröffentlichtes JSON-Schema. Rubrik, Gewichte und Changelog sind als maschinenlesbare API verfügbar.

5 · Was nicht zählt

Closed-Source-Frameworks (per Definition außerhalb des Indexes).
Marketing-Claims ohne zitierbare Evidenz nach Rubrik.
Anonyme oder mehrfach abgegebene Votes (werden dedupliziert).

6 · Changelog

v2.0 · 2026-06-25
5-stufige Anker-Rubrik pro Kategorie, Evidenz-Anforderungen, Confidence-Score und JSON-Schema für den Framework-Record ergänzt.
v1.0 · 2026-04-01
Erstveröffentlichung: Drei Kategorien (Autonomie, Multimodalität, Production), 60/40 Kurator/Community, 1–5-Skala.

7 · Zitation

openagilayer.com (2026-06-25). AGI Readiness Index, v2.0.
Methodology and data, CC-BY-4.0. https://openagilayer.com/legal/methodology