aiming-lab / MetaClaw

The agent that
learns from you.

MetaClaw est la learning-plane du ClawFamily. Un proxy transparent OpenAI-compatible qui se glisse sous OpenClaw, intercepte chaque tour de conversation, le score, et fine-tune le modèle en continu via LoRA cloud — sans restart, sans GPU local.

Stars 74

Âge 1 jour

Language Python

License MIT

Org aiming-lab (UNC Chapel Hill / UCSC)

Modèle Kimi-2.5 (~200B MoE) + Qwen3-4B

Position dans l'écosystème

ClawFamily : la stack verticale

Paperclip est au-dessus d'OpenClaw. MetaClaw est en dessous. Ils sont complémentaires, pas concurrents.

Control-plane ↑

Paperclip

Org charts, goal ancestry, budgets, governance, multi-agent coordination — 14K stars en 7 jours

orchestrates

Agent

OpenClaw

L'agent — exécute les tâches, utilise les outils

proxied by

Learning-plane ↓ — MetaClaw

MetaClaw

Intercept · Score · Train · Hot-swap weights · Evolve skills

trains on

Modèle

Kimi-2.5 + LoRA

Le modèle — en amélioration continue, poids hot-swappés sans restart

Architecture

Proxy pattern — async triple-loop

OpenClaw

→

MetaClaw Proxy

→

Kimi-2.5

API call transparente

↓

intercept chaque tour

PRM Scorer

→

Training queue

→

Tinker LoRA

↓

hot-swap weights, 0 restart

Les 3 boucles asynchrones indépendantes

⚡

Serving

L'agent répond en temps réel. Aucun blocage.

⚖

Scoring

PRM note chaque tour en parallèle via un juge OpenAI-compatible.

⟳

Training

Quand batch_size atteint → Tinker LoRA → hot-swap.

Skill Injection

À chaque tour, MetaClaw récupère les skills les plus pertinents depuis conversation_skills.json et les injecte dans le system prompt. Amélioration immédiate, sans attendre le retraining.

Skill Evolution

En cas d'échec : l'agent analyse la trajectoire complète de l'interaction, un LLM génère automatiquement un nouveau skill Markdown. Le système apprend de ses propres erreurs.

Feature Matrix

Ce que MetaClaw fait

Core

Train from real usage

Conversations de production → données d'entraînement. Zéro collecte de dataset offline.

Core

Skill injection

Récupère les skills pertinents à chaque tour → system prompt. Effet immédiat.

Advanced

Skill evolution

Failure trajectory → LLM → nouveau skill Markdown. Auto-amélioration continue.

Cloud

No GPU cluster

Training LoRA déporté sur Tinker cloud. N'importe quelle machine peut faire tourner le système.

Core

Hot-swap weights

Nouveaux adaptateurs LoRA chargés live. Zéro restart de service.

Core

OpenAI-compatible

Proxy drop-in. Aucun changement de config dans OpenClaw nécessaire.

Advanced

GRPO + OPD

RL (signaux implicites) + On-Policy Distillation (supervision textuelle riche).

Core

PRM judge via API

N'importe quel endpoint OpenAI-compatible comme juge de reward. Pas de vendor lock.

Paramètres clés — `MetaClawConfig`

Champ	Défaut	Description
`model_name`	`moonshotai/Kimi-2.5`	Base model
`batch_size`	`32`	Samples avant chaque training step
`loss_fn`	`importance_sampling`	Aussi : ppo, cispo
`use_skills`	`False`	Activer skill injection
`enable_skill_evolution`	`False`	Auto-génération de skills depuis les échecs
`use_prm`	`True`	PRM reward scoring

Comparaison

MetaClaw vs Paperclip — head-to-head

Dimension	Paperclip	MetaClaw
Layer	Control-plane (au-dessus d'OpenClaw)	Learning-plane (en dessous d'OpenClaw)
Problème résolu	Chaos de coordination à l'échelle	Stagnation de l'agent dans le temps
Stars	14 091 en 7 jours	74 en 1 jour
Language	TypeScript	Python
Users cibles	Solopreneurs, AaaS founders	Agent developers, researchers
Dépendance clé	PostgreSQL / PGlite	Tinker (cloud LoRA)
Maturité	v0.3.0, production-ready	v0.1 equiv., research release
Concurrent	n8n, CrewAI, LangGraph	RLHF pipelines, offline fine-tuning
Bus factor	1 (cryppadotta)	Academic team (5+ authors)
Relation	Complémentaires — ils se stackent verticalement, pas concurrents

Pertinence pour Lyra

Ce que Lyra peut emprunter

Alignements directs

Skill injection per-turn

Lyra a des skills mais les injecte statiquement. MetaClaw montre le pattern de récupération dynamique par pertinence à chaque tour — plus riche.

Async triple-loop

Même philosophie de découplage que le bus asyncio.Queue de Lyra. Validation du pattern par un projet indépendant.

Ce que Lyra ne fera pas

LoRA fine-tuning

Lyra utilise des modèles API (Anthropic, Ollama). Pas d'accès aux poids. Non applicable.

PRM reward scoring

Overkill pour usage personnel. Trop lent, trop cher par tour.

Emprunt clé — Skill Evolution sans LoRA

Lyra peut implémenter le même mécanisme, sans training

Échec détecté

→

Trajectory complète (session memory)

→

SLM analyse

→

Nouveau skill Markdown

→

Procedural memory (sqlite)

→

Injection au prochain contexte similaire

Pas de training. Pas de GPU. Pas de Tinker.
Pure prompt-level learning — fonctionne avec des modèles API. Correspond exactement au niveau 5 de la mémoire procédurale de Lyra déjà planifié. MetaClaw valide le pattern et montre le mécanisme concret.

Risques

Ce qui peut coincer

Tinker dependency

Haut

Si Tinker change de pricing ou d'API, MetaClaw casse. Aucun path de training self-hosted documenté.

Maturité académique

Haut

1 jour d'existence, code de recherche. Pas production-ready. À surveiller, pas à intégrer maintenant.

Disponibilité Kimi-2.5

Moyen

~200B MoE via Tinker — latence et coût à l'échelle inconnus. Qwen3-4B en alternative légère.

Skill quality control

Moyen

Skills auto-générés depuis les échecs peuvent amplifier les erreurs si le juge lui-même est mauvais.

Verdict

Trop tôt et trop Tinker-dépendant pour une intégration production. Mais le pattern de skill evolution est directement empruntable par Lyra — sans infrastructure de training. À surveiller : si Tinker ajoute une pression tarifaire ou si MetaClaw ajoute un backend de training self-hosted, l'adoption va décoller.

The agent thatlearns from you.

ClawFamily : la stack verticale

Proxy pattern — async triple-loop

Les 3 boucles asynchrones indépendantes

Skill Injection

Skill Evolution

Ce que MetaClaw fait

Paramètres clés — MetaClawConfig

MetaClaw vs Paperclip — head-to-head

Ce que Lyra peut emprunter

Alignements directs

Ce que Lyra ne fera pas

Lyra peut implémenter le même mécanisme, sans training

Ce qui peut coincer

The agent that
learns from you.

Paramètres clés — `MetaClawConfig`