aiming-lab / MetaClaw

The agent that
learns from you.

MetaClaw est la learning-plane du ClawFamily. Un proxy transparent OpenAI-compatible qui se glisse sous OpenClaw, intercepte chaque tour de conversation, le score, et fine-tune le modèle en continu via LoRA cloud — sans restart, sans GPU local.

Stars 74
Âge 1 jour
Language Python
License MIT
Org aiming-lab (UNC Chapel Hill / UCSC)
Modèle Kimi-2.5 (~200B MoE) + Qwen3-4B

ClawFamily : la stack verticale

Paperclip est au-dessus d'OpenClaw. MetaClaw est en dessous. Ils sont complémentaires, pas concurrents.

Control-plane ↑
Paperclip
Org charts, goal ancestry, budgets, governance, multi-agent coordination — 14K stars en 7 jours
orchestrates
Agent
OpenClaw
L'agent — exécute les tâches, utilise les outils
proxied by
Learning-plane ↓ — MetaClaw
MetaClaw
Intercept · Score · Train · Hot-swap weights · Evolve skills
trains on
Modèle
Kimi-2.5 + LoRA
Le modèle — en amélioration continue, poids hot-swappés sans restart

Proxy pattern — async triple-loop

OpenClaw
MetaClaw Proxy
Kimi-2.5
API call transparente
intercept chaque tour
PRM Scorer
Training queue
Tinker LoRA
hot-swap weights, 0 restart

Les 3 boucles asynchrones indépendantes

Serving
L'agent répond en temps réel. Aucun blocage.
Scoring
PRM note chaque tour en parallèle via un juge OpenAI-compatible.
Training
Quand batch_size atteint → Tinker LoRA → hot-swap.

Skill Injection

À chaque tour, MetaClaw récupère les skills les plus pertinents depuis conversation_skills.json et les injecte dans le system prompt. Amélioration immédiate, sans attendre le retraining.

Skill Evolution

En cas d'échec : l'agent analyse la trajectoire complète de l'interaction, un LLM génère automatiquement un nouveau skill Markdown. Le système apprend de ses propres erreurs.


Ce que MetaClaw fait

Core
Train from real usage
Conversations de production → données d'entraînement. Zéro collecte de dataset offline.
Core
Skill injection
Récupère les skills pertinents à chaque tour → system prompt. Effet immédiat.
Advanced
Skill evolution
Failure trajectory → LLM → nouveau skill Markdown. Auto-amélioration continue.
Cloud
No GPU cluster
Training LoRA déporté sur Tinker cloud. N'importe quelle machine peut faire tourner le système.
Core
Hot-swap weights
Nouveaux adaptateurs LoRA chargés live. Zéro restart de service.
Core
OpenAI-compatible
Proxy drop-in. Aucun changement de config dans OpenClaw nécessaire.
Advanced
GRPO + OPD
RL (signaux implicites) + On-Policy Distillation (supervision textuelle riche).
Core
PRM judge via API
N'importe quel endpoint OpenAI-compatible comme juge de reward. Pas de vendor lock.

Paramètres clés — MetaClawConfig

Champ Défaut Description
model_namemoonshotai/Kimi-2.5Base model
batch_size32Samples avant chaque training step
loss_fnimportance_samplingAussi : ppo, cispo
use_skillsFalseActiver skill injection
enable_skill_evolutionFalseAuto-génération de skills depuis les échecs
use_prmTruePRM reward scoring

MetaClaw vs Paperclip — head-to-head

Dimension Paperclip MetaClaw
Layer Control-plane (au-dessus d'OpenClaw) Learning-plane (en dessous d'OpenClaw)
Problème résolu Chaos de coordination à l'échelle Stagnation de l'agent dans le temps
Stars 14 091 en 7 jours 74 en 1 jour
Language TypeScript Python
Users cibles Solopreneurs, AaaS founders Agent developers, researchers
Dépendance clé PostgreSQL / PGlite Tinker (cloud LoRA)
Maturité v0.3.0, production-ready v0.1 equiv., research release
Concurrent n8n, CrewAI, LangGraph RLHF pipelines, offline fine-tuning
Bus factor 1 (cryppadotta) Academic team (5+ authors)
Relation Complémentaires — ils se stackent verticalement, pas concurrents

Ce que Lyra peut emprunter

Alignements directs

Skill injection per-turn
Lyra a des skills mais les injecte statiquement. MetaClaw montre le pattern de récupération dynamique par pertinence à chaque tour — plus riche.
Async triple-loop
Même philosophie de découplage que le bus asyncio.Queue de Lyra. Validation du pattern par un projet indépendant.

Ce que Lyra ne fera pas

LoRA fine-tuning
Lyra utilise des modèles API (Anthropic, Ollama). Pas d'accès aux poids. Non applicable.
PRM reward scoring
Overkill pour usage personnel. Trop lent, trop cher par tour.

Lyra peut implémenter le même mécanisme, sans training

Échec détecté
Trajectory complète (session memory)
SLM analyse
Nouveau skill Markdown
Procedural memory (sqlite)
Injection au prochain contexte similaire

Pas de training. Pas de GPU. Pas de Tinker.
Pure prompt-level learning — fonctionne avec des modèles API. Correspond exactement au niveau 5 de la mémoire procédurale de Lyra déjà planifié. MetaClaw valide le pattern et montre le mécanisme concret.


Ce qui peut coincer

Tinker dependency
Haut
Si Tinker change de pricing ou d'API, MetaClaw casse. Aucun path de training self-hosted documenté.
Maturité académique
Haut
1 jour d'existence, code de recherche. Pas production-ready. À surveiller, pas à intégrer maintenant.
Disponibilité Kimi-2.5
Moyen
~200B MoE via Tinker — latence et coût à l'échelle inconnus. Qwen3-4B en alternative légère.
Skill quality control
Moyen
Skills auto-générés depuis les échecs peuvent amplifier les erreurs si le juge lui-même est mauvais.

Trop tôt et trop Tinker-dépendant pour une intégration production. Mais le pattern de skill evolution est directement empruntable par Lyra — sans infrastructure de training. À surveiller : si Tinker ajoute une pression tarifaire ou si MetaClaw ajoute un backend de training self-hosted, l'adoption va décoller.