MetaClaw est la learning-plane du ClawFamily.
Un proxy transparent OpenAI-compatible qui se glisse sous OpenClaw, intercepte chaque tour de conversation,
le score, et fine-tune le modèle en continu via LoRA cloud — sans restart, sans GPU local.
Stars74
Âge1 jour
LanguagePython
LicenseMIT
Orgaiming-lab (UNC Chapel Hill / UCSC)
ModèleKimi-2.5 (~200B MoE) + Qwen3-4B
Position dans l'écosystème
ClawFamily : la stack verticale
Paperclip est au-dessus d'OpenClaw. MetaClaw est en dessous. Ils sont complémentaires, pas concurrents.
Control-plane ↑
Paperclip
Org charts, goal ancestry, budgets, governance, multi-agent coordination — 14K stars en 7 jours
Le modèle — en amélioration continue, poids hot-swappés sans restart
Architecture
Proxy pattern — async triple-loop
OpenClaw
→
MetaClaw Proxy
→
Kimi-2.5
API call transparente
↓
intercept chaque tour
PRM Scorer
→
Training queue
→
Tinker LoRA
↓
hot-swap weights, 0 restart
Les 3 boucles asynchrones indépendantes
⚡
Serving
L'agent répond en temps réel. Aucun blocage.
⚖
Scoring
PRM note chaque tour en parallèle via un juge OpenAI-compatible.
⟳
Training
Quand batch_size atteint → Tinker LoRA → hot-swap.
Skill Injection
À chaque tour, MetaClaw récupère les skills les plus pertinents depuis
conversation_skills.json et les injecte dans le system prompt. Amélioration immédiate,
sans attendre le retraining.
Skill Evolution
En cas d'échec : l'agent analyse la trajectoire complète de l'interaction,
un LLM génère automatiquement un nouveau skill Markdown. Le système apprend de ses propres erreurs.
Feature Matrix
Ce que MetaClaw fait
Core
Train from real usage
Conversations de production → données d'entraînement. Zéro collecte de dataset offline.
Core
Skill injection
Récupère les skills pertinents à chaque tour → system prompt. Effet immédiat.
Advanced
Skill evolution
Failure trajectory → LLM → nouveau skill Markdown. Auto-amélioration continue.
Cloud
No GPU cluster
Training LoRA déporté sur Tinker cloud. N'importe quelle machine peut faire tourner le système.
Core
Hot-swap weights
Nouveaux adaptateurs LoRA chargés live. Zéro restart de service.
Core
OpenAI-compatible
Proxy drop-in. Aucun changement de config dans OpenClaw nécessaire.
N'importe quel endpoint OpenAI-compatible comme juge de reward. Pas de vendor lock.
Paramètres clés — MetaClawConfig
Champ
Défaut
Description
model_name
moonshotai/Kimi-2.5
Base model
batch_size
32
Samples avant chaque training step
loss_fn
importance_sampling
Aussi : ppo, cispo
use_skills
False
Activer skill injection
enable_skill_evolution
False
Auto-génération de skills depuis les échecs
use_prm
True
PRM reward scoring
Comparaison
MetaClaw vs Paperclip — head-to-head
Dimension
Paperclip
MetaClaw
Layer
Control-plane (au-dessus d'OpenClaw)
Learning-plane (en dessous d'OpenClaw)
Problème résolu
Chaos de coordination à l'échelle
Stagnation de l'agent dans le temps
Stars
14 091en 7 jours
74en 1 jour
Language
TypeScript
Python
Users cibles
Solopreneurs, AaaS founders
Agent developers, researchers
Dépendance clé
PostgreSQL / PGlite
Tinker (cloud LoRA)
Maturité
v0.3.0, production-ready
v0.1 equiv., research release
Concurrent
n8n, CrewAI, LangGraph
RLHF pipelines, offline fine-tuning
Bus factor
1 (cryppadotta)
Academic team (5+ authors)
Relation
Complémentaires — ils se stackent verticalement, pas concurrents
Pertinence pour Lyra
Ce que Lyra peut emprunter
Alignements directs
Skill injection per-turn
Lyra a des skills mais les injecte statiquement. MetaClaw montre le pattern de récupération dynamique par pertinence à chaque tour — plus riche.
Async triple-loop
Même philosophie de découplage que le bus asyncio.Queue de Lyra. Validation du pattern par un projet indépendant.
Ce que Lyra ne fera pas
LoRA fine-tuning
Lyra utilise des modèles API (Anthropic, Ollama). Pas d'accès aux poids. Non applicable.
PRM reward scoring
Overkill pour usage personnel. Trop lent, trop cher par tour.
Emprunt clé — Skill Evolution sans LoRA
Lyra peut implémenter le même mécanisme, sans training
Échec détecté
→
Trajectory complète (session memory)
→
SLM analyse
→
Nouveau skill Markdown
→
Procedural memory (sqlite)
→
Injection au prochain contexte similaire
Pas de training. Pas de GPU. Pas de Tinker.
Pure prompt-level learning — fonctionne avec des modèles API. Correspond exactement au niveau 5 de la mémoire procédurale de Lyra déjà planifié.
MetaClaw valide le pattern et montre le mécanisme concret.
Risques
Ce qui peut coincer
Tinker dependency
Haut
Si Tinker change de pricing ou d'API, MetaClaw casse. Aucun path de training self-hosted documenté.
Maturité académique
Haut
1 jour d'existence, code de recherche. Pas production-ready. À surveiller, pas à intégrer maintenant.
Disponibilité Kimi-2.5
Moyen
~200B MoE via Tinker — latence et coût à l'échelle inconnus. Qwen3-4B en alternative légère.
Skill quality control
Moyen
Skills auto-générés depuis les échecs peuvent amplifier les erreurs si le juge lui-même est mauvais.
Verdict
Trop tôt et trop Tinker-dépendant pour une intégration production.
Mais le pattern de skill evolution est directement empruntable par Lyra
— sans infrastructure de training. À surveiller : si Tinker ajoute une pression tarifaire
ou si MetaClaw ajoute un backend de training self-hosted, l'adoption va décoller.