Розглядаємо архітектуру AMADEQ Skills Protocol v2.1. Час LoRA ініціалізації 8–12 сек.
Три варіанти: Pre-load / Lazy LRU / Shared delta-weights. VRAM: 32GB, зараз 18GB. Max аватарів: 50.
📐 arch_v2.png
📄 spec.pdf
14:32
Фаза 1 — Паралельний аналіз
⊞ Всі
Cl
GP
Ge
DS
Gk
Ki
Px
⇔ Порівн.
Claude Sonnet 4.6
Var3↑Async
14:33 · 2.1s
Варіант 3 (Shared base + delta-weights) є оптимальним. При 50
аватарах Pre-load потребує >200GB VRAM. Delta (~40MB/avatar) дозволяє тримати base постійно, swap
тільки deltas.
✓Base model постійно в VRAM — нульова
затримка
⚡Async prefetch наступного
адаптера
⚠Потрібен delta compression
(INT4)
Впевненість
88%
Var3 → 500msINT4 quantрозгорнути
GPT-4.1
ГібридCUDA
14:33 · 3.4s
Гібрид Lazy LRU + pre-warming топ-10 аватарів. CUDA streams дають overlap між
inference та loading. 18GB base + 1GB LRU = 19GB. Медіана cold start: 1.2s.
✓LRU cache для 10 найчастіших:
0ms
⚡CUDA streams: loading + inference
паралельно
⚠Складніша реалізація
Впевненість
72%
LRU cacheСкладна implрозгорнути
Gemini 2.5 Pro
INT4500ms
14:34 · 4.2s
14GB вільного VRAM. Pre-load топ-10 (~2GB). INT4 знизить delta з 40MB до 10MB.
Cold start: 500ms. Cluster-based LRU де суміжні персонажі групуються за схожістю LoRA weights.
✓INT4 quantization: 75%
зменшення
✓Cluster LRU: семантично близькі
аватари
⚡100+ адаптерів у VRAM після
quant
Впевненість
82%
Cluster LRU14GB freeрозгорнути
DeepSeek R1
CoTMerge
14:34 · 8.1s
Рекомендую model merging замість окремих LoRA. Зливаємо base + top-5 adapters в
один checkpoint. Для решти — стандартний lazy load з GGUF quantization.
✓Model merge для топ-5 аватарів: 0ms
swap
⚡GGUF quant для решти: 8MB per
adapter
⚠Merge потребує перерахунку при зміні
base
Впевненість
78%
Merge top-5GGUFрозгорнути
Grok 3
SpecPool
14:35 · 2.8s
Speculative loading: завантажуємо 3 найбільш ймовірних адаптери одночасно.
Memory pool pattern: pre-allocate 4GB під адаптери, swap без malloc.
✓Speculative load: 3 кандидати
паралельно
⚡Memory pool: zero-alloc swap за
50ms
⚠4GB overhead для pool
Впевненість
70%
Spec load0-allocрозгорнути
Kimi Latest
Sync!Queue
14:34 · 3.6s
Коренева проблема — синхронне завантаження. Priority Queue де наступний аватар
завантажується під час розмови.
🔴Sync loading = головна
проблема
✓Priority Queue: 0ms суб'єктивна
затримка
⚡ML-prefetch наступного аватара
Впевненість
65%
Async обов.ML
prefetchрозгорнути
Sonar Pro
WebBench
14:35 · 4.0s
За даними з веб-досліджень, INT4 delta-weights є індустріальним стандартом.
S-LoRA framework з vLLM досягає 2000 adapters з ~4GB overhead.
🔗S-LoRA: 2000 адаптерів на одному
GPU
✓vLLM інтеграція: production
ready
⚡Unified paging: 30ms avg swap
Впевненість
75%
S-LoRAvLLMрозгорнути
Фаза 2 — Крос-рев'ю
Агенти читають аналізи один одного...
⚡
Консенсус — Skills Protocol v2.1
Сесія #011 · 19 лют · 7/7 агентів · 92% згода
Затверджено: Runtime injection без retraining. RAG-over-LoRA для
процедурних навичок.
Відхилено: fine-tuning per-skill (~$800/skill, нерентабельно).
Next: benchmark з 10 паралельними аватарами до 25 лютого.
Відхилено: fine-tuning per-skill (~$800/skill, нерентабельно).
Next: benchmark з 10 паралельними аватарами до 25 лютого.
⏱ Час відповіді (середній)
💰 Вартість за сесію (12 останніх)
#1#2#3#4#5#6#7#8#9#10#11#12
📊 Конвергенція згоди (%)
#1#2#3#4#5#6#7#8#9#10#11#12
🎯 Надійність агентів
100%
Claude · 12/12
100%
GPT · 12/12
92%
Gemini · 11/12
75%
DeepSeek · 9/12
100%
Grok · 12/12
92%
Kimi · 11/12
100%
Sonar · 12/12
📝 Рішення (останні)
✓ Затв.Runtime injection без retraining для Skills#011
✓ Затв.RAG-over-LoRA для процедурних навичок#011
✕ Відх.Fine-tuning per-skill ($800/skill)#011
✓ Затв.INT4
quantization для delta-weights#010
⏳ Відкл.Перехід на vLLM framework#009
✓ Затв.Lazy
LRU cache для топ-10 аватарів#008
16:51:05initMULTI-AGENT CONSENSUS PIPELINE (7
agents)
16:51:05initActive agents: claude → Claude Sonnet 4.6 [claude-sonnet-4-6]
16:51:05initActive agents: openai → GPT-4.1 [gpt-4.1]
16:51:05initActive agents: gemini → Gemini 2.5 Pro [gemini-2.5-pro]
16:51:06state[1/6] Loading state...
16:51:06stateOK State loaded: 0 previous sessions
16:51:06stateSession #1 | 2026-02-20
16:55
16:55:00phase1[2/6] PHASE 1: Parallel Analysis
(7 agents)
16:55:01phase1-> [Claude Sonnet 4.6] request
sent...
16:55:01phase1-> [GPT-4.1] request sent...
16:55:01phase1-> [Gemini 2.5 Pro] request
sent...
16:55:03phase1OK [Claude Sonnet 4.6] response
received (2847 chars)
16:55:04phase1OK [GPT-4.1] response received (3102
chars)
16:55:05phase1[Gemini/gemini-2.5-pro] rate
limit, attempt 1/3, waiting 10s...
16:55:15phase1[Gemini] fallback:
gemini-3-flash-preview instead of gemini-2.5-pro
16:55:18phase1OK [Gemini 3 Flash] response received
(2955 chars)
16:55:20phase1FAIL [DeepSeek R1]: timeout after
15s
16:55:22phase1OK [Grok 3] response received (2600
chars)
16:55:25phase1OK [Kimi Latest] response received
(2800 chars)
16:55:28phase1OK [Sonar Pro] response received
(3000 chars)
16:55:28phase2[3/6] PHASE 2: Cross-Review (6
agents)
16:55:50phase3[4/6] PHASE 3: Consensus
Synthesis (Gemini 2.5 Pro)
16:56:10phase4[5/6] PHASE 4: Final Document
(Claude Sonnet 4.6)
16:56:30save[6/6] Saving results
16:56:31saveFAIL Google Drive upload: storageQuotaExceeded
16:56:31saveOK Saved locally: output/session_001_20260220_1655.md
16:56:32donePIPELINE COMPLETE
Рейтингдеталі →
Var3:
Shared delta-weights
Claude
88%
Gemini
82%
DeepSk
78%
Sonar
75%
GPT
72%
Grok
70%
Kimi
65%
Матриця згоди
Cl
GP
Ge
DS
Gk
Ki
Px
Cl
—
67
88
82
64
48
79
GP
67
—
70
65
73
75
68
Ge
88
70
—
80
66
62
85
DS
82
65
80
—
71
60
76
Gk
64
73
66
71
—
69
63
Ki
48
75
62
60
69
—
58
Px
79
68
85
76
63
58
—
Налаштування
🔄 Крос-рев'ю
Агенти читають інших
🗜 Auto-compress
Кожні 5 сесій
🌐 Web search
Дозволити агентам
☁ Auto-save
Після кожної сесії
📊 Show scores
Бали впевненості
Експорт
📝Markdown
☁Drive
📋Notion
🔗Share
Вартість
Claude S4.6$0.043
GPT-4.1$0.038
Gemini 2.5$0.011
DeepSeek R1$0.022
Grok 3$0.035
Kimi Latest$0.008
Sonar Pro$0.030
Разом$0.187