Headroom Mini
Local MCP server for token optimization, providing tools to compress code/JSON, optimize prompts, and manage placeholder-based content redaction and hydration to reduce LLM token usage.
README
Headroom Mini
Headroom Mini הוא שרת MCP מקומי לניתוב וייעול טוקנים עבור פרומפטים ושליחת תוכן ל-LLM.
מה הפרויקט עושה
- מיישם שרת MCP (
@modelcontextprotocol/sdk) עם כלים ל:- דחיסת קוד (
compress_code) - דחיסת JSON (
compress_json) - אופטימיזציית פרומפטים (
optimize_prompt) - הזרקת placeholder הפיכה (
redact_content) - שחזור תוכן דרך placeholder (
hydrate)
- דחיסת קוד (
- משתמש בספרייה
gpt-tokenizerכדי להדפיס סטטיסטיקת טוקנים ברורה לכל פעולה. - מנהל מזהי placeholder עם
HEADROOM_REDACTED_LOGS_ID_<NUM>ושומר תוכן לשחזור. - התהליך מתבצע מקומית בזמן ריצה, ללא אחסון קבוע מחוץ לזיכרון הריצה.
מבנה הפרויקט
src/– קוד המקורsrc/tools/– פונקציות עזרsrc/storage/– אחסון placeholder רוחבי לזמן ריצהtests/– טסטים יחידה
איך להתקין ולהריץ
npm install
npm start
הפקודה npm start תבנה את הקוד לפני ההרצה בעזרת prestart.
לריצה מהירה בסביבת פיתוח (בלי תהליך בנייה נפרד):
npm run dev
להרצת הטסטים:
npm test
דוגמת שימוש
- התקנה והרצה:
npm install
npm start
- הפעלת שרת MCP מקומי:
npm run dev
- בדיקת יחידות:
npm test
להגשה: יש לכלול את כל הקבצים במקור ללא node_modules ובלי dist.
כלים בשרת MCP
compress_code– מסיר הערות, docstrings וקווים ריקים מקודcompress_json– בודק JSON וממזג אותו לשורה אחתoptimize_prompt– מוציא חותמות זמן ו-UUIDים ומעביר אותם לסוף הפרומפטredact_content– מחליף תוכן ארוך מעל 500 תווים ב-placeholderhydrate– מקבל placeholder או טקסט המכיל אותו ומחזיר את התוכן המקורי
דוגמת schema של כלי MCP
{
name: "compress_code",
description: "Compresses code by removing comments and whitespace",
inputSchema: {
type: "object",
properties: {
code: { type: "string" }
},
required: ["code"]
}
}
זהו המבנה שבו סוכן AI יכול לזהות מתי להפעיל כלי דחיסה לפני שליחה ל-LLM.
תשובה לחלק 1.1
1. למה הזזת שדות דינמיים לסוף זה חשוב?
הזזת שדות דינמיים כמו חותמות זמן או UUID לסוף הפרומפט שומרת על החלק ה"קבוע" של הטקסט זהה בין בקשות שונות. זה מאפשר למודלים ולהיצעי cache של ספקים לזהות שהפרומפט הוא אותו פרומפט עם שינויים קטנים, וכך נמנע "cache miss". ההשפעה הכלכלית היא חיסכון משמעותי בעלויות שימוש ב-API, כי מודלים לא צריכים לנתח שוב ולקדד מחדש פרומפטים שבהם רק הנתונים הדינמיים השתנו.
2. כיצד לולאת פידבק עם placeholders עובדת?
במנגנון זה התוכן המלא נחתך כשגדול מדי, ובמקומו מוחדר מזהה מיוחד כגון:
[HEADROOM_REDACTED_LOGS_ID_1].
אם המודל צריך את התוכן המקורי בשיחה הבאה, הוא יכול לבקש אותו במפורש.
השרת יכול להזרים חזרה את התוכן דרך hydrate, ובכך לשמור על דחיסה ראשונית ועדיין לאפשר שחזור מלא של המידע במידת הצורך.
תשובה לחלק 1.2
תרשים זרימה של מחזור חיים
flowchart LR
Dev["מפתח/ת (Cursor IDE)"] --> Client["Cursor / MCP Client"]
Client --> Server["Headroom-Mini MCP Server"]
Server --> LLM["מודל יעד (Anthropic / Claude)"]
subgraph preprocessing ["Headroom-Mini Processing"]
TokenCount["Token Counting"]
CacheAnalysis["בדיקת cache / ניתוח סטטי"]
CompressCode["דחיסת קוד / JSON"]
PromptOptimize["אופטימיזציית פרומפט"]
Redact["הזרקת placeholders"]
Hydration["לולאת פידבק / Hydrate"]
end
Client --> TokenCount
TokenCount --> CacheAnalysis
CacheAnalysis --> CompressCode
CompressCode --> PromptOptimize
PromptOptimize --> Redact
Redact --> LLM
LLM --> Hydration
Hydration --> Server
הסבר זרימה
- המפתח כותב קוד או פרומפט ב-Cursor.
- Cursor שולח את הבקשה לשרת MCP המקומי.
- Headroom-Mini סופר טוקנים, מנתח שדות דינמיים, דוחס קוד/JSON ויכול להחליף תוכן גדול ב-placeholders.
- אם המודל מבקש מידע נוסף, המערכת מקבלת מזהה placeholder מהשיחה, והשרת מחזיר את התוכן המקורי באמצעות
hydrate.
תשובה לחלק 3
שימוש ביכולות AI פנימיות של Cursor
בפרויקט זה ניתן היה לנצל את יכולות ה-AI של Cursor כדי להבין את מבנה המלל והכלים של Headroom, וליצור את ה-schema של הכלים בצורה מדויקת. ה־README כולל הסברים על כל כלי והטמעה של שרת MCP, מה שמ יוצר ממשק ברור עבור סוכן.
איך סוכן AI משתמש ב-schema של כלי MCP?
כאשר מגדירים כלי MCP עם name, description ו־inputSchema, סוכן AI יכול להבין באיזה תנאים כדאי להפעיל כל כלי.
למשל, אם הטקסט מכיל JSON גדול, הסוכן יכול להפעיל compress_json לפני שליחה.
זה יאפשר לו לבחור האם לנסות דחיסה או hydration בהתאם לבקשה ולתוכן.
איך Cursor יכול להפעיל את הכלים
בממשק של Cursor, סוכן ה-AI יכול לבחור כלי MCP מתוך הרשימה שהוגדרה לו ולהפעילו בזמן כתיבת בקשה או שליחת פרומפט.
לדוגמה, אם המשתמש כותב בקשה עם קוד ארוך, הסוכן יכול לבחור compress_code; אם יש JSON גדול, הוא יכול לבחור compress_json; ואם יש צורך בשחזור תוכן, הוא יכול להשתמש ב-hydrate.
זה הופך את התהליך לאוטומטי, שקוף, וממוקד בהקטנת עלויות התקשורת עם המודל.
מדידת טוקנים
דוגמה להדפסה שנמצאת בזמן הריצה:
Original tokens: 2450
Optimized tokens: 1320
Saved tokens: 1130 (46%)
המדידה הזאת מתבצעת באמצעות gpt-tokenizer ומאפשרת לראות את ההשפעה המעשית של הדחיסה.
טסטים
הפרויקט כולל טסטים למקרים קריטיים:
- בדיקת הסרת comments מקוד
- בדיקת minify של JSON
- בדיקת replacement של placeholder ארוך
- בדיקת אופטימיזציית prompt עם timestamps ו-UUID
ניתן להריץ את כל הטסטים עם:
npm test
הערות נוספות
- אין
node_modulesבתיעוד, וניתן להריץ את הפרויקט אחריnpm installבתוך פחות מ-3 דקות. - יש טסטים שמכסים את הלוגיקה המרכזית; ניתן להריץ אותם באמצעות
npm test.
Recommended Servers
playwright-mcp
A Model Context Protocol server that enables LLMs to interact with web pages through structured accessibility snapshots without requiring vision models or screenshots.
Magic Component Platform (MCP)
An AI-powered tool that generates modern UI components from natural language descriptions, integrating with popular IDEs to streamline UI development workflow.
Audiense Insights MCP Server
Enables interaction with Audiense Insights accounts via the Model Context Protocol, facilitating the extraction and analysis of marketing insights and audience data including demographics, behavior, and influencer engagement.
VeyraX MCP
Single MCP tool to connect all your favorite tools: Gmail, Calendar and 40 more.
graphlit-mcp-server
The Model Context Protocol (MCP) Server enables integration between MCP clients and the Graphlit service. Ingest anything from Slack to Gmail to podcast feeds, in addition to web crawling, into a Graphlit project - and then retrieve relevant contents from the MCP client.
Kagi MCP Server
An MCP server that integrates Kagi search capabilities with Claude AI, enabling Claude to perform real-time web searches when answering questions that require up-to-date information.
E2B
Using MCP to run code via e2b.
Neon Database
MCP server for interacting with Neon Management API and databases
Exa Search
A Model Context Protocol (MCP) server lets AI assistants like Claude use the Exa AI Search API for web searches. This setup allows AI models to get real-time web information in a safe and controlled way.
Qdrant Server
This repository is an example of how to create a MCP server for Qdrant, a vector search engine.