mcp-screenshot
A small Model Context Protocol (MCP) server that gives an LLM eyes on your desktop without burning context. It can take one-off screenshots, crop a region around the mouse cursor, and run timed streaming sessions that save frames to disk and only return image bytes when explicitly asked.
README
mcp-screenshot
Русская версия ниже / Russian version below
A small Model Context Protocol (MCP) server that gives an LLM eyes on your desktop without burning context. It can take one-off screenshots, crop a region around the mouse cursor, and run timed streaming sessions that save frames to disk and only return image bytes when explicitly asked.
Why this exists
Most LLM workflows that need to "look at the screen" either:
- Drop a full-resolution PNG into the model context every call — which eats tokens fast and slows the conversation.
- Run a separate vision pipeline that the model can't directly query.
This server takes a middle road. Captures are persisted to disk; the MCP tools
return small metadata blobs (filePath, bytes, dimensions, cursor info)
plus the image only when you ask for includeBase64=true or call
stream_latest. Streaming sessions keep a bounded ring of recent frames in
memory so a 5-minute capture session at 1 fps doesn't blow memory either.
It also exposes the mouse cursor position and the title of the window under the cursor, so the model can ground its analysis ("you are looking at the window titled X at the top-right of the screen") without guessing.
Tools
| Tool | What it does |
|---|---|
screenshot |
One-shot capture. Optional cursor-region crop, format, quality, resize. |
cursor_info |
Cursor coords + foreground window + window directly under the cursor. |
stream_start |
Start a timed periodic capture (interval + duration). |
stream_status |
Snapshot of a session: frame count, time remaining, recent frames. |
stream_latest |
Read the most recent frame from disk and return it as base64. |
stream_stop |
Stop a running session early. Frames already on disk are kept. |
stream_list |
List all known sessions. |
stream_drop |
Forget a finished session (frees its in-memory ring). |
Defaults are tuned for legibility on 4K monitors:
- Single screenshots — JPEG, quality 82, longest edge 2400px.
- Streams — JPEG, quality 72, longest edge 1920px.
- When
cursorRadius>0the cursor crop is kept at native resolution (no resize) unless you overridemaxEdgeexplicitly.
Pass maxEdge: 0 to disable resizing entirely; pass any positive value
to override.
Install
git clone https://github.com/beekamai/mcp-screenshot.git
cd mcp-screenshot
npm install
npm run build
Wire it into any MCP-capable client by pointing it at node dist/index.js
over stdio. Most CLI-based clients have an mcp add subcommand:
your-mcp-client mcp add screenshot --scope user -- node /absolute/path/to/mcp-screenshot/dist/index.js
Platform notes
- Windows: uses
System.Drawingvia PowerShell. No native binaries shipped. Cursor probe and screen capture both work without admin rights. Multi-monitor selection is supported via thedisplayargument (0 = first monitor, omit = full virtual screen). - macOS / Linux: capture falls back to
screenshot-desktopif installed. The cursor probe currently only reportsx = -1, y = -1outside of Windows; contributions welcome.
Privacy
Everything is local. The server runs as a stdio process, captures are saved
under ./captures/ next to the package by default, and nothing is sent over
the network unless your MCP client transports the bytes. Delete the
captures/ directory when you're done.
License
MIT.
<a id="mcp-screenshot-ru"></a>
mcp-screenshot (RU)
Небольшой MCP-сервер, который даёт языковой модели возможность видеть рабочий стол, не съедая контекст. Он умеет делать одиночные скриншоты, вырезать область вокруг курсора и запускать сессии покадрового стриминга, которые пишут кадры на диск и возвращают пиксели только тогда, когда модель явно их запросила.
Зачем это нужно
Стандартные подходы к "смотри на экран":
- Передавать модели каждый раз PNG в полный размер — токены кончаются быстро, и диалог становится тормозным.
- Использовать отдельный vision-конвейер, к которому модель не имеет прямого доступа.
Этот сервер идёт средним путём: каждый снимок сохраняется на диск, а MCP-тулы
возвращают компактный JSON (filePath, размер файла, разрешение,
информация о курсоре). Изображение приходит в ответе только если в screenshot
передан includeBase64=true или если позже вызван stream_latest. У стримов
есть ограниченное кольцо последних кадров в памяти, так что пятиминутная
сессия с частотой 1 fps не разнесёт RAM.
Дополнительно сервер сообщает координаты курсора и заголовок окна под ним — модель может опираться на это, не угадывая ("ты сейчас смотришь на окно X в правом верхнем углу").
Тулы
| Тул | Что делает |
|---|---|
screenshot |
Одиночный снимок. Опционально — обрезка вокруг курсора, формат, качество. |
cursor_info |
Координаты курсора, активное окно и окно под курсором. |
stream_start |
Запуск таймера с периодической съёмкой (интервал + длительность). |
stream_status |
Снимок состояния сессии: число кадров, остаток времени, последние кадры. |
stream_latest |
Прочитать последний кадр с диска и вернуть base64. |
stream_stop |
Прервать сессию досрочно. Кадры на диске сохраняются. |
stream_list |
Список всех сессий. |
stream_drop |
Забыть завершённую сессию (освобождает кольцо в памяти, файлы остаются). |
Дефолты подобраны под 4K-мониторы — текст на интерфейсах остаётся читаемым:
- Одиночные снимки — JPEG, качество 82, длинная сторона 2400px.
- Стримы — JPEG, качество 72, длинная сторона 1920px.
- При
cursorRadius>0обрезка вокруг курсора сохраняется в нативном разрешении (без ресайза), если явно не заданmaxEdge.
maxEdge: 0 полностью отключает уменьшение, любое положительное значение —
переопределяет дефолт.
Установка
git clone https://github.com/beekamai/mcp-screenshot.git
cd mcp-screenshot
npm install
npm run build
Подключение к любому MCP-клиенту — указать запуск node dist/index.js
через stdio. У большинства CLI-клиентов есть подкоманда mcp add:
your-mcp-client mcp add screenshot --scope user -- node /абсолютный/путь/к/mcp-screenshot/dist/index.js
Платформы
- Windows: захват через
System.Drawing(вызов из PowerShell), без бандленных нативных бинарей. Курсорный пробник и скриншоты работают без прав администратора. Мульти-мониторный выбор — параметрdisplay(0— первый монитор, без аргумента — весь виртуальный экран). - macOS / Linux: захват — fallback на
screenshot-desktop. Курсорный пробник сейчас возвращаетx = -1, y = -1вне Windows; PR приветствуются.
Приватность
Всё локально. Сервер крутится как stdio-процесс, кадры лежат в ./captures/
рядом с пакетом, ничего не уходит в сеть, пока ваш MCP-клиент сам не передаст
байты дальше. После работы — просто удалите каталог captures/.
Лицензия
MIT.
Recommended Servers
playwright-mcp
A Model Context Protocol server that enables LLMs to interact with web pages through structured accessibility snapshots without requiring vision models or screenshots.
Audiense Insights MCP Server
Enables interaction with Audiense Insights accounts via the Model Context Protocol, facilitating the extraction and analysis of marketing insights and audience data including demographics, behavior, and influencer engagement.
Magic Component Platform (MCP)
An AI-powered tool that generates modern UI components from natural language descriptions, integrating with popular IDEs to streamline UI development workflow.
VeyraX MCP
Single MCP tool to connect all your favorite tools: Gmail, Calendar and 40 more.
Kagi MCP Server
An MCP server that integrates Kagi search capabilities with Claude AI, enabling Claude to perform real-time web searches when answering questions that require up-to-date information.
graphlit-mcp-server
The Model Context Protocol (MCP) Server enables integration between MCP clients and the Graphlit service. Ingest anything from Slack to Gmail to podcast feeds, in addition to web crawling, into a Graphlit project - and then retrieve relevant contents from the MCP client.
Neon Database
MCP server for interacting with Neon Management API and databases
Exa Search
A Model Context Protocol (MCP) server lets AI assistants like Claude use the Exa AI Search API for web searches. This setup allows AI models to get real-time web information in a safe and controlled way.
Qdrant Server
This repository is an example of how to create a MCP server for Qdrant, a vector search engine.
E2B
Using MCP to run code via e2b.