mcp-ready-data-discovery-tool
Enables local data discovery by indexing metadata from SQLite, CSV, and Markdown sources, providing hybrid keyword and TF-IDF semantic search via MCP tools (listSources, indexSource, search, getSchema) and a REST API.
README
MCP-ready Data Discovery Tool
Локальный MVP-инструмент для поиска и обнаружения данных. Проект индексирует метаданные, схемы, примеры строк, примеры значений и Markdown-документацию из нескольких локальных источников, сохраняет каталог в SQLite и отдаёт результаты через Web UI, REST API и MCP-ready функции.
Это инструмент обнаружения данных, а не система Text-to-SQL.
Что делает проект
- Подключает локальные источники данных: SQLite-базу, папку с CSV-файлами и Markdown-документацию.
- Показывает доступные источники, таблицы/файлы, колонки и документы.
- Собирает метаданные: количество строк, типы данных, примеры строк, примеры значений и время последней индексации.
- Индексирует данные во внутренний каталог
storage/catalog.db. - Использует SQLite FTS5 для поиска по ключевым словам.
- Использует локальный семантический слой на основе TF-IDF и косинусного сходства. поверх Markdown-документации, описаний,
metadata, примеров значений иpreview. - Возвращает ранжированные результаты с происхождением данных:
source,sourceType,table,column,path,matchedBy,keywordScore,semanticScore. - Возвращает фрагменты Markdown-документов, а для таблиц и колонок — примеры строк и примеры значений.
- Предоставляет MCP-ready инструменты:
listSources,indexSource,search,getSchema.
Что проект НЕ делает
- Не является Text-to-SQL системой.
- Не генерирует SQL из пользовательского текста.
- Не выполняет LLM query planning.
- Не реализует ETL/ELT-пайплайн.
- Не реализует CDC.
- Не является production RBAC системой.
- Не использует внешние платные API.
- Не отправляет данные во внешние сервисы по умолчанию.
Быстрый запуск
make install
make seed
make index
make run
После запуска откройте:
http://localhost:8000
Ручной запуск без make
python -m pip install -e ".[dev]"
python scripts/generate_seed_data.py
python scripts/index_all.py
python -m uvicorn app.main:app --reload
Тестовые данные
Команда:
make seed
создаёт воспроизводимые локальные данные:
data/shop.dbusersorderspaymentsproducts
data/csv/events.csvdata/csv/support_tickets.csvdata/csv/marketing_campaigns.csvdata/docs/users.mddata/docs/orders.mddata/docs/payments.md
Генератор использует фиксированное зерно 42, поэтому данные одинаково воспроизводятся при повторных запусках.
Индексирование
Команда:
make index
индексирует все настроенные источники и записывает результат во внутреннюю SQLite-базу каталога:
storage/catalog.db
В каталоге сохраняются:
- источники;
- элементы каталога;
- история запусков индексирования;
- поисковый индекс FTS5.
Индексируются не все строки целиком, а представления, полезные для поиска данных: схемы, названия, описания, примеры строк, примеры значений и документация.
UI
Минимальный Web UI реализован через FastAPI и Jinja2-шаблоны.
-
/Главная страница со списком источников и строкой поиска. -
/search?q=customer+emailСтраница с ранжированными результатами поиска. -
/schema?sourceId=sqlite_shop&path=sqlite_shop.usersСтраница просмотра схемы: колонки,metadataи примеры строк.
UI остаётся тонким слоем и использует ту же бизнес-логику, что REST API и MCP-инструменты.
REST API
Примеры:
curl http://localhost:8000/api/sources
curl -X POST http://localhost:8000/api/sources/sqlite_shop/index
curl "http://localhost:8000/api/search?q=payment%20method"
curl "http://localhost:8000/api/search?q=email&sourceId=csv_folder&type=column"
curl "http://localhost:8000/api/schema?sourceId=sqlite_shop&path=sqlite_shop.users"
/api/search возвращает объекты такого формата:
{
"type": "column",
"score": 0.91,
"sourceId": "sqlite_shop",
"path": "sqlite_shop.users.email",
"metadata": {
"sourceId": "sqlite_shop",
"path": "sqlite_shop.users.email",
"sourceType": "sqlite",
"resultType": "column",
"matchedBy": "hybrid",
"keywordScore": 1.34,
"semanticScore": 0.11,
"parentTable": "users",
"table": "users",
"column": "email"
},
"preview": ["user001@example.com", "user002@example.com"]
}
Поиск
Поиск реализован как локальный гибридный механизм:
-
SQLite FTS5 для поиска по ключевым словам Ищет по именам источников, таблиц и колонок, тексту документации,
metadataи примерам значений. -
Локальный семантический поиск на основе TF-IDF Использует
TfidfVectorizerи Cosine Similarity по вспомогательному тексту:- Markdown-документации;
- именам элементов;
- путям;
- описаниям;
metadata;- примерам значений;
- фрагментам в
preview.
-
Гибридное ранжирование результатов Результаты FTS5 и TF-IDF объединяются по
(sourceId, path). Вmetadataсохраняются:keywordScore;semanticScore;matchedBy.
Итоговый
scoreпримерно объединяетkeywordScoreиsemanticScoreс весами0.65 / 0.35. -
Происхождение результатов и поле
previewКаждый результат содержит сведения о происхождении: источник, таблицу, колонку или документ. Документы возвращают фрагмент Markdown-текста, таблицы — примеры строк, колонки — примеры значений.
Важно: под семантическим поиском здесь понимается локальный механизм на TF-IDF, а не LLM- или embedding-based поиск.
MCP-инструменты
MCP-ready слой находится в:
app/mcp_server/server.py
app/mcp_server/manifest.json
Доступные инструменты:
listSources()indexSource({sourceId})search({query, filters?})getSchema({sourceId, path})
Локальная демонстрация:
make mcp-demo
Она напрямую вызывает локальные функции-инструменты и проверяет тот же контракт, который мог бы использовать AI-агент, совместимый с MCP. Реальный AI-агент для демонстрации не требуется.
Если установлен MCP Python SDK, app/mcp_server/server.py может зарегистрировать эти инструменты через FastMCP. Если SDK не установлен, локальные функции всё равно работают.
Тесты
make test
Тесты покрывают ключевые сценарии:
- SQLite-коннектор;
- CSV-коннектор;
- индексирование;
- фильтры поиска;
metadataдля гибридного поиска и происхождения результатов;- фрагменты документов;
- маршруты REST/UI;
- MCP-инструменты;
- получение схемы.
Оценка качества поиска
make evaluate
Оценка считает:
- Precision@5;
- Recall@5;
- задержку поиска;
- количество проиндексированных объектов;
- результаты запросов для проверки семантического поиска;
- распределение
matchedBy.
Результаты также записываются в:
storage/evaluation_results.json
Docker Compose
docker compose up
Контейнер устанавливает зависимости, генерирует тестовые данные, индексирует источники и запускает приложение на порту 8000.
Принятые архитектурные компромиссы
- SQLite FTS5 выбран вместо Elasticsearch, потому что MVP должен быть локальным, лёгким и воспроизводимым.
- TF-IDF выбран вместо embedding-моделей на базе transformer, чтобы получить локальный семантический слой без внешних API и тяжёлой инфраструктуры.
- SQLite + CSV выбраны вместо PostgreSQL/warehouse, потому что задача связана с обнаружением данных, а не с production-платформой для работы с данными.
- Jinja2 выбран вместо React, потому что нужен минимальный рабочий UI.
- Примеры строк и примеры значений индексируются вместо полной индексации на уровне отдельных строк, чтобы не превращать проект в ETL или индексатор для data lake.
- MCP SDK остаётся необязательным: проект можно демонстрировать через локальные функции-инструменты.
Ограничения текущей реализации
- Это MVP, а не enterprise-каталог данных.
- Конфигурация источников статическая.
- TF-IDF не понимает смысл так же глубоко, как embedding-модели на базе transformer.
semanticScoreможет не доминировать надkeywordScore.- Для больших каталогов TF-IDF-матрицу лучше кешировать или вынести в отдельный локальный индекс.
- RBAC, audit, multi-tenant isolation и усиление безопасности и надёжности для production-эксплуатации не реализованы.
Возможные направления дальнейшего развития
- Добавить конфигурационный файл для источников.
- Кешировать TF-IDF-матрицу между запросами.
- Добавить инкрементальную индексацию по времени изменения файлов.
- Улучшить словари синонимов и подсказок для бизнес-терминов.
- Рассмотреть локальные embedding-модели на базе transformer и лёгкое векторное хранилище.
- Добавить полноценную инструкцию регистрации MCP server в реальном клиенте, совместимом с MCP.
Recommended Servers
playwright-mcp
A Model Context Protocol server that enables LLMs to interact with web pages through structured accessibility snapshots without requiring vision models or screenshots.
Magic Component Platform (MCP)
An AI-powered tool that generates modern UI components from natural language descriptions, integrating with popular IDEs to streamline UI development workflow.
Audiense Insights MCP Server
Enables interaction with Audiense Insights accounts via the Model Context Protocol, facilitating the extraction and analysis of marketing insights and audience data including demographics, behavior, and influencer engagement.
VeyraX MCP
Single MCP tool to connect all your favorite tools: Gmail, Calendar and 40 more.
graphlit-mcp-server
The Model Context Protocol (MCP) Server enables integration between MCP clients and the Graphlit service. Ingest anything from Slack to Gmail to podcast feeds, in addition to web crawling, into a Graphlit project - and then retrieve relevant contents from the MCP client.
Kagi MCP Server
An MCP server that integrates Kagi search capabilities with Claude AI, enabling Claude to perform real-time web searches when answering questions that require up-to-date information.
E2B
Using MCP to run code via e2b.
Neon Database
MCP server for interacting with Neon Management API and databases
Exa Search
A Model Context Protocol (MCP) server lets AI assistants like Claude use the Exa AI Search API for web searches. This setup allows AI models to get real-time web information in a safe and controlled way.
Qdrant Server
This repository is an example of how to create a MCP server for Qdrant, a vector search engine.