mcp-ready-data-discovery-tool

mcp-ready-data-discovery-tool

Enables local data discovery by indexing metadata from SQLite, CSV, and Markdown sources, providing hybrid keyword and TF-IDF semantic search via MCP tools (listSources, indexSource, search, getSchema) and a REST API.

Category
Visit Server

README

MCP-ready Data Discovery Tool

Локальный MVP-инструмент для поиска и обнаружения данных. Проект индексирует метаданные, схемы, примеры строк, примеры значений и Markdown-документацию из нескольких локальных источников, сохраняет каталог в SQLite и отдаёт результаты через Web UI, REST API и MCP-ready функции.

Это инструмент обнаружения данных, а не система Text-to-SQL.

Что делает проект

  • Подключает локальные источники данных: SQLite-базу, папку с CSV-файлами и Markdown-документацию.
  • Показывает доступные источники, таблицы/файлы, колонки и документы.
  • Собирает метаданные: количество строк, типы данных, примеры строк, примеры значений и время последней индексации.
  • Индексирует данные во внутренний каталог storage/catalog.db.
  • Использует SQLite FTS5 для поиска по ключевым словам.
  • Использует локальный семантический слой на основе TF-IDF и косинусного сходства. поверх Markdown-документации, описаний, metadata, примеров значений и preview.
  • Возвращает ранжированные результаты с происхождением данных: source, sourceType, table, column, path, matchedBy, keywordScore, semanticScore.
  • Возвращает фрагменты Markdown-документов, а для таблиц и колонок — примеры строк и примеры значений.
  • Предоставляет MCP-ready инструменты: listSources, indexSource, search, getSchema.

Что проект НЕ делает

  • Не является Text-to-SQL системой.
  • Не генерирует SQL из пользовательского текста.
  • Не выполняет LLM query planning.
  • Не реализует ETL/ELT-пайплайн.
  • Не реализует CDC.
  • Не является production RBAC системой.
  • Не использует внешние платные API.
  • Не отправляет данные во внешние сервисы по умолчанию.

Быстрый запуск

make install
make seed
make index
make run

После запуска откройте:

http://localhost:8000

Ручной запуск без make

python -m pip install -e ".[dev]"
python scripts/generate_seed_data.py
python scripts/index_all.py
python -m uvicorn app.main:app --reload

Тестовые данные

Команда:

make seed

создаёт воспроизводимые локальные данные:

  • data/shop.db
    • users
    • orders
    • payments
    • products
  • data/csv/events.csv
  • data/csv/support_tickets.csv
  • data/csv/marketing_campaigns.csv
  • data/docs/users.md
  • data/docs/orders.md
  • data/docs/payments.md

Генератор использует фиксированное зерно 42, поэтому данные одинаково воспроизводятся при повторных запусках.

Индексирование

Команда:

make index

индексирует все настроенные источники и записывает результат во внутреннюю SQLite-базу каталога:

storage/catalog.db

В каталоге сохраняются:

  • источники;
  • элементы каталога;
  • история запусков индексирования;
  • поисковый индекс FTS5.

Индексируются не все строки целиком, а представления, полезные для поиска данных: схемы, названия, описания, примеры строк, примеры значений и документация.

UI

Минимальный Web UI реализован через FastAPI и Jinja2-шаблоны.

  • / Главная страница со списком источников и строкой поиска.

  • /search?q=customer+email Страница с ранжированными результатами поиска.

  • /schema?sourceId=sqlite_shop&path=sqlite_shop.users Страница просмотра схемы: колонки, metadata и примеры строк.

UI остаётся тонким слоем и использует ту же бизнес-логику, что REST API и MCP-инструменты.

REST API

Примеры:

curl http://localhost:8000/api/sources
curl -X POST http://localhost:8000/api/sources/sqlite_shop/index
curl "http://localhost:8000/api/search?q=payment%20method"
curl "http://localhost:8000/api/search?q=email&sourceId=csv_folder&type=column"
curl "http://localhost:8000/api/schema?sourceId=sqlite_shop&path=sqlite_shop.users"

/api/search возвращает объекты такого формата:

{
  "type": "column",
  "score": 0.91,
  "sourceId": "sqlite_shop",
  "path": "sqlite_shop.users.email",
  "metadata": {
    "sourceId": "sqlite_shop",
    "path": "sqlite_shop.users.email",
    "sourceType": "sqlite",
    "resultType": "column",
    "matchedBy": "hybrid",
    "keywordScore": 1.34,
    "semanticScore": 0.11,
    "parentTable": "users",
    "table": "users",
    "column": "email"
  },
  "preview": ["user001@example.com", "user002@example.com"]
}

Поиск

Поиск реализован как локальный гибридный механизм:

  1. SQLite FTS5 для поиска по ключевым словам Ищет по именам источников, таблиц и колонок, тексту документации, metadata и примерам значений.

  2. Локальный семантический поиск на основе TF-IDF Использует TfidfVectorizer и Cosine Similarity по вспомогательному тексту:

    • Markdown-документации;
    • именам элементов;
    • путям;
    • описаниям;
    • metadata;
    • примерам значений;
    • фрагментам в preview.
  3. Гибридное ранжирование результатов Результаты FTS5 и TF-IDF объединяются по (sourceId, path). В metadata сохраняются:

    • keywordScore;
    • semanticScore;
    • matchedBy.

    Итоговый score примерно объединяет keywordScore и semanticScore с весами 0.65 / 0.35.

  4. Происхождение результатов и поле preview Каждый результат содержит сведения о происхождении: источник, таблицу, колонку или документ. Документы возвращают фрагмент Markdown-текста, таблицы — примеры строк, колонки — примеры значений.

Важно: под семантическим поиском здесь понимается локальный механизм на TF-IDF, а не LLM- или embedding-based поиск.

MCP-инструменты

MCP-ready слой находится в:

app/mcp_server/server.py
app/mcp_server/manifest.json

Доступные инструменты:

  • listSources()
  • indexSource({sourceId})
  • search({query, filters?})
  • getSchema({sourceId, path})

Локальная демонстрация:

make mcp-demo

Она напрямую вызывает локальные функции-инструменты и проверяет тот же контракт, который мог бы использовать AI-агент, совместимый с MCP. Реальный AI-агент для демонстрации не требуется.

Если установлен MCP Python SDK, app/mcp_server/server.py может зарегистрировать эти инструменты через FastMCP. Если SDK не установлен, локальные функции всё равно работают.

Тесты

make test

Тесты покрывают ключевые сценарии:

  • SQLite-коннектор;
  • CSV-коннектор;
  • индексирование;
  • фильтры поиска;
  • metadata для гибридного поиска и происхождения результатов;
  • фрагменты документов;
  • маршруты REST/UI;
  • MCP-инструменты;
  • получение схемы.

Оценка качества поиска

make evaluate

Оценка считает:

  • Precision@5;
  • Recall@5;
  • задержку поиска;
  • количество проиндексированных объектов;
  • результаты запросов для проверки семантического поиска;
  • распределение matchedBy.

Результаты также записываются в:

storage/evaluation_results.json

Docker Compose

docker compose up

Контейнер устанавливает зависимости, генерирует тестовые данные, индексирует источники и запускает приложение на порту 8000.

Принятые архитектурные компромиссы

  • SQLite FTS5 выбран вместо Elasticsearch, потому что MVP должен быть локальным, лёгким и воспроизводимым.
  • TF-IDF выбран вместо embedding-моделей на базе transformer, чтобы получить локальный семантический слой без внешних API и тяжёлой инфраструктуры.
  • SQLite + CSV выбраны вместо PostgreSQL/warehouse, потому что задача связана с обнаружением данных, а не с production-платформой для работы с данными.
  • Jinja2 выбран вместо React, потому что нужен минимальный рабочий UI.
  • Примеры строк и примеры значений индексируются вместо полной индексации на уровне отдельных строк, чтобы не превращать проект в ETL или индексатор для data lake.
  • MCP SDK остаётся необязательным: проект можно демонстрировать через локальные функции-инструменты.

Ограничения текущей реализации

  • Это MVP, а не enterprise-каталог данных.
  • Конфигурация источников статическая.
  • TF-IDF не понимает смысл так же глубоко, как embedding-модели на базе transformer.
  • semanticScore может не доминировать над keywordScore.
  • Для больших каталогов TF-IDF-матрицу лучше кешировать или вынести в отдельный локальный индекс.
  • RBAC, audit, multi-tenant isolation и усиление безопасности и надёжности для production-эксплуатации не реализованы.

Возможные направления дальнейшего развития

  • Добавить конфигурационный файл для источников.
  • Кешировать TF-IDF-матрицу между запросами.
  • Добавить инкрементальную индексацию по времени изменения файлов.
  • Улучшить словари синонимов и подсказок для бизнес-терминов.
  • Рассмотреть локальные embedding-модели на базе transformer и лёгкое векторное хранилище.
  • Добавить полноценную инструкцию регистрации MCP server в реальном клиенте, совместимом с MCP.

Recommended Servers

playwright-mcp

playwright-mcp

A Model Context Protocol server that enables LLMs to interact with web pages through structured accessibility snapshots without requiring vision models or screenshots.

Official
Featured
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

An AI-powered tool that generates modern UI components from natural language descriptions, integrating with popular IDEs to streamline UI development workflow.

Official
Featured
Local
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

Enables interaction with Audiense Insights accounts via the Model Context Protocol, facilitating the extraction and analysis of marketing insights and audience data including demographics, behavior, and influencer engagement.

Official
Featured
Local
TypeScript
VeyraX MCP

VeyraX MCP

Single MCP tool to connect all your favorite tools: Gmail, Calendar and 40 more.

Official
Featured
Local
graphlit-mcp-server

graphlit-mcp-server

The Model Context Protocol (MCP) Server enables integration between MCP clients and the Graphlit service. Ingest anything from Slack to Gmail to podcast feeds, in addition to web crawling, into a Graphlit project - and then retrieve relevant contents from the MCP client.

Official
Featured
TypeScript
Kagi MCP Server

Kagi MCP Server

An MCP server that integrates Kagi search capabilities with Claude AI, enabling Claude to perform real-time web searches when answering questions that require up-to-date information.

Official
Featured
Python
E2B

E2B

Using MCP to run code via e2b.

Official
Featured
Neon Database

Neon Database

MCP server for interacting with Neon Management API and databases

Official
Featured
Exa Search

Exa Search

A Model Context Protocol (MCP) server lets AI assistants like Claude use the Exa AI Search API for web searches. This setup allows AI models to get real-time web information in a safe and controlled way.

Official
Featured
Qdrant Server

Qdrant Server

This repository is an example of how to create a MCP server for Qdrant, a vector search engine.

Official
Featured