Data Discovery Tool
Enables AI agents to index and search across SQLite databases and CSV files to discover table schemas and column metadata. It provides a unified MCP API for data source management and structural exploration through natural language.
README
Data Discovery Tool (MCP)
Инструмент для поиска данных в разных источниках (SQLite, CSV) через MCP API.
Возможности
- Подключение к SQLite базам данных и CSV файлам
- Индексация структуры таблиц и колонок
- Поиск по названиям таблиц и колонок
- MCP API для AI-агентов
- CLI интерфейс с сохранением состояния
- Веб-интерфейс на Flask
Установка
# Клонировать репозиторий
git clone https://github.com/yourusername/data-discovery-tool
cd data-discovery-tool
# Создать виртуальное окружение
python -m venv venv
# Windows:
venv\Scripts\activate
# Mac/Linux:
source venv/bin/activate
# Установить зависимости
pip install -r requirements.txt
pip install -e .
Использование
Создание тестовых данных
python create_test_data.py
Работа через командную строку
# Добавить SQLite базу данных
python ui/cli.py add-sqlite mydb data/sample.db
# Добавить папку с CSV файлами
python ui/cli.py add-csv mycsv data/
# Проиндексировать конкретный источник
python ui/cli.py index mydb
python ui/cli.py index mycsv
# Или все сразу (индексируем по очереди)
python ui/cli.py index mydb
python ui/cli.py index mycsv
# Поиск по ключевым словам
python ui/cli.py search user
python ui/cli.py search email
python ui/cli.py search product
python ui/cli.py search москва
# Список всех источников
python ui/cli.py sources
# Статистика системы
python ui/cli.py stats
# Схема конкретной таблицы
python ui/cli.py schema mydb users
python ui/cli.py schema mycsv employees.csv
# Подсказки для поиска
python ui/cli.py suggest user
Работа через веб-интерфейс
python ui/web.py
После запуска можно открыть браузер и перейти по адресу: http://localhost:5000
Возможности веб-интерфейса:
Поиск:
- После введения ключевого слова и можно увидеть все совпадения
- Подсветка результатов
- Быстрый просмотр схемы таблиц
- Количество найденных строк
Источники данных
- Реализовано управление источниками через интерфейс
- Просмотр всех добавленных источников
- Статус индексации (индексирован, ожидает)
- Кнопка для индексации
- Информация о количестве таблиц
Схемы таблиц
- Можно увидеть детальную информацию о структуре
- Список всех колонок
- Примеры значений
Автор
SofiaPurtova
Recommended Servers
playwright-mcp
A Model Context Protocol server that enables LLMs to interact with web pages through structured accessibility snapshots without requiring vision models or screenshots.
Magic Component Platform (MCP)
An AI-powered tool that generates modern UI components from natural language descriptions, integrating with popular IDEs to streamline UI development workflow.
Audiense Insights MCP Server
Enables interaction with Audiense Insights accounts via the Model Context Protocol, facilitating the extraction and analysis of marketing insights and audience data including demographics, behavior, and influencer engagement.
VeyraX MCP
Single MCP tool to connect all your favorite tools: Gmail, Calendar and 40 more.
graphlit-mcp-server
The Model Context Protocol (MCP) Server enables integration between MCP clients and the Graphlit service. Ingest anything from Slack to Gmail to podcast feeds, in addition to web crawling, into a Graphlit project - and then retrieve relevant contents from the MCP client.
Kagi MCP Server
An MCP server that integrates Kagi search capabilities with Claude AI, enabling Claude to perform real-time web searches when answering questions that require up-to-date information.
E2B
Using MCP to run code via e2b.
Neon Database
MCP server for interacting with Neon Management API and databases
Exa Search
A Model Context Protocol (MCP) server lets AI assistants like Claude use the Exa AI Search API for web searches. This setup allows AI models to get real-time web information in a safe and controlled way.
Qdrant Server
This repository is an example of how to create a MCP server for Qdrant, a vector search engine.