Unstract — это мощная платформа для обработки документов нового поколения (IDP 2.0), которая использует крупные языковые модели (LLM) для автоматизации извлечения структурированных данных из неструктурированных документов. Благодаря no-code подходу, Unstract позволяет создавать API и ETL-пайплайны, упрощая интеграцию и масштабирование бизнес-процессов. В этой статье мы рассмотрим основные возможности платформы, её экосистему и пошаговое руководство по началу работы.
Prompt Studio: Интеллектуальная разработка промптов
Prompt Studio — это ключевой инструмент Unstract, разработанный для эффективного создания и тестирования промптов (запросов) для извлечения данных из документов. Его интерфейс позволяет быстро разрабатывать и итерировать промпты, обеспечивая высокую точность извлечения данных.
Основные функции:
- Примеры документов и их варианты: Работа с разнообразными документами для тестирования промптов.
- Сравнение моделей LLM: Возможность тестирования промптов на различных языковых моделях.
- Создание схемы данных: Разработка структуры извлекаемых данных непосредственно в интерфейсе.
- Анализ затрат: Оценка стоимости обработки документов с использованием различных моделей.
- Метрики эффективности: Инструменты для измерения точности и эффективности промптов.
Prompt Studio делает процесс извлечения данных не только эффективным, но и увлекательным, что особенно важно для задач, требующих высокой точности и скорости.
Workflow Studio: Автоматизация бизнес-процессов в три шага
Unstract позволяет автоматизировать сложные бизнес-процессы, включая обработку документов с участием человека в цикле (human-in-the-loop). Вот как это работает:
- Шаг 1: В Prompt Studio добавьте документы, разработайте промпты и извлеките необходимые поля.
- Шаг 2: Настройте проект Prompt Studio для развертывания в виде API или настройте источники данных и цели для ETL-пайплайнов.
- Шаг 3: Разверните рабочие процессы как API для обработки неструктурированных данных или ETL-пайплайны.
Этот подход выходит за рамки традиционного RPA (роботизированной автоматизации процессов), предоставляя более гибкие и мощные инструменты для работы с документами.
Начало работы с Unstract
Системные требования:
- Оперативная память: 8 ГБ (рекомендуется).
- Операционная система: Linux или MacOS (Intel или M-серия).
- Программное обеспечение:
- Docker (установка описана в docs.docker.com).
- Docker Compose (если требуется отдельная установка).
- Git.
Пошаговая инструкция:
- Склонируйте репозиторий Unstract с GitHub или загрузите релиз.
- Запустите платформу с помощью команды:
./run-platform.sh
- Откройте браузер и перейдите по адресу:
http://frontend.unstract.localhost
- Войдите в систему с учетными данными по умолчанию:
- Логин:
unstract
- Пароль:
unstract
- Логин:
Для изменения учетных данных по умолчанию и получения дополнительной информации обратитесь к руководству пользователя.
Быстрый старт с Quick Start Guide
Unstract предоставляет подробную документацию, которая поможет вам быстро освоить платформу. В Quick Start Guide вы познакомитесь с основными концепциями, научитесь подключать различные системы, такие как LLM, векторные базы данных, модели эмбеддингов и текстовые экстракторы, а также выполните практическое задание по созданию промпта и запуску API для структурирования данных из кредитных карт.
Поддержка экосистемы
Unstract поддерживает широкий спектр инструментов и сервисов, что делает его универсальным решением для различных задач.
Поставщики LLM:
- OpenAI, Google VertexAI, Azure OpenAI, Anthropic, Ollama, Bedrock, Google PaLM, Anyscale, Mistral AI.
Векторные базы данных:
- Qdrant, Weaviate, Pinecone, PostgreSQL, Milvus.
Модели эмбеддингов:
- OpenAI, Azure OpenAI, Google PaLM, Ollama.
Текстовые экстракторы:
- Unstract LLMWhisperer, Unstructured.io, LlamaIndex Parse.
Источники и цели ETL:
- AWS S3, MinIO, Google Cloud Storage, Azure Cloud Storage, Google Drive, Dropbox, Snowflake, Amazon Redshift, BigQuery, PostgreSQL, MySQL и другие.
Развертывание с Docker
Unstract может быть легко развернут с помощью Docker и Docker Compose. Если вам нужно ознакомиться с процессом сборки и развертывания образов Docker, обратитесь к руководству. Для развертывания в Docker Desktop используйте инструкции из Amplication Docs.
Unstract — это современная платформа, которая меняет подход к обработке документов, используя мощь крупных языковых моделей и no-code инструментов. Она подходит для автоматизации сложных бизнес-процессов, требующих высокой точности и гибкости. Благодаря широкой поддержке экосистемы и интуитивному интерфейсу, Unstract становится идеальным решением для компаний, стремящихся оптимизировать свои операции и ускорить обработку данных. Для более глубокого изучения возможностей Unstract, начните с Quick Start Guide и исследуйте документацию платформы.