LoOper Overwatch

LoOperOverWatch

LoOperOverWatch es una suite completa de automatización de escritorio y razonamiento de IA que combina el generador y grabador de flujo de trabajo visual de LoOper con el servidor de razonamiento ComoRAG impulsado por Ollama y la GUI de OverWatch, además de componentes de visión artificial opcionales.

Editor de flujo de trabajo visual basado en nodos para diseñar automatizaciones complejas

Grabador de acciones con capturas de pantalla y agrupación inteligente
Reproductor con coincidencia de plantillas avanzada y comportamiento similar al humano
Servidor API de Ollama con razonamiento ComoRAG y GUI PyQt5
Integración de visión YOLOv8 ONNX opcional

red and blue statue under blue sky during daytime

Componentes

LoOper: plataforma de automatización de escritorio con NGUI, grabadora y reproductor ( LoOper/)
OverWatch: FastAPI + ComoRAG + servidor Ollama y GUI PyQt5 ( OverWatch/)
Visión artificial: integración opcional de YOLOv8 ONNX ( yolov8-Computervision/)

Características LoOper

Diseñador de flujo de trabajo visual (NGUI)

Flujos de trabajo basados en nodos (secuencia, acción, condicional, nodos LLM).
Vista de gráfico: zoom, panorámica, diseño automático, selección múltiple, gestión de conexión.
Menús contextuales, barra de herramientas y tema oscuro con constantes de interfaz de usuario personalizables.
Diálogos de configuración para propiedades de nodo, alternativas, condiciones avanzadas y configuraciones LLM.
Operaciones de archivo: cadenas nuevas/abrir/guardar; controles de ejecución; gestión de vistas.

Grabadora — Sistema de captura de acción

Element Recorder organiza el mouse, el teclado, el desplazamiento y las capturas de pantalla.
Administrador de secuencias con metadatos, serialización JSON y ciclo de vida de la sesión.
Administrador de capturas de pantalla: captura automática de región por clic, directorios organizados.
Scroll Manager: detección de ráfagas, seguimiento de dirección, análisis de tiempos.
Controlador de teclado: seguimiento de modificadores, combos especiales (Ctrl+C/V/X/A), almacenamiento en búfer de texto.
Controlador de ratón: detección de clics y arrastres, umbrales, coordenadas precisas.
Agrupación de acciones inteligentes para ráfagas de desplazamiento y secuencias de texto escrito.
Retroalimentación en tiempo real con mensajes de estado y recuentos de acciones.

Reproductor — Motor de automatización inteligente

Bot base con movimiento similar al humano, retrasos inteligentes y recuperación de errores robusta.
Reproductor de secuencias para la ejecución de secuencias individuales desde JSON.
Reproductor multisecuencia para encadenamiento, bucles, ramificaciones condicionales y alternativas.
Coincidencia de plantillas de visión artificial: múltiples escalas, restricciones regionales, umbrales de confianza.
Controladores de acciones: clic, teclado, desplazamiento, arrastrar, portapapeles.
Alternativas avanzadas: reintentos basados en posición, región, escala y tiempo.

Integración de IA

Nodos LLM para llamar a modelos locales de Ollama para tomar decisiones y generar texto.
Modelos con capacidad de visión para analizar capturas de pantalla e impulsar la ramificación.
Selección de modelo configurable, URL de API, indicaciones y variables de salida.

Formatos y registro

Secuencia JSON con metadatos y acciones detalladas
Configuración de cadena JSON para flujos de trabajo multisecuencia
Gráfico de nodos JSON para flujos de trabajo visuales
Registro completo ( graphui_debug.log, automation.log, y otros)

Características OverWatch

a black and white photo of a large monument

API y razonamiento

Servidor FastAPI con puntos finales de estado, listado de modelos, chat, generación, razonamiento ComoRAG y administración de memoria
Motor de razonamiento ComoRAG con espacio de trabajo de memoria dinámica, razonamiento multiciclo, puntuación de confianza y consolidación.

Interfaz gráfica de usuario

GUI de PyQt5 para gestión de modelos, razonamiento interactivo, visor de memoria, registros y configuraciones.

Integración de modelos y sistemas

Modelos locales de Ollama con compatibilidad con extracción automática
Configuración de vLLM opcional
Compatibilidad con Tailscale para acceso remoto seguro a través de LAN
Configuración JSON flexible con anulaciones de entorno

Características — Visión artificial (opcional)

Modelo YOLOv8 ONNX para detección de objetos (Computer_Vision_1.5.3.onnx)
Scripts de utilidad para visión basada en modelos (yolov8-Computervision/model_vision.py)
Descripciones de etiquetas y resultados de visualización para validación
Complemento a la coincidencia de plantillas basada en capturas de pantalla de LoOper

Requisitos previos

Windows (soporte principal)

Linux Debian, Ubuntu, otros.

Python 3.8 o superior (compatible con 3.12)

Recomendado: 8 GB o más de RAM (16 GB o más para modelos más grandes)

Opcional: GPU NVIDIA con CUDA para inferencia LLM acelerada