Ir al contenido

LoOperOverWatch 


LoOperOverWatch es una suite completa de automatización de escritorio y razonamiento de IA que combina el generador y grabador de flujo de trabajo visual de LoOper con el servidor de razonamiento ComoRAG impulsado por Ollama y la GUI de OverWatch, además de componentes de visión artificial opcionales.

Editor de flujo de trabajo visual basado en nodos para diseñar automatizaciones complejas

  • Grabador de acciones con capturas de pantalla y agrupación inteligente
  • Reproductor con coincidencia de plantillas avanzada y comportamiento similar al humano
  • Servidor API de Ollama con razonamiento ComoRAG y GUI PyQt5
  • Integración de visión YOLOv8 ONNX opcional 
red and blue statue under blue sky during daytime

Componentes

  • LoOper: plataforma de automatización de escritorio con NGUI, grabadora y reproductor ( LoOper/)
  • OverWatch: FastAPI + ComoRAG + servidor Ollama y GUI PyQt5 ( OverWatch/)
  • Visión artificial: integración opcional de YOLOv8 ONNX ( yolov8-Computervision/)

Características LoOper

Diseñador de flujo de trabajo visual (NGUI)

  • Flujos de trabajo basados ​​en nodos (secuencia, acción, condicional, nodos LLM).
  • Vista de gráfico: zoom, panorámica, diseño automático, selección múltiple, gestión de conexión.
  • Menús contextuales, barra de herramientas y tema oscuro con constantes de interfaz de usuario personalizables.
  • Diálogos de configuración para propiedades de nodo, alternativas, condiciones avanzadas y configuraciones LLM.
  • Operaciones de archivo: cadenas nuevas/abrir/guardar; controles de ejecución; gestión de vistas.


Grabadora — Sistema de captura de acción

  • Element Recorder organiza el mouse, el teclado, el desplazamiento y las capturas de pantalla.
  • Administrador de secuencias con metadatos, serialización JSON y ciclo de vida de la sesión.
  • Administrador de capturas de pantalla: captura automática de región por clic, directorios organizados.
  • Scroll Manager: detección de ráfagas, seguimiento de dirección, análisis de tiempos.
  • Controlador de teclado: seguimiento de modificadores, combos especiales (Ctrl+C/V/X/A), almacenamiento en búfer de texto.
  • Controlador de ratón: detección de clics y arrastres, umbrales, coordenadas precisas.
  • Agrupación de acciones inteligentes para ráfagas de desplazamiento y secuencias de texto escrito.
  • Retroalimentación en tiempo real con mensajes de estado y recuentos de acciones.


Reproductor — Motor de automatización inteligente

  • Bot base con movimiento similar al humano, retrasos inteligentes y recuperación de errores robusta.
  • Reproductor de secuencias para la ejecución de secuencias individuales desde JSON.
  • Reproductor multisecuencia para encadenamiento, bucles, ramificaciones condicionales y alternativas.
  • Coincidencia de plantillas de visión artificial: múltiples escalas, restricciones regionales, umbrales de confianza.
  • Controladores de acciones: clic, teclado, desplazamiento, arrastrar, portapapeles.
  • Alternativas avanzadas: reintentos basados ​​en posición, región, escala y tiempo.


Integración de IA

  • Nodos LLM para llamar a modelos locales de Ollama para tomar decisiones y generar texto.
  • Modelos con capacidad de visión para analizar capturas de pantalla e impulsar la ramificación.
  • Selección de modelo configurable, URL de API, indicaciones y variables de salida.

Formatos y registro

  • Secuencia JSON con metadatos y acciones detalladas
  • Configuración de cadena JSON para flujos de trabajo multisecuencia
  • Gráfico de nodos JSON para flujos de trabajo visuales
  • Registro completo ( graphui_debug.log, automation.log, y otros)

Características OverWatch

a black and white photo of a large monument

API y razonamiento

  • Servidor FastAPI con puntos finales de estado, listado de modelos, chat, generación, razonamiento ComoRAG y administración de memoria
  • Motor de razonamiento ComoRAG con espacio de trabajo de memoria dinámica, razonamiento multiciclo, puntuación de confianza y consolidación.


Interfaz gráfica de usuario

  • GUI de PyQt5 para gestión de modelos, razonamiento interactivo, visor de memoria, registros y configuraciones.


Integración de modelos y sistemas

  • Modelos locales de Ollama con compatibilidad con extracción automática
  • Configuración de vLLM opcional
  • Compatibilidad con Tailscale para acceso remoto seguro a través de LAN
  • Configuración JSON flexible con anulaciones de entorno


Características — Visión artificial (opcional)

  • Modelo YOLOv8 ONNX para detección de objetos (Computer_Vision_1.5.3.onnx)
  • Scripts de utilidad para visión basada en modelos (yolov8-Computervision/model_vision.py)
  • Descripciones de etiquetas y resultados de visualización para validación
  • Complemento a la coincidencia de plantillas basada en capturas de pantalla de LoOper


Requisitos previos

Windows (soporte principal)

Linux Debian, Ubuntu, otros.

Python 3.8 o superior (compatible con 3.12)

Recomendado: 8 GB o más de RAM (16 GB o más para modelos más grandes)

Opcional: GPU NVIDIA con CUDA para inferencia LLM acelerada