Tutti i progetti
Orchestrazione LLM · piattaforma multi-tenant

AI Gateway

Ruolo: Architetto e sviluppatore principalePeriodo: 2024 — oggi

Il punto di ingresso unico per tutto l’AI in azienda: routing multi-provider (modello on-prem + Anthropic/OpenAI), RAG, memoria, agenti, embedding, audio.

L’AI Gateway è il livello di orchestrazione su cui poggiano tutti i prodotti AI dell’azienda. Espone un’unica API multi-tenant e instrada ogni richiesta verso il backend più adatto — un modello on-prem o un provider cloud — gestendo costi, latenza e privacy del dato in modo trasparente per i consumatori.

Funzionalità

  • Punto di accesso unico e governato per ogni funzionalità AI: chat, messaggi, RAG, memoria, agenti, embedding, audio.
  • Multi-tenant: ogni prodotto ha la propria chiave, le proprie quote e l’isolamento dei dati.
  • Sceglie il backend in base a costo, latenza e sensibilità del dato (on-prem per i dati riservati, cloud per i task generici).
  • Ingestione documentale (PDF, DOCX, XLSX, HTML) per costruire basi di conoscenza interrogabili con citazioni.

Aspetti tecnici

  • Python 3.12 + FastAPI con API OpenAI-compatible (`/chat`, `/embeddings`) e compatibile Anthropic (`/messages`); risposte in streaming SSE.
  • Router per dominio (chat, agents, rag, memory, audio, models, webhooks) e servizi dedicati: client Anthropic, client Ollama, runner di agenti, pipeline RAG, narratore degli step.
  • RAG: chunking, embedding bge-m3 (1024d), retrieval ibrido su Qdrant; cache delle chiavi per tenant su Valkey con fallback fra provider.
  • Sincronizzazione incrementale DB → vettori (sync registry/state) e metriche Prometheus per costo e latenza per tenant.

Stack tecnologico

Python 3.12FastAPIhttpxQdrantValkeyPostgreSQLPrometheusAnthropic / OpenAI / Ollama

Competenze chiave

Orchestrazione LLMPrompt engineeringRAGTrade-off costo/latenza

Collegamenti

I link contrassegnati come interno puntano a servizi e repository sulla rete privata di Elite Software House (accesso via SSO / VPN aziendale). Sono inclusi come riferimento tecnico; posso mostrarli in diretta durante un colloquio.