ZILLIONLABS · CETERIS-PARIBUS PRO® · AI SYSTEM DECLARATION

Fiche Système / System Card — v1.0

        Déclaration IA · Gouvernance · Conformité Maroc
      

Fiche Système — Ceteris-Paribus Pro®

Ce document est une déclaration statique et imprimable de l'architecture, des données traitées et des services externes appelés par la plateforme Ceteris-Paribus Pro®. Il est destiné aux régulateurs, auditeurs et responsables conformité. Il ne contient aucune valeur de configuration en direct — pour l'état live du système, consultez le Snapshot auditeur.

Document statique

Cette fiche décrit le système tel que conçu et déployé. Elle ne reflète pas l'état d'exécution en temps réel. Pour un inventaire du corpus et la configuration active, utilisez le Snapshot auditeur (/audit) ou les endpoints /api/status et /api/config.

01 / Identité

Identité du système

Informations d'identification formelles du système d'IA. Ces données constituent la base de toute déclaration de conformité auprès des autorités compétentes.

Nom du produit	Ceteris-Paribus Pro® Console
Version	1.0.0
Opérateur	ZillionLabs
Type de système	Système d'IA — outil d'aide à la décision (non-autonome)
Classification	Outil RAG (Retrieval-Augmented Generation) — usage interne, équipes conformité/juridique/architecture
Décisions autonomes	Non. Le système génère des réponses textuelles sourcées. Toute décision finale reste à l'appréciation de l'utilisateur humain.
Objet	Permettre aux équipes de conformité, juridiques et d'architecture de poser des questions grounded sur leur propre corpus documentaire, avec citation obligatoire des extraits utilisés.
Mode de déploiement	Application web hébergée dans l'environnement de l'opérateur (Replit/cloud ou on-premise). Pas de traitement côté ZillionLabs.
Stack technique	Python 3.11 · FastAPI · PostgreSQL + pgvector · OpenAI-compatible API

02 / Données traitées

Catégories de données traitées

Le système traite trois catégories de données. Aucune donnée personnelle n'est requise pour le fonctionnement du système ; des données personnelles peuvent néanmoins être présentes dans les documents téléversés par l'opérateur.

Corpus documentaire

Fichiers texte, Markdown, JSON, PDF, DOCX, images OCR déposés par l'opérateur dans le répertoire uploaded_docs/. Découpés en fragments, transformés en vecteurs d'embedding, stockés dans PostgreSQL/pgvector. Des fragments sont envoyés au fournisseur LLM externe lors de chaque requête utilisateur (seulement les 4 chunks les plus pertinents, pas le corpus entier).

Requêtes utilisateur

Questions textuelles saisies par l'utilisateur dans l'interface de la console (max. 8 000 caractères). La requête est transformée en vecteur d'embedding puis transmise avec les chunks récupérés au fournisseur LLM de génération. Les requêtes ne sont pas enregistrées en base de données.

Réponses générées

Texte produit par le modèle LLM de génération, affiché dans l'interface utilisateur. Les réponses incluent des citations obligatoires des noms de fichiers sources. Elles ne sont pas stockées en base de données. Les documents DocGen sont également des sorties — des projets nécessitant relecture humaine.

Note sur les données personnelles

Le système ne collecte ni ne requiert de données personnelles pour fonctionner. Cependant, si l'opérateur téléverse des documents contenant des données personnelles (ex. noms, contacts dans des contrats), ces données entrent dans la portée de la Loi 09-08 et de l'article 6 du Dahir IA (projet). L'opérateur est responsable de s'assurer de la licéité du traitement de ces données au titre de la Loi 09-08 et d'effectuer les déclarations nécessaires auprès de la CNDP.

03 / Services externes

Services externes appelés

Le système effectue des appels sortants vers les services tiers suivants. Chaque fiche détaille les données envoyées, les données reçues, le caractère obligatoire ou optionnel, et la base juridique applicable au regard de la Loi 09-08.

VECTEURS · EMBEDDING

Fournisseur d'embedding

Endpoint

Configurable (défaut : api.openai.com/v1/embeddings). OpenAI-compatible.

Envoyé

Fragments de texte du corpus (lors de l'ingestion) · Texte de la requête utilisateur (lors d'une question)

Reçu

Vecteurs d'embedding (flottants), stockés dans pgvector

Statut

Obligatoire

Base jur.

Intérêt légitime de l'opérateur (Loi 09-08, art. 7-4°) — traitement nécessaire à l'exécution du service.

GÉNÉRATION · LLM

Fournisseur LLM de génération

Endpoint

Configurable (ex. api.fireworks.ai, api.groq.com). OpenAI-compatible.

Envoyé

Requête utilisateur · 4 chunks du corpus récupérés par similarité cosinus · Prompt système statique (jamais le corpus entier)

Reçu

Texte de la réponse générée (flux NDJSON), affiché à l'utilisateur

Statut

Obligatoire

Base jur.

Intérêt légitime de l'opérateur (Loi 09-08, art. 7-4°) — traitement nécessaire à l'exécution du service. Seuls les 4 chunks les plus pertinents sont transmis, jamais le corpus brut.

RÉCUPÉRATION · URL

Récupération de pages web

Endpoint

Toute URL HTTP/HTTPS saisie par l'opérateur dans le widget d'ingestion

Envoyé

Requête HTTP GET vers l'URL (User-Agent standard). Aucune donnée du corpus n'est transmise.

Reçu

Contenu HTML/texte de la page, extrait par trafilatura, sauvegardé comme .md dans uploaded_docs/

Statut

Optionnel

Limites

Timeout 15s · Cap 2 Mo · HTTP/HTTPS uniquement · Content-Type HTML uniquement

Base jur.

Intérêt légitime de l'opérateur (Loi 09-08, art. 7-4°) — la récupération est déclenchée par l'opérateur et porte sur des contenus publics. Aucune donnée du corpus n'est transmise au site distant.

EXTRACTION · APPELS D'OFFRES

LLM d'extraction structurée (Crawler)

Endpoint

Configurable (CRAWLER_BASE_URL). Par défaut, utilise le même fournisseur que la génération.

Envoyé

Texte d'une page web modifiée détectée par un nœud de surveillance, pour extraction structurée d'un appel d'offres

Reçu

JSON structuré (TenderNotice) : titre, référence, montant estimé, date limite, entité émettrice

Statut

Optionnel

Base jur.

Intérêt légitime de l'opérateur (Loi 09-08, art. 7-4°) — traitement de contenus publics aux fins de veille réglementaire. L'opérateur est responsable de s'assurer qu'aucune donnée personnelle n'est présente dans les pages traitées.

04 / Minimisation

Minimisation des données

Liste explicite de ce que le système n'envoie pas et ne collecte pas, pour conformité avec le principe de minimisation des données (Loi 09-08, art. 3 ; Dahir IA draft, art. 9).

✓

Les documents bruts ne sont jamais envoyés au modèle LLM de génération. Seuls les 4 chunks les plus pertinents (récupérés par similarité cosinus) sont transmis dans le prompt.

✓

Les clés API ne sont jamais journalisées, jamais affichées dans les logs, jamais renvoyées dans les réponses API, jamais transmises au fournisseur LLM.

✓

Aucune télémétrie n'est envoyée à ZillionLabs. ZillionLabs ne dispose d'aucun accès aux données de l'opérateur, au corpus, aux requêtes ou aux réponses générées.

✓

Les requêtes utilisateur ne sont pas stockées en base de données dans la version actuelle. Seuls les chunks (fragments de documents) et leurs vecteurs d'embedding sont persistés.

✓

Lors de la récupération de pages web (URL ingestion), aucune donnée du corpus existant n'est transmise au serveur distant. Seule la requête HTTP GET est émise.

✓

Les vecteurs d'embedding stockés dans pgvector sont des représentations numériques denses. Il n'est pas possible de reconstituer le texte source à partir d'un vecteur d'embedding seul.

✓

Le fournisseur d'embedding et le fournisseur LLM sont entièrement configurables par l'opérateur. Il est possible d'utiliser des endpoints on-premise pour éviter toute transmission vers des tiers.

05 / Limites

Limites et avertissements

Le système présente des limites inhérentes à son architecture RAG. Ces limites doivent être portées à la connaissance des utilisateurs finaux et des auditeurs.

Corpus fermé — pas de connaissance externe

Le système ne peut répondre qu'à partir des documents ingérés dans son corpus. Si la réponse n'est pas dans le corpus, le système répond : « I cannot answer this from the provided documents. » et liste les fichiers consultés. Il n'invente pas de réponses à partir de connaissances générales.

Documents générés — projets nécessitant relecture humaine

Les documents générés par le module DocGen sont des projets automatiques fondés sur le corpus et les paramètres fournis. Ils ne constituent pas des avis juridiques, des actes authentiques ou des documents opposables. Ils doivent être relus, validés et signés par un professionnel qualifié avant tout usage officiel.

Récupération par similarité cosinus — contextes manqués possibles

La récupération des chunks les plus pertinents est fondée sur la similarité vectorielle cosinus. Des passages pertinents peuvent être manqués si leur formulation sémantique diffère de celle de la requête. Le reranker optionnel améliore la précision mais ne garantit pas l'exhaustivité.

Hallucination résiduelle du modèle LLM

Malgré les instructions strictes du prompt système qui interdisent l'usage de connaissances externes et exigent des citations, les modèles LLM peuvent parfois produire des informations inexactes. L'auditeur doit vérifier toute affirmation critique directement dans les sources citées.

06 / Références réglementaires

Références réglementaires marocaines

Instruments normatifs pris en compte pour la conception et la déclaration de conformité de la plateforme.

LOI PRINCIPALE

Loi 09-08

Loi relative à la protection des personnes physiques à l'égard du traitement des données à caractère personnel. Régit la licéité du traitement, les droits des personnes concernées, et les obligations déclaratives auprès de la CNDP.

Articles pertinents : 3 (minimisation), 7 (licéité), 10 (information), 23 (déclaration CNDP)

PROJET DE LOI IA

Dahir IA (projet)

Projet de loi relatif à l'intelligence artificielle au Maroc. Introduit des obligations de transparence, d'auditabilité, de surveillance humaine et de documentation pour les systèmes d'IA. La plateforme est classée comme outil d'aide à la décision non-autonome (risque faible).

Articles pertinents : 6 (données personnelles), 9 (minimisation), 12 (transparence), 15 (surveillance humaine)

CYBERSÉCURITÉ

DGSSI — Directives cybersécurité

Directives de la DGSSI. Applicables pour la sécurité des échanges avec les API externes, la gestion des secrets d'API et la protection des données en transit.

Pertinent pour : chiffrement en transit (HTTPS), gestion des clés API, journalisation des accès

RÉFÉRENCE INTERNATIONALE

EU AI Act (référence)

Règlement européen sur l'IA (Règlement (UE) 2024/1689), pris comme référence de bonne pratique pour la classification des risques et les obligations documentaires. Non directement applicable au Maroc mais aligné sur les pratiques internationales.

SECTEUR FINANCIER

CFC / AMMC

Pour les opérateurs du secteur financier marocain (CFC, AMMC). Si la plateforme est utilisée pour traiter des documents réglementaires financiers, des obligations sectorielles s'ajoutent aux exigences générales.

07 / Version

Version et date de la fiche

Version de la fiche

v1.0

Date d'émission

2026-05-23

Version du système

Ceteris-Paribus Pro® Console 1.0.0

Opérateur

ZillionLabs

Prochaine révision

À chaque mise à jour majeure du système ou changement de fournisseur externe

URL canonique

/system-card

Cette fiche est mise à disposition à titre informatif. Elle ne constitue pas un avis juridique. ZillionLabs déconseille son utilisation comme seul document de conformité sans revue par un conseil juridique qualifié.