Guide pratique · Édition auditeur Maroc

Comment utiliser Ceteris-Paribus Pro® DocGen

Ce guide s'adresse aux auditeurs et responsables conformité qui utilisent le DocGen pour générer des documents juridiques marocains à partir d'un corpus documentaire existant. Il couvre six tâches pratiques, de la configuration initiale à l'interprétation des résultats.

Avant de commencer
Vérifiez que le voyant de statut dans l'en-tête du DocGen est vert (« Corpus prêt »). Si le voyant est orange, des clés API sont manquantes — configurez-les via le bouton ⚙ de la console principale.

01 / Corpus

Charger votre corpus documentaire

Le corpus est l'ensemble des documents sur lesquels le système base toutes ses réponses et tous les documents générés. Aucun document = aucune génération grounded. Commencez ici.

Flux de chargement du corpus

Vos documents Console Ingestion GW Tumart Vector v3.5 DocGen Génération Données locales · Jamais transmises à des tiers hors appels LLM configurés
1
Accéder à l'onglet Corpus de la console
Ouvrez la console principale (/) et cliquez sur l'onglet « Corpus » dans le panneau latéral gauche. Vous y verrez la liste des documents déjà ingérés et le nombre de vecteurs dans Tumart Vector v3.5.
2
Déposer vos fichiers
Dans le widget « Sovereign Ingestion Gateway », déposez vos fichiers (.txt, .md, .json, .pdf, .docx). Vous pouvez déposer plusieurs fichiers simultanément.
⚠ Formats acceptés : .txt · .md · .markdown · .json · .pdf · .docx · .doc · .jpg/.png/.tiff (vision OCR)
3
Cliquer « Ingest to Pro® »
Cliquez sur le bouton « Ingest to Pro® ». Le système découpe, embed et stocke chaque document dans Tumart Vector v3.5. Une barre de progression indique l'avancement.
✓ Un toast vert « N chunks ingérés » confirme le succès. Le compteur de vecteurs se met à jour.
4
Vérifier le statut du corpus
Consultez GET /api/status pour un inventaire complet : nom de fichier, nombre de chunks, horodatage d'ingestion. Le DocGen utilise ce corpus pour toutes ses générations.

02 / Ingestion

Ingérer des PDF et des URL

Le Sovereign Ingestion Gateway prend en charge l'ingestion de fichiers PDF et de pages web. Ces deux méthodes permettent d'enrichir votre corpus sans téléchargement manuel.

MÉTHODE A
Upload de PDF
Glissez-déposez votre fichier .pdf dans le widget Ingestion. Le système applique automatiquement la pipeline vision (OCR page par page) pour les PDF non-textuels.
MÉTHODE B
Ingestion par URL
Collez une ou plusieurs URLs dans le widget « Add from URL ». Activez « 1 level deep » pour suivre les liens du même domaine (jusqu'à 20 sous-pages).
1
PDF : glisser-déposer dans l'Ingestion Gateway
Dans la console, sélectionnez votre fichier .pdf et cliquez « Ingest to Pro® ». La pipeline détecte automatiquement le type (textuel ou OCR vision).
⚠ Les PDF scannés nécessitent que VISION_MODEL et VISION_BASE_URL soient configurés.
2
URL : coller et ingérer
Collez vos URLs, cochez éventuellement « 1 level deep », puis cliquez « Fetch URLs ». Chaque page est ingérée comme fichier .md.
⚠ Limites : timeout 15s · max 2 MB par page · max 20 sous-pages · http/https uniquement.
3
Vérifier l'ingestion
Le panneau affiche le nouveau fichier avec son nombre de chunks. La réingestion d'un fichier existant efface et remplace ses chunks.
✓ Le statut « embed_method: sync » ou « batch » confirme le chemin d'embedding utilisé.

03 / Génération

Générer un document de conformité

Le DocGen génère des documents juridiques marocains structurés à partir de votre corpus. La génération se fait en mode formulaire ou en mode question libre.

Flux de génération d'un document

Sélection du doc type Formulaire ou question Tumart retrieval top-4 CP Pro® NDJSON stream Doc DOCX/PDF Retrieval cosinus · Reranking · Prompt RAG ancré sur le corpus
1
Ouvrir le DocGen (/docgen/)
Naviguez vers /docgen/ via le lien dans la console principale. Le panneau gauche affiche le catalogue par phase réglementaire.
2
Sélectionner le type de document
Cliquez sur le type de document souhaité. Le badge MODE indique le mode (FORM ou CHAT).
3
Remplir le formulaire ou saisir la requête
Mode FORM : remplissez les champs obligatoires (*). Mode CHAT : décrivez en langage naturel le document souhaité avec contexte et parties concernées.
⚠ Plus les champs sont précis, plus le document généré est ancré dans votre corpus.
4
Lancer la génération
Cliquez « Générer le document ». Le modèle génère en streaming, ancré sur les 4 extraits les plus pertinents du corpus.
✓ Le texte s'affiche progressivement. Les sources utilisées apparaissent dans le panneau droit.

04 / Citations

Interpréter les citations et les scores de confiance

Chaque réponse est ancrable sur des sources précises. Les citations et scores permettent de vérifier chaque affirmation du document généré.

1
Lire le panneau Sources
Le panneau droit affiche les 4 chunks utilisés : nom du fichier source, extrait, score cosinus (plus proche de 0 = plus pertinent) ou score de rerankage.
2
Comprendre les citations dans le texte
Le modèle cite les sources sous forme [filename.md] pour chaque affirmation. Toute affirmation sans citation doit être traitée avec prudence.
⚠ Vérifiez toujours les citations contre les documents sources originaux avant de signer ou transmettre un document généré.
3
Évaluer le score de pertinence
Score cosinus entre 0 et 2. Score < 0,4 : très forte pertinence. Score > 0,9 : correspondance faible — le document peut manquer de fondement.
4
Auditer via l'API de statut
GET /api/status retourne l'inventaire complet du corpus (filename, chunk_count, ingested_at, source_url) — preuve que les documents attendus ont bien été utilisés.

05 / Export

Exporter et partager les documents générés

Le DocGen exporte les documents générés en DOCX ou PDF directement depuis l'interface.

1
Générer le document complet
Attendez la fin du streaming. Relisez le document avant d'exporter — vous pourrez le modifier dans Word après export DOCX.
2
Cliquer « Exporter »
Cliquez « Exporter DOCX » ou « Exporter PDF ». Le fichier est téléchargé immédiatement avec un nom dérivé du type de document.
✓ DOCX inclut la mise en forme. PDF utilise la mise en page A4 avec en-tête.
3
Réviser avant signature
Tout document généré doit être révisé par un professionnel avant signature. Vérifiez références légales, dates, noms des parties, et cohérence avec les politiques internes.
⚠ Le document est un draft. Sa valeur juridique dépend de la révision et de la signature d'un professionnel habilité.
4
Partager via canal sécurisé
Transmettez le document via les canaux sécurisés de l'organisation. Évitez les services cloud non approuvés pour les documents confidentiels.

06 / Hors corpus

Que faire quand le système dit « Pas dans le corpus »

Le moteur est configuré pour déclarer explicitement quand il ne peut pas répondre à partir du corpus. Ce comportement est une fonctionnalité — il protège contre les hallucinations.

Réponse type du système
« Je ne peux pas répondre à cette question à partir des documents fournis. Fichiers consultés : [liste]. Veuillez ingérer les documents pertinents pour obtenir une réponse fondée. »
1
Vérifier le corpus existant
Consultez la liste des documents ingérés. Vérifiez que le document attendu a bien été ingéré avec un nombre de chunks non nul.
2
Ingérer le document manquant
Ingérez le fichier ou l'URL manquant. Pour les textes réglementaires marocains : BO (Bulletin Officiel), portail CNDP, site SGG.ma.
3
Reformuler la question
Si le document est ingéré mais l'info n'est pas trouvée, reformulez avec des termes plus proches du texte source (termes juridiques exacts, numéros d'articles).
4
Vérifier la qualité de l'ingestion
Vérifiez : PDF scanné ? (VISION_MODEL requis) · Langue du doc vs modèle d'embedding · Contenu en tableaux/images (traitement limité).
⚠ Si aucune solution ne fonctionne, le document ne contient peut-être pas l'information. Consultez les sources primaires directement.
5
Ne jamais accepter une réponse non sourcée
Une réponse sans citation [filename] doit être traitée avec la même prudence qu'une réponse « pas dans le corpus ».
À propos de ce guide
Édition
v1.0 · Mai/May 2026
Public cible
Auditeurs · DPO · Responsables conformité
Auteur
ZillionLabs · Ceteris-Paribus Pro®
Classification
Usage interne — non confidentiel