Do PDF ao dataset pesquisável: pipeline de IA para documentos públicos

import fitz
def extract_text(pdf_path):
    doc = fitz.open(pdf_path)
    pages = [p.get_text("text") for p in doc]
    return "\n".join(pages)

ocrmypdf --output-type pdfa input.pdf output_ocr.pdf

import spacy
nlp = spacy.load("pt_core_news_sm")

def redact(text):
    doc = nlp(text)
    out = text
    for ent in reversed(doc.ents):
        if ent.label_ in {"PER","LOC","ORG","MISC","DATE"}:
            out = out[:ent.start_char] + "[REDACTED]" + out[ent.end_char:]
    return out

from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

model = SentenceTransformer("all-MiniLM-L6-v2")
chunks = ["texto 1", "texto 2"]
embs = model.encode(chunks, show_progress_bar=True)

d = embs.shape[1]
index = faiss.IndexFlatL2(d)
index.add(np.array(embs))

Do PDF ao dataset pesquisável: pipeline de IA para documentos públicos

Gancho: IAJus 2026 e a demanda por automação

Visão geral da arquitetura

Ferramentas e escolhas práticas

Passo a passo prático (MVP)

1) Ingest

2) OCR e extração

3) Normalização e chunking

4) Redaction (privacidade)

5) Embeddings e indexação

6) Busca e resumo

Checklist rápido para o seu MVP

Boas práticas e riscos

Ideias de serviços para vender

Checklist de lançamento (1ª versão)

Fontes