Do PDF ao dataset pesquisável: pipeline de IA para documentos públicos