📥 Como o upload funciona
Arquivo subido passa por pipeline automático: extração de texto, chunking, indexação. Quando você pergunta, modelo consulta os chunks relevantes.
Extração
Texto é puxado do PDF/DOCX/imagem. PDFs com gráfico viram texto bagunçado se layout é complexo.
Chunking
Texto é dividido em pedaços para indexação. Headers e estrutura ajudam o chunking a respeitar tópicos.
Indexação + consulta
Chunks ficam indexados; modelo busca os mais relevantes na hora de responder e os usa como contexto adicional.
📝 Markdown é rei
Preserva estrutura, economiza tokens, é texto puro. PDF da mesma info entrega 3x menos qualidade que MD.
✓ Use
- ✓ .md / .txt (melhor)
- ✓ Headers H1-H3 com hierarquia clara
- ✓ Listas e tabelas em sintaxe MD
- ✓ Código em blocos com linguagem
✗ Evite
- ✗ PDF de relatório com gráficos
- ✗ DOCX com formatação rica
- ✗ XLSX gigante quando 1 CSV resolve
- ✗ Scan de imagem (OCR é ruim)
🔍 Como o Claude cita
Modelo cita automaticamente quando pergunta tem encaixe claro. Você pode forçar citação pedindo "cite o arquivo e o trecho".
💡 Prompt padrão de auditoria
Adiciona no instructions:
Ao usar info do knowledge, sempre cite: arquivo + número da seção/parágrafo + trecho relevante (1-2 linhas).
Sem citação, você não consegue auditar. Com, vira parte do critério de qualidade da resposta.
📐 Tamanho e quantidade
Cada arquivo até ~30MB, total combinado limitado pela capacity bar. Mais arquivos ≠ mais qualidade. Curadoria vence acúmulo.
Heurística saudável:
- 3-10 arquivos por projeto
- Capacity bar ficar abaixo de 70%
- Cada arquivo < 5MB se possível
- Markdown enxuto > PDF gordo
🔄 Atualização e versionamento
Substituir arquivo = deletar + subir novo. Sem diff nativo. Quem não atualiza vê o modelo citando info errada com confiança.
🗓️ Ritual de manutenção
- • Quinzenal: revisar quais arquivos foram referenciados na semana
- • Mensal: remover obsoletos, substituir desatualizados
- • Trimestral: revisão completa, com baseline de qualidade
⚠️ O que NÃO subir
Mesmo com Enterprise, alguns dados não devem entrar sem revisão prévia. Política e treinamento previnem acidente.
🚫 Linha vermelha
- • PII bruta (CPF, RG, cartão, endereço)
- • Credenciais (tokens, senhas, chaves de API)
- • Dados de saúde sem contrato (LGPD)
- • Segredos de produção (queries reais com dados sensíveis)
- • NDA sem autorização
✅ Resumo do Módulo
Próximo módulo:
2.3 — Conversas e histórico