Módulo 2.2 — Knowledge Files

📥 Como o upload funciona

Arquivo subido passa por pipeline automático: extração de texto, chunking, indexação. Quando você pergunta, modelo consulta os chunks relevantes.

Extração

Texto é puxado do PDF/DOCX/imagem. PDFs com gráfico viram texto bagunçado se layout é complexo.

Chunking

Texto é dividido em pedaços para indexação. Headers e estrutura ajudam o chunking a respeitar tópicos.

Indexação + consulta

Chunks ficam indexados; modelo busca os mais relevantes na hora de responder e os usa como contexto adicional.

📝 Markdown é rei

Preserva estrutura, economiza tokens, é texto puro. PDF da mesma info entrega 3x menos qualidade que MD.

✓ Use

✓ .md / .txt (melhor)
✓ Headers H1-H3 com hierarquia clara
✓ Listas e tabelas em sintaxe MD
✓ Código em blocos com linguagem

✗ Evite

✗ PDF de relatório com gráficos
✗ DOCX com formatação rica
✗ XLSX gigante quando 1 CSV resolve
✗ Scan de imagem (OCR é ruim)

🔍 Como o Claude cita

Modelo cita automaticamente quando pergunta tem encaixe claro. Você pode forçar citação pedindo "cite o arquivo e o trecho".

💡 Prompt padrão de auditoria

Adiciona no instructions:

Ao usar info do knowledge, sempre cite:
arquivo + número da seção/parágrafo + trecho relevante (1-2 linhas).

Sem citação, você não consegue auditar. Com, vira parte do critério de qualidade da resposta.

📐 Tamanho e quantidade

Cada arquivo até ~30MB, total combinado limitado pela capacity bar. Mais arquivos ≠ mais qualidade. Curadoria vence acúmulo.

Heurística saudável:
- 3-10 arquivos por projeto
- Capacity bar ficar abaixo de 70%
- Cada arquivo < 5MB se possível
- Markdown enxuto > PDF gordo

~30MB

Por arquivo

70%

Limite capacity

3-10

Arquivos saudáveis

Curadoria

Vence acúmulo

🔄 Atualização e versionamento

Substituir arquivo = deletar + subir novo. Sem diff nativo. Quem não atualiza vê o modelo citando info errada com confiança.

🗓️ Ritual de manutenção

• Quinzenal: revisar quais arquivos foram referenciados na semana
• Mensal: remover obsoletos, substituir desatualizados
• Trimestral: revisão completa, com baseline de qualidade

⚠️ O que NÃO subir

Mesmo com Enterprise, alguns dados não devem entrar sem revisão prévia. Política e treinamento previnem acidente.

🚫 Linha vermelha

• PII bruta (CPF, RG, cartão, endereço)
• Credenciais (tokens, senhas, chaves de API)
• Dados de saúde sem contrato (LGPD)
• Segredos de produção (queries reais com dados sensíveis)
• NDA sem autorização

✅ Resumo do Módulo

✓

Pipeline: extração → chunking → indexação

✓

Markdown > PDF sempre que possível

✓

Forçar citação no instructions

✓

3-10 arquivos, capacity <70%

✓

Ritual: quinzenal / mensal / trimestral

✓

Linha vermelha: PII, credenciais, segredos prod

Próximo módulo:

2.3 — Conversas e histórico

← Anterior Próximo →