MÓDULO 2.2

📚 Knowledge Files

Como o upload funciona, por que Markdown é rei, como forçar citação, tamanho/quantidade, atualização e o que não deve subir.

6
Tópicos
45
Minutos
Inter.
Nível
Prático
Tipo
1

📥 Como o upload funciona

Arquivo subido passa por pipeline automático: extração de texto, chunking, indexação. Quando você pergunta, modelo consulta os chunks relevantes.

1

Extração

Texto é puxado do PDF/DOCX/imagem. PDFs com gráfico viram texto bagunçado se layout é complexo.

2

Chunking

Texto é dividido em pedaços para indexação. Headers e estrutura ajudam o chunking a respeitar tópicos.

3

Indexação + consulta

Chunks ficam indexados; modelo busca os mais relevantes na hora de responder e os usa como contexto adicional.

2

📝 Markdown é rei

Preserva estrutura, economiza tokens, é texto puro. PDF da mesma info entrega 3x menos qualidade que MD.

✓ Use

  • ✓ .md / .txt (melhor)
  • ✓ Headers H1-H3 com hierarquia clara
  • ✓ Listas e tabelas em sintaxe MD
  • ✓ Código em blocos com linguagem

✗ Evite

  • ✗ PDF de relatório com gráficos
  • ✗ DOCX com formatação rica
  • ✗ XLSX gigante quando 1 CSV resolve
  • ✗ Scan de imagem (OCR é ruim)
3

🔍 Como o Claude cita

Modelo cita automaticamente quando pergunta tem encaixe claro. Você pode forçar citação pedindo "cite o arquivo e o trecho".

💡 Prompt padrão de auditoria

Adiciona no instructions:

Ao usar info do knowledge, sempre cite:
arquivo + número da seção/parágrafo + trecho relevante (1-2 linhas).

Sem citação, você não consegue auditar. Com, vira parte do critério de qualidade da resposta.

4

📐 Tamanho e quantidade

Cada arquivo até ~30MB, total combinado limitado pela capacity bar. Mais arquivos ≠ mais qualidade. Curadoria vence acúmulo.

Heurística saudável:
- 3-10 arquivos por projeto
- Capacity bar ficar abaixo de 70%
- Cada arquivo < 5MB se possível
- Markdown enxuto > PDF gordo
~30MB
Por arquivo
70%
Limite capacity
3-10
Arquivos saudáveis
Curadoria
Vence acúmulo
5

🔄 Atualização e versionamento

Substituir arquivo = deletar + subir novo. Sem diff nativo. Quem não atualiza vê o modelo citando info errada com confiança.

🗓️ Ritual de manutenção

  • Quinzenal: revisar quais arquivos foram referenciados na semana
  • Mensal: remover obsoletos, substituir desatualizados
  • Trimestral: revisão completa, com baseline de qualidade
6

⚠️ O que NÃO subir

Mesmo com Enterprise, alguns dados não devem entrar sem revisão prévia. Política e treinamento previnem acidente.

🚫 Linha vermelha

  • PII bruta (CPF, RG, cartão, endereço)
  • Credenciais (tokens, senhas, chaves de API)
  • Dados de saúde sem contrato (LGPD)
  • Segredos de produção (queries reais com dados sensíveis)
  • NDA sem autorização

Resumo do Módulo

Pipeline: extração → chunking → indexação
Markdown > PDF sempre que possível
Forçar citação no instructions
3-10 arquivos, capacity <70%
Ritual: quinzenal / mensal / trimestral
Linha vermelha: PII, credenciais, segredos prod

Próximo módulo:

2.3 — Conversas e histórico