Pular para o conteúdo

Documentos e Armazenamento

Guia
  1. Selecionar a ferramenta de importação

    Na aba Armazenamento, clique em Importar. Um seletor exibe as ferramentas de importação disponíveis, organizadas por categoria (Arquivos, Triggers, API, Bancos de Dados).

  2. Configurar os campos

    Preencha os campos específicos da ferramenta selecionada:

    • Nome e descrição do documento
    • Configurações adicionais (delimitador, formato, etc.)
    • Agendamento de importação (opcional)
  3. Preencher os metadados (opcional)

    Abaixo dos campos principais, expanda o accordion Metadados para definir atributos de negócio que ficam vinculados ao documento e são herdados por cada chunk gerado:

    CampoDescrição
    Origem (source)Origem do conteúdo (ex.: manual, meeting, crm). Usado pelos filtros rápidos e pela detecção de duplicidade.
    Assunto (subject)Assunto ou tópico do documento.
    Idioma (language)Idioma do documento (ex.: pt-BR, en-US).
    TagsEtiquetas livres separadas por vírgula.

    Todos os campos de metadados aceitam Magic Fill — clique no ícone de estrela para que a IA sugira um valor com base no arquivo (o conteúdo, no caso de PDFs; caso contrário, o nome) e nos campos já preenchidos.

  4. Fazer upload do arquivo

    Arraste e solte o arquivo na área de upload ou clique para selecionar. O sistema valida o formato e o tamanho antes do envio.

  5. Acompanhar o processamento

    Uma barra de progresso inicia em 1% assim que o upload começa e avança conforme o documento percorre o pipeline upload → storage → embedding. A barra substitui o antigo spinner, garantindo feedback concreto ao usuário durante todo o processamento.


Planilhas: respostas exatas a partir de dados tabulares

Seção intitulada “Planilhas: respostas exatas a partir de dados tabulares”

Planilhas enviadas à base de conhecimento (.xlsx, .xls, .csv, .tsv, .ods) recebem um tratamento dedicado: além de indexadas para busca, seus dados ficam consultáveis para perguntas analíticas.

Quando você pergunta algo como “qual o total de vendas por segmento?” ou “quantas unidades do produto X foram vendidas na Alemanha?”, o assistente executa uma consulta real sobre os dados da planilha — em vez de inferir a partir do texto — e retorna números exatos: totais, somas, médias, contagens, agrupamentos e filtros.

  • Onde funciona: Playground, comunicadores (Slack/Teams), workflows (nós de RAG) e clientes MCP — a mesma competência em todas as superfícies.
  • Cada aba vira uma unidade consultável: planilhas com várias abas são indexadas por aba, cada uma com seu próprio esquema (colunas e tipos).
  • Várias planilhas: quando há mais de uma planilha relevante, o sistema escolhe a correta ou apresenta o resultado por planilha. Ele não soma dados de naturezas diferentes (moedas/definições distintas) — nesse caso, mostra o detalhamento por fonte em vez de um total sem sentido.
  • Perguntas descritivas (“o que tem nessa planilha?”) recebem um resumo das colunas e uma amostra de linhas.

Todo documento — independentemente de como entrou na base de conhecimento (upload manual, workflow, agente, API) — é primeiro persistido como entrada de Storage e só depois indexado como embeddings. Isso garante:

  • Um único inventário de documentos visível na listagem, qualquer que seja a origem.
  • Metadados de negócio pertencem à linha de storage e são replicados em cada chunk.
  • Exclusão em cascata: remover uma entrada de Storage descarta automaticamente todos os embeddings vinculados.

CategoriaDescrição
ArquivosUpload direto de documentos (CSV, PDF, DOCX, MD, etc.)
TriggersImportações baseadas em eventos
APIDados obtidos de endpoints REST
Bancos de DadosConexões diretas com bancos de dados

Para fontes de dados externas via API, você pode configurar:

CampoDescrição
URL baseEndereço do servidor
EndpointCaminho do recurso
Método HTTPGET, POST, PUT, PATCH, DELETE
AutenticaçãoNenhuma, Basic, Bearer, API Key
ParâmetrosQuery parameters e headers
Formato de respostaJSON, CSV, XML
PaginaçãoConfiguração de paginação automática
TentativasConfiguração de retentativas em caso de falha

Configure importações automáticas recorrentes:

FrequênciaOpções
Por horaA cada N horas
DiárioHorário específico
SemanalDias da semana + horário
MensalDia do mês + horário

A aba Armazenamento exibe todos os documentos importados em uma tabela, independentemente de terem sido enviados manualmente ou produzidos automaticamente por um agente ou workflow.

ColunaDescrição
NomeNome do documento precedido pelo logo da ferramenta (o ícone identifica a origem da importação rapidamente).
Atualizado emData da última atualização.
TamanhoTamanho do arquivo original (formatado, ex.: 1,2 MB).
StatusEstado do processamento exibido como barra de progresso que avança durante a indexação.
QualidadePontuação geral renderizada em escala de 5 estrelas (0 a 10 mapeado em meias-estrelas, cor âmbar).
AçõesColuna fixa à direita (sticky) — permanece visível mesmo quando o usuário rola a tabela horizontalmente.

A tabela vem ordenada por Atualizado em em ordem decrescente (mais recente primeiro) por padrão. Clique no cabeçalho de uma coluna para ordenar por ela; clique novamente para inverter a direção (crescente/decrescente). Uma seta no cabeçalho indica a coluna ativa e a direção.

Colunas ordenáveis: Nome, Atualizado em, Tamanho, Status e Qualidade. A ordenação é aplicada no servidor, então vale para todo o acervo — não apenas para a página atual — e ao alterá-la a listagem volta para a primeira página. O redimensionamento de coluna continua funcionando normalmente, sem disparar a ordenação.

A barra de busca compartilha a linha com o botão de filtro e um conjunto de cards de filtro rápido que atuam no lado do cliente:

Filtro rápidoComportamento
TodosEstado padrão — nenhum filtro client-side aplicado.
TipoPopover com os tipos de documento presentes na página atual (markdown, pdf, csv, etc.).
FacetasPopover com as facetas de metadados indexadas nos documentos (origem, assunto, idioma, tags).

Os filtros rápidos são resetados automaticamente quando o usuário altera a busca por texto ou os filtros do servidor, mantendo a listagem coerente.

Recursos adicionais de busca:

  • Busca por texto — nome, descrição e metadados.
  • Busca por data — filtre por período de criação ou atualização.
  • Filtro por status — filtre pelo estado de processamento.
  • Filtros de qualidade e tamanho — disponíveis no botão principal de filtro (Category Filter).
  • Visibilidade de colunas — mostre ou oculte colunas da tabela.
StatusDescrição
AtivoDocumento disponível para consulta
ConcluídoProcessamento finalizado
EmbeddedEmbeddings gerados com sucesso
ProcessandoGeração de embeddings em andamento (barra de progresso avançando)
PendenteAguardando processamento
ArmazenadoArquivo salvo no sistema
ParcialParcialmente processado
FalhaErro no processamento

O menu de ações da linha (lado direito) contém:

AçãoÍconeDescrição
Infoi dentro de um círculoAbre o modal Detalhes do Documento.
BaixarÍcone de downloadDisponível quando o documento possui arquivo no Storage.
ExcluirÍcone de lixeiraRemove o documento com diálogo de confirmação.

Selecionar Info abre um modal de altura fixa organizado em quatro abas:

AbaConteúdo
DetalhesNome do documento, descrição (texto completo), informações do arquivo (tamanho, tipo), origem e datas.
MetadadosTodas as chaves persistidas em storage.metadata, incluindo facetas e dados de processamento. Valores JSON (ex.: lista de participantes, objetos estruturados) são detectados automaticamente e renderizados como blocos formatados, não como string crua. Para planilhas, exibe também um bloco de Esquema legível (abas, colunas e tipos).
QualidadePontuações de qualidade, completude e relevância; bloco de processamento com método de chunk, tipo de documento, modelo, provedor e timestamp. Em planilhas, a estratégia de chunk é sheet (uma unidade por aba).
ChunksLista paginada dos chunks gerados para o documento. Visível apenas para usuários super-admin. Em planilhas, a aba é rotulada Abas/Planilhas, exibindo nome da aba, nº de linhas e colunas.

O rodapé do modal expõe Baixar e Excluir como ações principais, ao lado de Fechar.


Documentos produzidos automaticamente (ex.: por agentes e workflows) utilizam um fluxo de upsert em vez de um insert cego:

  • Um conjunto de upsertKeys (tipicamente source mais identificadores de negócio como meeting_title, meeting_date, organizer_email, document_type) é comparado contra entradas de storage existentes.
  • Match encontrado → o arquivo no Storage é sobrescrito in-place, os embeddings antigos são removidos e a reindexação produz um novo conjunto de chunks, preservando o storage_id e o created_at originais.
  • Sem match → uma nova entrada de Storage é criada normalmente.
  • Conteúdo idêntico → a duplicidade é detectada durante a indexação, a linha de storage órfã criada nesse meio-tempo é removida e a listagem mantém a entrada original intacta.

Isso torna re-execuções da mesma fonte seguras e evita que a listagem fique cheia de duplicidades.


Antes de um documento ser indexado, o Prodgy o divide em chunks. Por padrão, a plataforma escolhe automaticamente a melhor estratégia analisando o conteúdo — títulos, falas por interlocutor, blocos de código, quebras de página, tamanho e assim por diante.

Os nós de Base de Conhecimento nos workflows (operações Salvar no storage e Upsert no storage) expõem um campo opcional Estratégia de chunking que permite sobrepor essa escolha automática quando um comportamento específico é necessário — por exemplo, manter o resumo de uma reunião como bloco único em vez de deixá-lo ser dividido por título.

OpçãoComportamento
Automático (baseado no conteúdo)Padrão. O Prodgy analisa o conteúdo e seleciona a estratégia. Idêntico ao comportamento anterior.
Bloco únicoArmazena o documento inteiro como um único chunk.
Por títuloDivide por títulos Markdown / seções.
Por interlocutorDivide por falas de cada participante (transcrições de reunião).
Por páginaDivide por quebras de página (PDFs).
Por bloco de códigoDivide por blocos de código.
SemânticoAgrupa trechos semanticamente relacionados.
Por sentençaDivide por limites de sentença.
Tamanho fixoDivide em janelas de tamanho fixo.