O juristas e a cultura do documento
Os juristas consomem informação na cultura do documento e sua máxima expressão é a existência do vade mecum. Embora o formato esteja em decadência, não é possível dizer que esteja totalmente obsoleto.
Essa mesma cultura leva a que os tribunais publiquem seus regimentos internos no formato de pdf, não em páginas web. Então, de algum modo, continuamos presos à metáfora documental e não há saída fácil para isso. O fato é que, dentro do universo do direito, poucos sistemas de informação foram construídos e seguimos presos aos documentos como ponto de partida do nosso trabalho.
Quando começou a febre do RAG, cheguei a testar a viabilidade de transpor os dados desse tipo de documento para um banco de vetor, com o objetivo de consumir essa informação por meio de um chatbot. Mas, naturalmente, essa é uma transposição infeliz, uma vez que, para o caso do vade mecum, se perde toda informação sobre a estrutura do compêndio. Na prática, a IA responde conhecendo o conteúdo, mas sem saber de que lei se trata.
Para o caso dos regimentos (e documentos pequenos em geral), o próprio ChatGPT já deu a solução, permitindo o upload de pequenos documentos para que bot possa consultar suas informações. Então você pode escolher uma solução de Chat2PDF, entre as inúmeras existentes no mercado para resolver a própria vida rapidamente.
De outro lado, uma solução satisfatória para casos mais complexos demandaria a organização dos documentos (e suas partes) de forma a refletir sua estrutura. Até onde vai meu conhecimento, ainda não há solução comercial para isso.
Seja como for, caso queira fazer sua própria tentativa de conversar com textos em geral, recomendo hospedar uma instância do Weaviate como seu banco de vetor, se pagar USD 25 por mês não for um problema. A interface do chat pode ser prototipada no Flowise, que é uma ferramenta open source para criação de rotinas com base no LanchChain.
Como carregar documentos grandes no banco de dados pode ser um problema, recomendo o VectorAdmin para gerenciar a inclusão dessas entradas. E, para completar o stack open source, Weaviate-UI ajuda a ver as informações inseridas no seu banco de dados.
Descarto o uso de outros bancos de dados, como o Pinecone (por seu preço), o Qdrant (pelas limitações do endpoint oferecido na versão open source) e o Chroma (pois não tem interface). Com isso, recomendo o stack centrado no Weaviate e no Flowise, especialmente considerando que suas funcionalidades low code tornam bastante ágil testar suas ideias.
Caso você tenha sucesso indexando esse tipo de conteúdo num banco de vetor, por favor, me diga. Pessoalmente, achei o resultado insatisfatório, a não ser quando o conteúdo indexado tem a forma de verbetes (que é o caso de súmulas e informativos). Assim, não considero produtiva a abordagem de conversar com um pdf grande como um vade mecum. E para textos pequenos qualquer aplicativo (como o ChatGPT) já resolveria sua vida.