Inteligência artificial com Java: projetos

Agora que você resolveu os requisitos de hardware, definiu como servir o modelo e escolheu o modelo adequado, é hora de usar Java para interagir com os modelos.

Complexidade das aplicações inteligentes

Um dos desafios de criar aplicações inteligentes se deve ao fato de que os dados utilizados para treinar os modelos são desatualizados e treinar os modelos com dados novos é um processo caro, complicado e demorado. Mesmo projetos como InstructLab, que fornecem uma plataforma simplificada para adicionar informações e conhecimento em modelos, é incapaz de progredir na mesma velocidade com que as informações são atualizadas no mundo real.

Uma das formas de resolver esse problema é através de uma técnica chamada RAG (retrieval-augmented generation – RAG) que utiliza consultas em bases externas para garantir o acesso a dados recentes. O RAG costumeiramente utiliza sistemas de armazenamento com capacidade de busca vetorial pra fazer com que seja possível adicionar informações extras à entrada do usuário, fornecendo contexto para o mecanismo de inferência do modelo.

Em arquiteturas RAG relativamente complexas, é possível encontrar múltiplas bases de dados, em alguns casos, inclusive, com arquiteturas de dados que vão além dos tradicionais modelos relacionais e não relacionais (ex.: usando bancos de grafos para resolver certos tipos de associações de dados).

Primeiros passos

Para começar com o desenvolvimento de aplicações inteligentes com Java, o mínimo que você precisa é de um projeto que facilite o trabalho de interagir com os modelos usando as APIs através das quais eles estão disponíveis.

O principal e mais famoso projeto cobrindo essa necessidade é o LangChain4J. Esse projeto fornece uma plataforma para simplificada integrar LLMs em suas aplicações Java. Além de contar com uma vasta biblioteca de exemplos, também é possível encontrar inúmeras palestras sobre ele em diferentes eventos ao redor do mundo (inclusive no Brasil, e em Português).

Embora o LangChain4J facilite muito o trabalho de interagir com as LLMs, sempre é possível ir mais além. E é isso que a extensão do LangChain4J para o Quarkus nos mostra. Com um conhecimento relativamente básico de Quarkus (que você pode aprender em português nos canais do Marcos Paulo, RinaldoDev e Vinicius Ferraz). No momento me parece que ainda não existe nenhum tutorial em português mostrando sobre como usar as extensões do LangChain4J para Quarkus.

Desenvolvendo sistemas inteligentes mais complexos

Depois de cobrir o básico do desenvolvimento de aplicações inteligentes, você possivelmente vai querer desenvolver sistemas mais complexos, aplicando técnicas como RAG e buscas vetoriais.

Cada vez mais temos opções de bancos com suporte a busca vetorial. Algumas opções incluem:

O OpenSearch, o Postgres e o Apache Cassandra dispensam apresentação: são ferramentas tradicionais para armazenamento e gerenciamento de dados.

Os projetos Milvus e Qdrant são relativamente recentes e populares para busca vetorial. Em particular, o Qdrant tem uma API Java que é bastante fácil de usar e ao mesmo tempo é um banco de dados relativamente poderoso. Para casos muito mais complexos e customizados, vale manter o projeto JVector no radar, já que ele é uma engine de busca vetorial que pode ser embutida na sua própria aplicação, tornando desnecessário o uso de um banco externo.

Garantindo o frescor dos dados

Indo mais além no desenvolvimento desses sistemas, também é necessário implementar soluções para armazenar os dados nesses bancos.

Para sistemas/arquiteturas relativamente simples, onde a fonte dos dados não está distribuída em muitos lugares, talvez seja possível implementar soluções que usam as APIs próprias de cada banco. Possivelmente não é o caso para a grande maioria das aplicações da vida real, então nesse caso, vale considerar projetos como o Apache Camel, simplificar o trabalho de alimentar as bases de dados usadas para RAG quando as fontes desses dados estão distribuídas em muitos sistemas. Em alguns casos, onde os dados precisam ser tratados em grande volume antes da inclusão, ferramentas como o Apache Flink podem ser particularmente úteis.

Em todo caso, é importante lembrar que as escolhas adequadas dependem do seu caso de uso específico.

Outros

O campo de inteligência artificial em Java é bastante amplo e não precisa se limitar somente a chamadas de APIs remotas ou RAG. Portanto, além desses projetos citados, vale ficar de olho em alguns projetos explorando outras ideias, áreas de inteligência artificial e aprendizado de máquina no ecossistema Java:

Espero que isso ajude! Se tiver alguma dúvida adicional ou precisar de ajuda, não hesite em perguntar!

Inteligência artificial com Java: escolhendo o modelo adequado

Agora que você escolheu como servir seu modelo, é hora de escolher qual modelo servir. Isso pode parecer intimidante, mas não se preocupe! Aqui estão algumas dicas importantes para ajudá-lo a tomar uma decisão informada.

Verifique se o modelo é verdadeiramente aberto

 Embora muitas empresas usem o termo “Open Source” para descrever seus modelos, é importante verificar se eles são realmente abertos. O site IsItOpen pode ajudá-lo a verificar se o modelo tem restrições de uso que podem afetar seu uso comercial.

Escolha um modelo adequado para o seu caso de uso

 Cada modelo tem seus próprios casos de uso e performa melhor em diferentes tarefas. Use as informações no card do modelo no HuggingFace (uma plataforma para hospedagem e compartilhamento de modelos e conjuntos de dados) outros para conhecer os casos de uso de cada modelo.

Ajuste os parâmetros do modelo

 Mesmo se você escolher o modelo correto para seu caso de uso, pode ser necessário ajustar os parâmetros do modelo para que ele se comporte da maneira esperada. Isso pode incluir ajustes para tornar o modelo mais conservador ou mais criativo. Por exemplo, ao usar ferramentas como Ollama e LM Studio, você tem a opção de ajustar parâmetros como a “temperatura” do modelo, “top k” e “top p” e muitos outros que modificam a forma como o modelo vai se comportar em relação aos dados de entrada.

Modelos recomendados

Se você não sabe qual modelo escolher ou se sinta sobrecarregado com tantas escolhas, aqui estão alguns modelos que podem ser úteis:

Obviamente, você também pode fazer uso de modelos proprietários e não abertos, como o Llama 3. Nesse caso, entretanto, é recomendável verificar licença e as restrições de uso.

Além disso, você também tem a possibilidade de usar modelos servidos por empresas especializadas e/ou através de APIs específicas. Alguns exemplos: ChatGPT, Gemini, Claude 3.5 Sonnet. Nesse caso, vale considerar o custo, restrições de uso e a disponibilidade de ferramentas compatíveis com as APIs utilizadas.

Um importante detalhe sobre o InstructLab

Se você decidir usar o InstructLab para servir seu modelo, é importante notar que você precisará de modelos ajustados para esse projeto.

O InstructLab fornece no momento duas famílias de modelos abertos que você pode usar:

  • Granite base: de uso geral, baseado no IBM Granite 7B base.
  • Merlinite: um derivado do Mistral 7B, de uso geral, preparado para LAB.

O InstructLAB também conta com funcionalidades para converter, quantizar e empacotar os modelos no formato GGUF (eu nunca cheguei a testar essas funcionalidades, mas vale a pena tentar caso você queira usar algum modelo específico diferente dos distribuídos pelo projeto).

Consulte a documentação do projeto para saber mais sobre como escolher e preparar os modelos corretos.

Parâmetros, formatos, quantização e outros detalhes relevantes

Ao navegar pelo HuggingFace você vai encontrar diferentes tipos de arquivos, em diferentes formatos e tudo mais. Para seus primeiros passos em IA com Java, os detalhes específicos de cada um deles não são muito relevantes nesse momento. De modo geral, você precisa levar em consideração os seguintes detalhes:

Parâmetros

Você encontra muitos artigos descrevendo o que são parâmetros em LLMs. Eu gosto muito desse post que descreve os parâmetros como botões e alavancas que podem ser manipulas para ajustar o entendimento e comportamento de geração do modelo.

No HuggingFace você encontra modelos de diferentes tamanhos, sendo bastante comum encontrar:

  • 7b: 7 bilhões de parâmetros.
  • 8b: 8 bilhões de parâmetros.
  • 13b: 13 bilhões de parâmetros.

Via de regra, quanto maior a quantidade de parâmetros, maior a quantidade de memória (de vídeo – vRAM – ou, em sua falta, de sistema – RAM) necessária para carregar o modelo. Existem inúmeros artigos detalhando como estimar a memória necessária para carregar os modelos. A grosso modo, se você tem um hardware com os requisitos mínimos que eu descrevi no primeiro artigo, você deve ser capaz de usar um modelo com algo em torno de 8b parâmetros – com quantização de 4 bits – sem maiores problemas.

Dica: uma das funcionalidades legais do LM Studio e que não existe em outros aplicativos é que ele mostra quais modelos você pode ser capaz de carregar na memória da sua máquina.

Quantização

Quantização é uma técnica para reduzir a memória necessária para carregar os modelos. Isso é feito através da redução da precisão dos “pesos” usados pelo modelo. Você geralmente encontra as informações sobre quantização no card do modelo ou através de tags ou nome dos arquivos.

As tags normalmente tem o formato de nome Qx_f_t onde “x” representa o número de bits da quantização, “f” representa o formato e t representa o mix de tipos de quantização utilizados. Exemplos de tags/nomes comumente utilizados para se referir a modelos quantizados: Q4_K_M (4 bits de quantização), Q5_K_M (5 bits de quantização), Q5_K_S (5 bits de quantização), etc. O formato de quantização e o mix, nesse momento, não são relevantes.

Formatos

Você geralmente encontra os modelos distribuídos em diferentes formatos:

  • Safetensors: um formato simples para armazenamento de tensors.
  • GGML (GPT-Generated Model Language): uma biblioteca de tensors que facilita o uso em diferentes formatos
  • GGUF (GPT-Generated Unified Format): outra biblioteca de tensors, um pouco mais moderna, que busca corrigir algumas da deficiências do formato GGML.

Via de regra, prefira o GGUF: bem suportado em boa parte das ferramentas usadas para desenvolvimento de aplicações inteligentes (Ollama, InstructLab, LM Studio, etc).

Conclusão

Escolher o modelo adequado é um passo importante na implementação do seu sistema inteligente em Java. Lembre-se de verificar se o modelo é verdadeiramente aberto, escolher um modelo adequado para o seu caso de uso e ajustar os parâmetros do modelo. Além disso, há muitos recursos disponíveis on-line que podem ajudá-lo a encontrar o modelo certo para você!

Opções para acessar ou servir um modelo

Você escolheu servir seu próprio modelo de inteligência artificial! Agora, você precisa escolher como deseja servir esse modelo.

A maneira mais comum de acessar um modelo é através de API. Até o presente momento, acessar os LLMs nativamente usando a JVM não é algo muito comum, embora existam projetos como o ONNXRuntime trabalhando nesse problema. De modo geral, a maneira mais fácil de ter acesso aos modelos é através de APIs (rodando localmente ou um servidor) ou através de serviços especializados.

Serviços especializados

Os serviços especializados são, talvez, a forma mais fácil de começar a criar aplicações inteligentes, já que eles fornecem tudo pronto sem a necessidade de configurar um serviço, buscar modelos, etc. Eles também são uma opção interessante caso você não tenha acesso a hardware relativamente recente capaz de servidor os modelos.

Muitas empresas fornecem, através de assinaturas ou pacotes pré-pagos, a possibilidade de acessar os modelos através de APIs próprias.

Local ou servidor

Caso você prefira servir os modelos você mesmo, seja localmente na sua máquina, seja remotamente na cloud, você tem muitas opções para servir um modelo (SLM/LLM). Desde soluções mais escaláveis até opções voltadas para uso local ou restrito.

Ollama: uma ferramenta de código aberto

Uma das opções interessantes é o Ollama, uma ferramenta que facilita o trabalho de servir, importar e customizar diferentes modelos. Trabalhando com código aberto, o Ollama torna acessível o uso de diferentes modelos para testes e experimentações. Além disso, a API do Ollama é compatível com a da OpenAI (usada no ChatGPT), o que facilita a integração.

Uma das funcionalidades legais do Ollama é a facilidade de importar modelos diferentes e aplicar parâmetros customizados para ajustar o comportamento dos modelos.

De todas as ferramentas que eu uso para servir modelos, o Ollama é a que eu uso com mais frequência, por fornecer suporte a aceleração via GPU no MacOS e pela possibilidade de ajustar parâmetros dos modelos.

InstructLab: um projeto inovador

Outra opção é o InstructLab, um projeto que permite contribuir conhecimentos e habilidades para LLMs (do inglês large language models – grandes modelos de linguagem). O InstructLab aplica uma técnica inovadora chamada LAB (Large-scale Alignment for chatBots) que facilita a alinhamento dos modelos durante a fase de ajuste de instrução. Além disso, o InstructLab permite servir os modelos usando uma API compatível com a da OpenAI.

O InstructLab é particularmente interessante se você deseja criar aplicações inteligentes que dependem de modelos especializados ou com conhecimento específico, já que o InstructLab facilita bastante o trabalho de adicionar conhecimento nos modelos.

Podman AI Lab

O AI Lab do Podman provê uma maneira de acessar as LLMs através de containers de uma maneira bastante simples e prática. É a forma mais prática e limpa de acessar os modelos sem poluir muito o seu sistema. Se você usa MacOS, talvez não seja a melhor opção, já que não parece fornecer aceleração via GPU, tornando a inferência consideravelmente mais lenta.

Outras opções

Além do Ollama e do InstructLab, existem outras ferramentas que podem ser usadas para servir um modelo localmente. Algumas delas incluem:

  • LM Studio: uma ferramenta proprietária que oferece soluções customizadas. É particularmente legal por ser um aplicativo desktop, tornando muito fácil baixar e testar modelos. Também conta com uma API compatível com a da OpenAI.
  • vLLM e Kserve: ferramentas para soluções customizadas em maior escala.

Conclusão

Essas são apenas algumas das opções interessantes para servir seu próprio modelo localmente (tem muito mais). No próximo post eu vou falar um pouco sobre como escolher um modelo e algumas das opções disponíveis.