Arthur lança ferramenta de código aberto para ajudar empresas a encontrar o melhor LLM para um trabalho

Arthur, uma startup de monitoramento de aprendizado de máquina, se beneficiou do interesse em IA generativa este ano e vem desenvolvendo ferramentas para ajudar as empresas a trabalhar com LLMs de forma mais eficaz. Hoje está lançando o Arthur Bench, uma ferramenta de código aberto para ajudar os usuários a encontrar o melhor LLM para um determinado conjunto de dados.

Adam Wenchel, CEO e cofundador da Arthur, diz que a empresa tem visto muito interesse em IA generativa e LLMs e, por isso, tem se esforçado muito na criação de produtos.

Ele diz que hoje, e admitindo que já faz menos de um ano desde o lançamento do ChatGPT, as empresas não têm uma forma organizada de medir a eficácia de uma ferramenta em relação a outra, por isso criaram o Arthur Bench.

“Arthur Bench resolve um dos problemas críticos que acabamos de ouvir de cada cliente: [com todas as opções de modelo], qual é o melhor para sua aplicação específica”, disse Wenchel ao TechCrunch.

Ele vem com um conjunto de ferramentas que você pode usar para testar metodicamente o desempenho, mas o valor real é que ele permite testar e medir o desempenho dos tipos de prompts que seus usuários usariam para seu aplicativo específico em diferentes LLMs.

Créditos da imagem:Arthur

“Você poderia testar 100 prompts diferentes e, em seguida, ver como dois LLMs diferentes – como o Anthropic se compara ao OpenAI – sobre os tipos de prompts que seus usuários provavelmente usarão”, disse Wenchel. Além do mais, ele diz que você pode fazer isso em grande escala e tomar uma decisão melhor sobre qual modelo é melhor para seu caso de uso específico.

Arthur Bench está sendo lançado hoje como uma ferramenta de código aberto. Haverá também uma versão SaaS para clientes que não desejam lidar com a complexidade do gerenciamento da versão de código aberto ou que possuem requisitos de teste maiores e estão dispostos a pagar por isso. Mas, por enquanto, Wenchel disse que eles estão se concentrando no projeto de código aberto.

A nova ferramenta surge logo após o lançamento do Arthur Shield em maio, uma espécie de firewall LLM projetado para detectar alucinações em modelos, ao mesmo tempo que protege contra informações tóxicas e vazamentos de dados privados.

Créditos da imagem: