{"id":1751,"date":"2025-02-28T18:27:04","date_gmt":"2025-02-28T20:27:04","guid":{"rendered":"https:\/\/sites.usp.br\/keml\/?page_id=1751"},"modified":"2025-05-13T23:05:13","modified_gmt":"2025-05-14T01:05:13","slug":"harpia-lab","status":"publish","type":"page","link":"https:\/\/sites.usp.br\/keml\/harpia-lab\/","title":{"rendered":"HarpIA Lab"},"content":{"rendered":"<p>O m\u00f3dulo\u00a0<strong>HarpIA Lab <\/strong>foi concebido para facilitar a avalia\u00e7\u00e3o de grandes modelos de linguagem (LLMs) de forma automatizada. O m\u00f3dulo coloca o processo de avalia\u00e7\u00e3o como foco de aten\u00e7\u00e3o, embora o desempenho de um LLM em uma certa tarefa seja o alvo da avalia\u00e7\u00e3o. Em outras palavras, o processo de avalia\u00e7\u00e3o \u00e9 integralmente desacoplado dos processos de constru\u00e7\u00e3o e otimiza\u00e7\u00e3o do LLM. Desta forma, o processo de avalia\u00e7\u00e3o foi desenhado para receber como entrada um arquivo JSON no qual est\u00e3o organizadas, adequadamente, tanto as sa\u00eddas produzidas pelo LLM que se deseja avaliar, quanto as m\u00e9tricas que devem ser calculadas, al\u00e9m de outros dados necess\u00e1rios para realiza\u00e7\u00e3o da avalia\u00e7\u00e3o. Resumidamente, o fluxo de trabalho de avalia\u00e7\u00e3o usando o HarpIA Lab pode ser descrito pelos seguintes passos:<\/p>\n<ul>\n<li>a <a href=\"https:\/\/sites.usp.br\/keml\/entrada-e-saida\/\" target=\"_blank\" rel=\"noopener\">prepara\u00e7\u00e3o dos dados<\/a> que ser\u00e3o o insumo para o processo de avalia\u00e7\u00e3o;<\/li>\n<li>a <a href=\"https:\/\/sites.usp.br\/keml\/perguntas-frequentes\/\" target=\"_blank\" rel=\"noopener\">escolha de m\u00e9tricas<\/a> e outros procedimentos de interesse a serem executos pelo m\u00f3dulo;<\/li>\n<li>a an\u00e1lise dos resultados usando ferramentas oferecidas pelo HarpIA Lab;<\/li>\n<li>a exporta\u00e7\u00e3o dos resultados brutos ou anal\u00edticos produzidos pelo m\u00f3dulo para an\u00e1lise usando ferramentas de prefer\u00eancia do pesquisador.<\/li>\n<\/ul>\n<p><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem.jpeg\"><img loading=\"lazy\" decoding=\"async\" class=\" wp-image-1886 alignleft\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-300x300.jpeg\" alt=\"\" width=\"185\" height=\"185\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/03\/harpia-lab-imagem.jpeg 1024w\" sizes=\"auto, (max-width: 185px) 100vw, 185px\" \/><\/a><\/p>\n<p>O HarpIA Lab pode ser usado de duas formas: (a) a partir da linha de comando ou (b) por meio de interface web. Em ambos os casos, a ideia \u00e9 que o pesquisador possa estabelecer um processo de avalia\u00e7\u00e3o e documentar o fluxo desse processo em arquivos JSON para processamento posterior, seja para realiza\u00e7\u00e3o de atividades de auditoria dos resultados obtidos ou de <a href=\"https:\/\/www.acm.org\/publications\/policies\/artifact-review-and-badging-current\">replica\u00e7\u00e3o e reprodu\u00e7\u00e3o do estudo avaliativo<\/a>.<\/p>\n<p>Vale tamb\u00e9m ressaltar algumas outras caracter\u00edsticas que guiam o desenho do HarpIA Lab:<\/p>\n<ul>\n<li><strong>agnosticismo em rela\u00e7\u00e3o ao LLM avaliado: <\/strong>este m\u00f3dulo pode ser usado para avaliar qualquer LLM, seja ele um modelo oferecido comercialmente ou um modelo de c\u00f3digo aberto operando em infraestrutura local. O processo de avalia\u00e7\u00e3o, que se destina \u00e0 aferi\u00e7\u00e3o de qualidade dos modelos, \u00e9 executado a partir de arquivos de entrada que cont\u00eam dados que expressam o comportamento do LLM sendo avaliado. Em situa\u00e7\u00f5es nas quais o m\u00f3dulo precisa interagir com o LLM, como \u00e9 o caso de avalia\u00e7\u00f5es do tipo \u201cataque\u201d, a comunica\u00e7\u00e3o ser\u00e1 implementada via \u201cgateway\u201d, de forma que a execu\u00e7\u00e3o do modelo fica desacoplada do m\u00f3dulo HarpIA Lab.<\/li>\n<li><strong>facilita\u00e7\u00e3o \u00e0 reprodutibilidade e auditoria<\/strong>: os resultados de uma avalia\u00e7\u00e3o realizada no m\u00f3dulo HarpIA Lab s\u00e3o documentados em arquivos do tipo JSON. Esses arquivos cont\u00e9m os dados que serviram de entrada do processo avaliativo, as escolhas realizadas pelo pesquisador quanto as m\u00e9tricas que devem ser consideradas na avalia\u00e7\u00e3o e os resultados obtidos (agregados ou por inst\u00e2ncia testada). O pesquisador \u00e9 encorajado a compartilhar esses arquivos como forma de proporcionar transpar\u00eancia aos dados inclu\u00eddos em suas publica\u00e7\u00f5es. Desta forma, os dados produzidos na avalia\u00e7\u00e3o podem ser usados como benchmark com seguran\u00e7a, uma vez que terceiros ter\u00e3o condi\u00e7\u00f5es de auditar ou reproduzir os dados que comp\u00f5em a avalia\u00e7\u00e3o.<\/li>\n<li><strong>economia de tempo e recursos<\/strong>: o m\u00f3dulo HarpIA Lab permite ao pesquisador economizar tempo e recursos necess\u00e1rios ao desenvolvimento de c\u00f3digo e reduz a ocorr\u00eancia em erros comuns na produ\u00e7\u00e3o de implementa\u00e7\u00f5es <em>ad hoc<\/em>.<\/li>\n<li><strong>facilita\u00e7\u00e3o \u00e0 an\u00e1lise comparativa<\/strong>: o HarpIA Lab pretende facilitar a compara\u00e7\u00e3o de diferentes modelos por meio dos resultados de suas avalia\u00e7\u00f5es. Essa compara\u00e7\u00e3o se dar\u00e1 por meio da an\u00e1lise de visualiza\u00e7\u00f5es e tamb\u00e9m por meio de procedimentos estat\u00edsticos empregados na literatura especializada, como indica o planejamento de releases descrito a seguir.<\/li>\n<\/ul>\n<hr \/>\n<p>Est\u00e1gio de desenvolvimento<\/p>\n<p><em>Vers\u00e3o 1<\/em>:<\/p>\n<p><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/05\/mai-25-Processo-lancamento.svg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-2124\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/05\/mai-25-Processo-lancamento.svg\" alt=\"\" width=\"644\" height=\"109\" \/><\/a><\/p>\n<p>Nesta vers\u00e3o, o HarpIA Lab oferece:<\/p>\n<ul>\n<li>uma interface web que facilita o fluxo de trabalho dentro do m\u00f3dulo;<\/li>\n<li>um conjunto de m\u00e9tricas de avalia\u00e7\u00e3o quantitativa, orientadas \u00e0 avalia\u00e7\u00e3o de capacidades de processamento de linguagem natural: BertScore, MoverScore, BLEU e METEOR.<\/li>\n<\/ul>\n<p>O fluxo de trabalho na vers\u00e3o 1 \u00e9 ilustrado na figura abaixo: o pesquisador prepara o conjunto de dados que expressam o comportamento do LLM em uma determinada tarefa. A seguir, o pesquisador submete os dados no formato esperado pela plataforma ao m\u00f3dulo HarpIA Lab e dispara a avalia\u00e7\u00e3o. A avalia\u00e7\u00e3o \u00e9 executada pela plataforma e, ao final, os resultados podem ser baixados pelo pesquisador para analis\u00e1-los usando ferramentas de sua prefer\u00eancia.<\/p>\n<p><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/04\/fluxo-de-trabalho-harpia-lab.svg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-2117\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/04\/fluxo-de-trabalho-harpia-lab.svg\" alt=\"\" width=\"644\" height=\"270\" \/><\/a><\/p>\n<p><em>Vers\u00e3o 2<\/em>:<\/p>\n<p><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/05\/Processo-desenvolvimento.svg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-2119\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/05\/Processo-desenvolvimento.svg\" alt=\"\" width=\"644\" height=\"109\" \/><\/a><\/p>\n<p>Na vers\u00e3o 2 ser\u00e3o oferecidas novas m\u00e9tricas quantitativas e m\u00e9tricas focadas na avalia\u00e7\u00e3o de gera\u00e7\u00e3o aumentada por recupera\u00e7\u00e3o (RAG \u2013 Retrieval Augmented Generation). Tamb\u00e9m ser\u00e3o oferecidos procedimentos de automa\u00e7\u00e3o de testes por ataque (no estilo de trabalho Red Team). Por fim, esta vers\u00e3o tamb\u00e9m contar\u00e1 com a implementa\u00e7\u00e3o de uma funcionalidade de gera\u00e7\u00e3o de gr\u00e1ficos, facilitando a condu\u00e7\u00e3o de an\u00e1lise explorat\u00f3ria de dados (EDA).<\/p>\n<p><em>Vers\u00e3o 3<\/em>:<\/p>\n<p><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/05\/Processo-pesquisa.svg\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-2122\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2025\/05\/Processo-pesquisa.svg\" alt=\"\" width=\"644\" height=\"108\" \/><\/a><\/p>\n<p>Na vers\u00e3o 3 ser\u00e3o oferecidos m\u00e9todos de valida\u00e7\u00e3o estat\u00edstica para proporcionar a compara\u00e7\u00e3o robusta entre dois ou mais LLMs, bem como melhorias na capacidade de visualiza\u00e7\u00e3o gr\u00e1fica dos resultados.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>O m\u00f3dulo\u00a0HarpIA Lab foi concebido para facilitar a avalia\u00e7\u00e3o de grandes modelos de linguagem (LLMs) de forma automatizada. O m\u00f3dulo coloca o processo de avalia\u00e7\u00e3o como foco de aten\u00e7\u00e3o, embora o desempenho de um LLM em uma certa tarefa seja o alvo da avalia\u00e7\u00e3o. Em outras palavras, o processo de avalia\u00e7\u00e3o \u00e9 integralmente desacoplado dos<a href=\"https:\/\/sites.usp.br\/keml\/harpia-lab\/\">[&#8230;]<\/a><\/p>\n","protected":false},"author":24022,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"inline_featured_image":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":"","_links_to":"","_links_to_target":""},"class_list":["post-1751","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/1751","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/users\/24022"}],"replies":[{"embeddable":true,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/comments?post=1751"}],"version-history":[{"count":4,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/1751\/revisions"}],"predecessor-version":[{"id":2330,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/1751\/revisions\/2330"}],"wp:attachment":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/media?parent=1751"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}