Modelos de linguagem para português

31/08/2025

Lista de modelos otimizados para o português (variedades brasileira e europeia), com foco em arquiteturas de pelo menos 1 bilhão de parâmetros.


  • Nome: Alpaca-LoRA-PTBR
  • Data de lançamento: 2023-03-18
  • Licença: Creative Commons Attribution 4.0
  • Variante do português: Brasil
  • Tamanho: 7B
  • Modelo base: Llama 1
  • Pesos: sim
  • Variações: Alpaca-lora-ptbr-7b
  • Dados de treinamento: Stanford Alpaca (traduzido automaticamente)
  • Data de corte (dados): ≥ 2022-09
  • API associada: —
  • Chat online: —
  • Equipe: Maicon Domingues

volta ao topo

  • Nome: Amália
  • Data de lançamento: (futuro)
  • Licença: (?)
  • Variante do português: Portugal
  • Tamanho: 9B
  • Modelo base: (?)
  • Pesos: (futuro)
  • Variações: (?)
  • Dados de treinamento: (?)
  • Data de corte (dados): (?)
  • API associada: (futuro)
  • Chat online: —
  • Equipe: Governo de Portugal, NOVA FCT, IST-UL

volta ao topo

  • Nome: Amazônia IA
  • Data de lançamento: 2024-08-05
  • Licença: Proprietária
  • Variante do português: Brasil
  • Tamanho: (confidencial)
  • Modelo base: (?)
  • Pesos: não
  • Variações: —
  • Dados de treinamento: (?)
  • Data de corte (dados): (?)
  • API associada: (futuro)
  • Chat online: sim
  • Equipe: Widelabs, Oracle, NVIDIA

volta ao topo

  • Nome: Bode
  • Data de lançamento: 2023-10-11
  • Licença: MIT
  • Variante do português: Brasil
  • Tamanho: 7B e 13B
  • Modelo base: Llama 2
  • Pesos: sim
  • Variações: Bode-7b-alpaca-pt-br, Bode-13b-alpaca-pt-br
  • Dados de treinamento: Subconjunto em português do mC4
  • Data de corte (dados): ≥ 2023-07
  • API associada: —
  • Chat online: —
  • Equipe: Recogna

volta ao topo

  • Nome: Canarim Instruct
  • Data de lançamento: 2023-11-17
  • Licença: Llama 2 Community License
  • Variante do português: Brasil
  • Tamanho: 7B
  • Modelo base: Llama 2
  • Pesos: sim
  • Variações: Canarim-7B-Instruct
  • Dados de treinamento: CC-MAIN-2023-23
  • Data de corte (dados): ≥ 2023-07
  • API associada: —
  • Chat online: —
  • Equipe: Maicon Domingues

volta ao topo

  • Nome: Canarim VestibulAide
  • Data de lançamento: 2023-11-17
  • Licença: Llama 2 Community License
  • Variante do português: Brasil
  • Tamanho: 7B
  • Modelo base: Llama 2
  • Pesos: sim
  • Variações: Canarim-7B-VestibulAide
  • Dados de treinamento: Provas de vestibulares
  • Data de corte (dados): ≥ 2023-07
  • API associada: —
  • Chat online: —
  • Equipe: Maicon Domingues

volta ao topo

  • Nome: Carvalho_pt-gl
  • Data de lançamento: 2024-03 até 2025-03
  • Licença: Llama 3.1 Community License
  • Variante do português: Galiza e Portugal
  • Tamanho: 1.3B
  • Modelo base: Cerebras-GPT
  • Pesos: sim
  • Variações: Llama-Carvalho-PT-GL, Carvalho_pt-gl-1.3B, Llama-Carvalho-PT, Llama-Carvalho-GL
  • Dados de treinamento: CorpusNOS, BNE-gl, Arquivo.pt
  • Data de corte (dados): (?)
  • API associada: —
  • Chat online: —
  • Equipe: CiTIUS e ILG-USC

volta ao topo

  • Nome: Cocoruta
  • Data de lançamento: 2023-10-28
  • Licença: Llama 2 Community License
  • Variante do português: Brasil
  • Tamanho: 7B
  • Modelo base: Llama 2
  • Pesos: sim
  • Variações: Cocoruta-7b
  • Dados de treinamento: Legislação brasileira sobre meio ambiente
  • Data de corte (dados): 2023
  • API associada: —
  • Chat online: —
  • Equipe: KEML-C4AI (Felipe de Oliveira Espírito Santo)

volta ao topo

  • Nome: Cocoruta 2
  • Data de lançamento: 2025-02-10
  • Licença: Llama 3.1 Community License
  • Variante do português: Brasil
  • Tamanho: 8B
  • Modelo base: Llama 3.1
  • Pesos: sim
  • Variações: Cororuta-2-8b
  • Dados de treinamento: Legislação brasileira sobre meio ambiente
  • Data de corte (dados): 2025
  • API associada: —
  • Chat online: —
  • Equipe: KEML-C4AI (Felipe de Oliveira Espírito Santo)

volta ao topo

  • Nome: Gaia
  • Data de lançamento: 2024-05
  • Licença: Gemma
  • Variante do português: Brasil
  • Tamanho: 4B
  • Modelo base: Femma 3 4B
  • Pesos: sim
  • Variações: Gemma-3-Gaia-PT-BR-4b-it
  • Dados de treinamento: Artigos científicos e Wikipédia
  • Data de corte (dados): 2024-09
  • API associada: —
  • Chat online: —
  • Equipe: CEIA-UFG

volta ao topo

  • Nome: Gervásio 7B PTBR
  • Data de lançamento: 2024-02-28
  • Licença: MIT
  • Variante do português: Brasil
  • Tamanho: 7B
  • Modelo base: Llama 2
  • Pesos: sim
  • Variações: Gervasio-7b-portuguese-ptbr-decoder
  • Dados de treinamento: GLUE, SuperGLUE
  • Data de corte (dados): (?)
  • API associada: —
  • Chat online: —
  • Equipe: Portulan Clarin

volta ao topo

  • Nome: Gervásio 8B PTPT
  • Data de lançamento: 2025-06-11
  • Licença: MIT
  • Variante do português: Portugal
  • Tamanho: 8B
  • Modelo base: Lamma 3.1
  • Pesos: sim
  • Variações: Gervasio-8b-portuguese-ptpt-decoder
  • Dados de treinamento: extraGLUE-Instruct, MMLU PT, Natural Instructions, Wikipedia, Proverbs
  • Data de corte (dados): (?)
  • API associada: —
  • Chat online: sim
  • Equipe: Portulan Clarin

volta ao topo

  • Nome: GlórIA
  • Data de lançamento: 2024-02-26
  • Licença: ClueWeb22 Dataset License
  • Variante do português: Portugal
  • Tamanho: 1.3B
  • Modelo base: GPT-Neo
  • Pesos: sim
  • Variações: GlorIA-1.3B
  • Dados de treinamento: ClueWeb22 PTPT, OSCAR PTPT, ArquivoPT, OpenSubtitles PTPT, PTWiki, EuroParl PTPT
  • Data de corte (dados): (?)
  • API associada: —
  • Chat online: —
  • Equipe: Pesquisadores da NOVA FCT

volta ao topo

  • Nome: Juru
  • Data de lançamento: 2025-06-29
  • Licença: (?)
  • Variante do português: Brasil
  • Tamanho: 7B
  • Modelo base: Mistral
  • Pesos: sim
  • Variações: Juru-7B
  • Dados de treinamento: Artigos acadêmicos do domínio legal brasileiro, dados do LexML, e documentos do STF
  • Data de corte (dados): 2024
  • API associada: —
  • Chat online: —
  • Equipe: Roseval Malaquias Junior

volta ao topo

  • Nome: L³M
  • Data de lançamento: (futuro)
  • Licença: Proprietária
  • Variante do português: Brasil
  • Tamanho: (?)
  • Modelo base: (?)
  • Pesos: não
  • Variações: (?)
  • Dados de treinamento: Escavador
  • Data de corte (dados): (?)
  • API associada: —
  • Chat online: —
  • Equipe: NeuralMind e Escavador

volta ao topo

  • Nome: openCabrita
  • Data de lançamento: 2023-07-06
  • Licença: Apache 2.0
  • Variante do português: (?)
  • Tamanho: 3B
  • Modelo base: Llama 1
  • Pesos: sim
  • Variações: Open-cabrita3b
  • Dados de treinamento: Subconjunto em português do mC4
  • Data de corte (dados): ≥ 2022-09
  • API associada: (futuro)
  • Chat online: —
  • Equipe: 22h

volta ao topo

  • Nome: Sabiá-3
  • Data de lançamento: 2024-04
  • Licença: Proprietária
  • Variante do português: Brasil
  • Tamanho: (confidencial)
  • Modelo base: (confidencial)
  • Pesos: não
  • Variações: Sabia-3, Sabiazinho-3
  • Dados de treinamento: Dados públicos da internet
  • Data de corte (dados): 2023
  • API associada: exige pagamento
  • Chat online: sim
  • Equipe: Maritaca AI

volta ao topo

  • Nome: Sabiá-3.1
  • Data de lançamento: 2025-05
  • Licença: Proprietária
  • Variante do português: Brasil
  • Tamanho: (confidencial)
  • Modelo base: (confidencial)
  • Pesos: não
  • Variações: Sabia-3.1
  • Dados de treinamento: Dados públicos da internet
  • Data de corte (dados): 2024-08
  • API associada: exige pagamento
  • Chat online: sim
  • Equipe: Maritaca AI

volta ao topo

  • Nome: Sabiá-7B
  • Data de lançamento: 2023-11-08
  • Licença: LLaMA License
  • Variante do português: Brasil
  • Tamanho: 7B
  • Modelo base: Llama 1
  • Pesos: sim
  • Variações: Sabia-7b
  • Dados de treinamento: ClueWeb22
  • Data de corte (dados): 2022
  • API associada: —
  • Chat online: sim
  • Equipe: Maritaca AI

volta ao topo

  • Nome: SoberanIA
  • Data de lançamento: (futuro)
  • Licença: (?)
  • Variante do português: Brasil
  • Tamanho: (?)
  • Modelo base: (?)
  • Pesos: (futuro)
  • Variações: (?)
  • Dados de treinamento: (?)
  • Data de corte (dados): (?)
  • API associada: (futuro)
  • Chat online: (futuro)
  • Equipe: Governo do Piauí

volta ao topo

  • Nome: Tucano
  • Data de lançamento: 2024-11-07
  • Licença: Apache 2.0
  • Variante do português: Brasil
  • Tamanho: 0.16B a 2B
  • Modelo base: (?)
  • Pesos: sim
  • Variações: Tucano-1b1-Instruct, Tucano-2b4-Instruct
  • Dados de treinamento: GigaVerbo
  • Data de corte (dados): (?)
  • API associada: —
  • Chatonline: —
  • Equipe: Tucano Project

volta ao topo

Contribuidores:

  • Vinícius Bitencourt Matos
  • Arnaldo Candido Junior