Lista de modelos otimizados para o português (variedades brasileira e europeia), com foco em arquiteturas de pelo menos 1 bilhão de parâmetros.
Quando apropriado, os modelos estão agrupados por “famílias”. As informações apresentadas sobre cada modelo incluem: nome, data de lançamento, licença, variante do português, tamanho, modelo base, pesos, variações, dados de treinamento, data de corte dos dados, API associada, chat online, equipe de desenvolvimento.
Clique no nome da família para acessar as informações de cada variante de modelo de linguagem.
Alpaca-LoRA-PTBR
- Nome: Alpaca-LoRA-PTBR
- Data de lançamento: 2023-03-18
- Licença: Creative Commons Attribution 4.0
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 1
- Pesos: sim
- Variações: Alpaca-lora-ptbr-7b
- Dados de treinamento: Stanford Alpaca (traduzido automaticamente)
- Data de corte (dados): ≥ 2022-09
- API associada: —
- Chat online: —
- Equipe: Maicon Domingues
Amália
- Nome: Amália
- Data de lançamento: (futuro)
- Licença: (?)
- Variante do português: Portugal
- Tamanho: 9B
- Modelo base: (?)
- Pesos: (futuro)
- Variações: (?)
- Dados de treinamento: (?)
- Data de corte (dados): (?)
- API associada: (futuro)
- Chat online: —
- Equipe: Governo de Portugal, NOVA FCT, IST-UL
Amazônia IA
- Nome: Amazônia IA
- Data de lançamento: 2024-08-05
- Licença: Proprietária
- Variante do português: Brasil
- Tamanho: (confidencial)
- Modelo base: (?)
- Pesos: não
- Variações: —
- Dados de treinamento: (?)
- Data de corte (dados): (?)
- API associada: (futuro)
- Chat online: sim
- Equipe: Widelabs, Oracle, NVIDIA
Bode
- Nome: Bode
- Data de lançamento: 2023-10-11
- Licença: MIT
- Variante do português: Brasil
- Tamanho: 7B e 13B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Bode-7b-alpaca-pt-br, Bode-13b-alpaca-pt-br
- Dados de treinamento: Subconjunto em português do mC4
- Data de corte (dados): ≥ 2023-07
- API associada: —
- Chat online: —
- Equipe: Recogna
Canarim
Canarim Instruct
- Nome: Canarim Instruct
- Data de lançamento: 2023-11-17
- Licença: Llama 2 Community License
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Canarim-7B-Instruct
- Dados de treinamento: CC-MAIN-2023-23
- Data de corte (dados): ≥ 2023-07
- API associada: —
- Chat online: —
- Equipe: Maicon Domingues
Canarim VestibulAide
- Nome: Canarim VestibulAide
- Data de lançamento: 2023-11-17
- Licença: Llama 2 Community License
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Canarim-7B-VestibulAide
- Dados de treinamento: Provas de vestibulares
- Data de corte (dados): ≥ 2023-07
- API associada: —
- Chat online: —
- Equipe: Maicon Domingues
Carvalho_pt-gl
- Nome: Carvalho_pt-gl
- Data de lançamento: 2024-03 até 2025-03
- Licença: Llama 3.1 Community License
- Variante do português: Galiza e Portugal
- Tamanho: 1.3B
- Modelo base: Cerebras-GPT
- Pesos: sim
- Variações: Llama-Carvalho-PT-GL, Carvalho_pt-gl-1.3B, Llama-Carvalho-PT, Llama-Carvalho-GL
- Dados de treinamento: CorpusNOS, BNE-gl, Arquivo.pt
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: CiTIUS e ILG-USC
Cocoruta
Cocoruta
- Nome: Cocoruta
- Data de lançamento: 2023-10-28
- Licença: Llama 2 Community License
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Cocoruta-7b
- Dados de treinamento: Legislação brasileira sobre meio ambiente
- Data de corte (dados): 2023
- API associada: —
- Chat online: —
- Equipe: KEML-C4AI (Felipe de Oliveira Espírito Santo)
Cocoruta 2
- Nome: Cocoruta 2
- Data de lançamento: 2025-02-10
- Licença: Llama 3.1 Community License
- Variante do português: Brasil
- Tamanho: 8B
- Modelo base: Llama 3.1
- Pesos: sim
- Variações: Cororuta-2-8b
- Dados de treinamento: Legislação brasileira sobre meio ambiente
- Data de corte (dados): 2025
- API associada: —
- Chat online: —
- Equipe: KEML-C4AI (Felipe de Oliveira Espírito Santo)
Gaia
- Nome: Gaia
- Data de lançamento: 2024-05
- Licença: Gemma
- Variante do português: Brasil
- Tamanho: 4B
- Modelo base: Femma 3 4B
- Pesos: sim
- Variações: Gemma-3-Gaia-PT-BR-4b-it
- Dados de treinamento: Artigos científicos e Wikipédia
- Data de corte (dados): 2024-09
- API associada: —
- Chat online: —
- Equipe: CEIA-UFG
Gervásio
Gervásio 7B PTBR
- Nome: Gervásio 7B PTBR
- Data de lançamento: 2024-02-28
- Licença: MIT
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Gervasio-7b-portuguese-ptbr-decoder
- Dados de treinamento: GLUE, SuperGLUE
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: Portulan Clarin
Gervásio 8B PTPT
- Nome: Gervásio 8B PTPT
- Data de lançamento: 2025-06-11
- Licença: MIT
- Variante do português: Portugal
- Tamanho: 8B
- Modelo base: Lamma 3.1
- Pesos: sim
- Variações: Gervasio-8b-portuguese-ptpt-decoder
- Dados de treinamento: extraGLUE-Instruct, MMLU PT, Natural Instructions, Wikipedia, Proverbs
- Data de corte (dados): (?)
- API associada: —
- Chat online: sim
- Equipe: Portulan Clarin
Glória
- Nome: GlórIA
- Data de lançamento: 2024-02-26
- Licença: ClueWeb22 Dataset License
- Variante do português: Portugal
- Tamanho: 1.3B
- Modelo base: GPT-Neo
- Pesos: sim
- Variações: GlorIA-1.3B
- Dados de treinamento: ClueWeb22 PTPT, OSCAR PTPT, ArquivoPT, OpenSubtitles PTPT, PTWiki, EuroParl PTPT
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: Pesquisadores da NOVA FCT
Juru
- Nome: Juru
- Data de lançamento: 2025-06-29
- Licença: (?)
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Mistral
- Pesos: sim
- Variações: Juru-7B
- Dados de treinamento: Artigos acadêmicos do domínio legal brasileiro, dados do LexML, e documentos do STF
- Data de corte (dados): 2024
- API associada: —
- Chat online: —
- Equipe: Roseval Malaquias Junior
L³M
- Nome: L³M
- Data de lançamento: (futuro)
- Licença: Proprietária
- Variante do português: Brasil
- Tamanho: (?)
- Modelo base: (?)
- Pesos: não
- Variações: (?)
- Dados de treinamento: Escavador
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: NeuralMind e Escavador
openCabrita
- Nome: openCabrita
- Data de lançamento: 2023-07-06
- Licença: Apache 2.0
- Variante do português: (?)
- Tamanho: 3B
- Modelo base: Llama 1
- Pesos: sim
- Variações: Open-cabrita3b
- Dados de treinamento: Subconjunto em português do mC4
- Data de corte (dados): ≥ 2022-09
- API associada: (futuro)
- Chat online: —
- Equipe: 22h
Sabiá
Sabiá-3
- Nome: Sabiá-3
- Data de lançamento: 2024-04
- Licença: Proprietária
- Variante do português: Brasil
- Tamanho: (confidencial)
- Modelo base: (confidencial)
- Pesos: não
- Variações: Sabia-3, Sabiazinho-3
- Dados de treinamento: Dados públicos da internet
- Data de corte (dados): 2023
- API associada: exige pagamento
- Chat online: sim
- Equipe: Maritaca AI
Sabiá-3.1
- Nome: Sabiá-3.1
- Data de lançamento: 2025-05
- Licença: Proprietária
- Variante do português: Brasil
- Tamanho: (confidencial)
- Modelo base: (confidencial)
- Pesos: não
- Variações: Sabia-3.1
- Dados de treinamento: Dados públicos da internet
- Data de corte (dados): 2024-08
- API associada: exige pagamento
- Chat online: sim
- Equipe: Maritaca AI
Sabiá-7B
- Nome: Sabiá-7B
- Data de lançamento: 2023-11-08
- Licença: LLaMA License
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 1
- Pesos: sim
- Variações: Sabia-7b
- Dados de treinamento: ClueWeb22
- Data de corte (dados): 2022
- API associada: —
- Chat online: sim
- Equipe: Maritaca AI
SoberanIA
- Nome: SoberanIA
- Data de lançamento: (futuro)
- Licença: (?)
- Variante do português: Brasil
- Tamanho: (?)
- Modelo base: (?)
- Pesos: (futuro)
- Variações: (?)
- Dados de treinamento: (?)
- Data de corte (dados): (?)
- API associada: (futuro)
- Chat online: (futuro)
- Equipe: Governo do Piauí
Tucano
- Nome: Tucano
- Data de lançamento: 2024-11-07
- Licença: Apache 2.0
- Variante do português: Brasil
- Tamanho: 0.16B a 2B
- Modelo base: (?)
- Pesos: sim
- Variações: Tucano-1b1-Instruct, Tucano-2b4-Instruct
- Dados de treinamento: GigaVerbo
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: Tucano Project
Contribuidores:
- Vinícius Bitencourt Matos
- Arnaldo Candido Junior
