Lista de modelos otimizados para o português (variedades brasileira e europeia), com foco em arquiteturas de pelo menos 1 bilhão de parâmetros.
- Nome: Alpaca-LoRA-PTBR
- Data de lançamento: 2023-03-18
- Licença: Creative Commons Attribution 4.0
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 1
- Pesos: sim
- Variações: Alpaca-lora-ptbr-7b
- Dados de treinamento: Stanford Alpaca (traduzido automaticamente)
- Data de corte (dados): ≥ 2022-09
- API associada: —
- Chat online: —
- Equipe: Maicon Domingues
- Nome: Amália
- Data de lançamento: (futuro)
- Licença: (?)
- Variante do português: Portugal
- Tamanho: 9B
- Modelo base: (?)
- Pesos: (futuro)
- Variações: (?)
- Dados de treinamento: (?)
- Data de corte (dados): (?)
- API associada: (futuro)
- Chat online: —
- Equipe: Governo de Portugal, NOVA FCT, IST-UL
- Nome: Amazônia IA
- Data de lançamento: 2024-08-05
- Licença: Proprietária
- Variante do português: Brasil
- Tamanho: (confidencial)
- Modelo base: (?)
- Pesos: não
- Variações: —
- Dados de treinamento: (?)
- Data de corte (dados): (?)
- API associada: (futuro)
- Chat online: sim
- Equipe: Widelabs, Oracle, NVIDIA
- Nome: Bode
- Data de lançamento: 2023-10-11
- Licença: MIT
- Variante do português: Brasil
- Tamanho: 7B e 13B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Bode-7b-alpaca-pt-br, Bode-13b-alpaca-pt-br
- Dados de treinamento: Subconjunto em português do mC4
- Data de corte (dados): ≥ 2023-07
- API associada: —
- Chat online: —
- Equipe: Recogna
- Nome: Canarim Instruct
- Data de lançamento: 2023-11-17
- Licença: Llama 2 Community License
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Canarim-7B-Instruct
- Dados de treinamento: CC-MAIN-2023-23
- Data de corte (dados): ≥ 2023-07
- API associada: —
- Chat online: —
- Equipe: Maicon Domingues
- Nome: Canarim VestibulAide
- Data de lançamento: 2023-11-17
- Licença: Llama 2 Community License
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Canarim-7B-VestibulAide
- Dados de treinamento: Provas de vestibulares
- Data de corte (dados): ≥ 2023-07
- API associada: —
- Chat online: —
- Equipe: Maicon Domingues
- Nome: Carvalho_pt-gl
- Data de lançamento: 2024-03 até 2025-03
- Licença: Llama 3.1 Community License
- Variante do português: Galiza e Portugal
- Tamanho: 1.3B
- Modelo base: Cerebras-GPT
- Pesos: sim
- Variações: Llama-Carvalho-PT-GL, Carvalho_pt-gl-1.3B, Llama-Carvalho-PT, Llama-Carvalho-GL
- Dados de treinamento: CorpusNOS, BNE-gl, Arquivo.pt
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: CiTIUS e ILG-USC
- Nome: Cocoruta
- Data de lançamento: 2023-10-28
- Licença: Llama 2 Community License
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Cocoruta-7b
- Dados de treinamento: Legislação brasileira sobre meio ambiente
- Data de corte (dados): 2023
- API associada: —
- Chat online: —
- Equipe: KEML-C4AI (Felipe de Oliveira Espírito Santo)
- Nome: Cocoruta 2
- Data de lançamento: 2025-02-10
- Licença: Llama 3.1 Community License
- Variante do português: Brasil
- Tamanho: 8B
- Modelo base: Llama 3.1
- Pesos: sim
- Variações: Cororuta-2-8b
- Dados de treinamento: Legislação brasileira sobre meio ambiente
- Data de corte (dados): 2025
- API associada: —
- Chat online: —
- Equipe: KEML-C4AI (Felipe de Oliveira Espírito Santo)
- Nome: Gaia
- Data de lançamento: 2024-05
- Licença: Gemma
- Variante do português: Brasil
- Tamanho: 4B
- Modelo base: Femma 3 4B
- Pesos: sim
- Variações: Gemma-3-Gaia-PT-BR-4b-it
- Dados de treinamento: Artigos científicos e Wikipédia
- Data de corte (dados): 2024-09
- API associada: —
- Chat online: —
- Equipe: CEIA-UFG
- Nome: Gervásio 7B PTBR
- Data de lançamento: 2024-02-28
- Licença: MIT
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 2
- Pesos: sim
- Variações: Gervasio-7b-portuguese-ptbr-decoder
- Dados de treinamento: GLUE, SuperGLUE
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: Portulan Clarin
- Nome: Gervásio 8B PTPT
- Data de lançamento: 2025-06-11
- Licença: MIT
- Variante do português: Portugal
- Tamanho: 8B
- Modelo base: Lamma 3.1
- Pesos: sim
- Variações: Gervasio-8b-portuguese-ptpt-decoder
- Dados de treinamento: extraGLUE-Instruct, MMLU PT, Natural Instructions, Wikipedia, Proverbs
- Data de corte (dados): (?)
- API associada: —
- Chat online: sim
- Equipe: Portulan Clarin
- Nome: GlórIA
- Data de lançamento: 2024-02-26
- Licença: ClueWeb22 Dataset License
- Variante do português: Portugal
- Tamanho: 1.3B
- Modelo base: GPT-Neo
- Pesos: sim
- Variações: GlorIA-1.3B
- Dados de treinamento: ClueWeb22 PTPT, OSCAR PTPT, ArquivoPT, OpenSubtitles PTPT, PTWiki, EuroParl PTPT
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: Pesquisadores da NOVA FCT
- Nome: Juru
- Data de lançamento: 2025-06-29
- Licença: (?)
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Mistral
- Pesos: sim
- Variações: Juru-7B
- Dados de treinamento: Artigos acadêmicos do domínio legal brasileiro, dados do LexML, e documentos do STF
- Data de corte (dados): 2024
- API associada: —
- Chat online: —
- Equipe: Roseval Malaquias Junior
- Nome: L³M
- Data de lançamento: (futuro)
- Licença: Proprietária
- Variante do português: Brasil
- Tamanho: (?)
- Modelo base: (?)
- Pesos: não
- Variações: (?)
- Dados de treinamento: Escavador
- Data de corte (dados): (?)
- API associada: —
- Chat online: —
- Equipe: NeuralMind e Escavador
- Nome: openCabrita
- Data de lançamento: 2023-07-06
- Licença: Apache 2.0
- Variante do português: (?)
- Tamanho: 3B
- Modelo base: Llama 1
- Pesos: sim
- Variações: Open-cabrita3b
- Dados de treinamento: Subconjunto em português do mC4
- Data de corte (dados): ≥ 2022-09
- API associada: (futuro)
- Chat online: —
- Equipe: 22h
- Nome: Sabiá-3
- Data de lançamento: 2024-04
- Licença: Proprietária
- Variante do português: Brasil
- Tamanho: (confidencial)
- Modelo base: (confidencial)
- Pesos: não
- Variações: Sabia-3, Sabiazinho-3
- Dados de treinamento: Dados públicos da internet
- Data de corte (dados): 2023
- API associada: exige pagamento
- Chat online: sim
- Equipe: Maritaca AI
- Nome: Sabiá-3.1
- Data de lançamento: 2025-05
- Licença: Proprietária
- Variante do português: Brasil
- Tamanho: (confidencial)
- Modelo base: (confidencial)
- Pesos: não
- Variações: Sabia-3.1
- Dados de treinamento: Dados públicos da internet
- Data de corte (dados): 2024-08
- API associada: exige pagamento
- Chat online: sim
- Equipe: Maritaca AI
- Nome: Sabiá-7B
- Data de lançamento: 2023-11-08
- Licença: LLaMA License
- Variante do português: Brasil
- Tamanho: 7B
- Modelo base: Llama 1
- Pesos: sim
- Variações: Sabia-7b
- Dados de treinamento: ClueWeb22
- Data de corte (dados): 2022
- API associada: —
- Chat online: sim
- Equipe: Maritaca AI
- Nome: SoberanIA
- Data de lançamento: (futuro)
- Licença: (?)
- Variante do português: Brasil
- Tamanho: (?)
- Modelo base: (?)
- Pesos: (futuro)
- Variações: (?)
- Dados de treinamento: (?)
- Data de corte (dados): (?)
- API associada: (futuro)
- Chat online: (futuro)
- Equipe: Governo do Piauí
- Nome: Tucano
- Data de lançamento: 2024-11-07
- Licença: Apache 2.0
- Variante do português: Brasil
- Tamanho: 0.16B a 2B
- Modelo base: (?)
- Pesos: sim
- Variações: Tucano-1b1-Instruct, Tucano-2b4-Instruct
- Dados de treinamento: GigaVerbo
- Data de corte (dados): (?)
- API associada: —
- Chatonline: —
- Equipe: Tucano Project
Contribuidores:
- Vinícius Bitencourt Matos
- Arnaldo Candido Junior