Qwen
Tipus | bot de conversa i model de llenguatge extens ![]() |
---|---|
Equip | |
Desenvolupador(s) | Alibaba Cloud (en) ![]() ![]() |
Més informació | |
Lloc web | tongyi.aliyun.com (xinès simplificat) ![]() |
Blog | Blog oficial ![]() |
| |
Qwen (també anomenat Tongyi Qianwen, en xinès 通义千问) és una família de models de llenguatge extens desenvolupats per Alibaba Cloud. El juliol de 2024, es va classificar com el millor model de llengua xinesa en alguns punts de referència i el tercer a nivell mundial per darrere dels millors models d'Anthropic i OpenAI.[1]
Models
[modifica]Alibaba va llançar per primera vegada una versió beta de Qwen l'abril de 2023 amb el nom de Tongyi Qianwen. El model es basava en el LLM Llama desenvolupat per Meta AI, amb diverses modificacions. Va ser llançat públicament el setembre de 2023 després de rebre l'aprovació del govern xinès. El desembre de 2023 va llançar els seus models 72B i 1.8B com a codi obert, mentre que el Qwen 7B va ser de codi obert a l'agost.[2]
El juny de 2024 Alibaba va llançar Qwen 2 i al setembre va llançar alguns dels seus models com a codi obert, tot mantenint els seus models més avançats en propietat. Qwen 2 empra una barreja d'experts.
El novembre de 2024, QwQ-32B-Preview, un model centrat en el raonament similar a l'o1 d'OpenAI es va publicar sota la llicència Apache 2.0, encara que només es van publicar els pesos, no el conjunt de dades o el mètode d'entrenament. QwQ té una longitud de context de 32.000 testimonis i funciona millor que o1 en alguns punts de referència.[3]
La sèrie Qwen-Vl és una línia de models de llenguatge visual que combina un transformador de visió amb un LLM. Alibaba va llançar Qwen-VL2 amb variants de 2.000 milions i 7.000 milions de paràmetres. Qwen-vl-max és el model de visió insígnia d'Alibaba a partir del 2024 i Alibaba Cloud ven a un cost de 0,00041 dòlars per cada mil fitxes d'entrada.
Alibaba ha llançat altres tipus de models, com ara Qwen-Audio i Qwen2-Math. En total, ha llançat més de 100 models com a codi obert, amb els seus models descarregats més de 40 milions de vegades. Les versions amb afinament de Qwen han estat desenvolupades per entusiastes, com ara "Liberated Qwen", desenvolupada per Abacus AI, amb seu a San Francisco, que és una versió que respon a qualsevol sol·licitud d'usuari sense restriccions de contingut.
El gener de 2025, Alibaba va llançar Qwen 2.5-Max, el seu model més recent i potent fins ara. Segons una publicació de bloc d'Alibaba, Qwen 2.5-Max supera altres models de base com ara GPT-4o, DeepSeek-V3 i Llama-3.1-405B en punts de referència clau.[4]
Referències
[modifica]- ↑ «Alibaba releases AI model it says surpasses DeepSeek» (en anglès). [Consulta: 4 febrer 2025].
- ↑ MBA, Tor Constantino. «Alibaba Unveils Qwen 2.5: A DeepSeek Rival?» (en anglès). [Consulta: 4 febrer 2025].
- ↑ «Alibaba introduces Qwen 2.5-Max AI model, claims edge over DeepSeek» (en anglès). [Consulta: 4 febrer 2025].
- ↑ Wiggers, Kyle. «Alibaba's Qwen team releases AI models that can control PCs and phones» (en anglès americà), 27-01-2025. [Consulta: 4 febrer 2025].