Mesh Transformer JAX:高效的转换器语言模型并行实现
Mesh Transformer JAX 是一个专为大型转换器模型并行而设计的库,使用 JAX 实现高效的模型并行策略,支持在TPU上运行高达数十亿参数的语言模型。
GPT-2:自然语言处理领域的新突破
GPT-2是一种先进的自然语言处理模型,它通过在大规模WebText数据集上进行无监督训练,展现了在多个NLP任务上的卓越性能和通用性。
Falcon-40B-Instruct 4bit GPTQ:在保持模型性能的同时减少计算资源的消耗
Falcon-40B-Instruct 4bit GPTQ是一款实验性的AI模型,通过AutoGPTQ技术实现4比特量化,优化了模型的计算效率和资源消耗。
CodeGeeX:多语言代码生成模型
CodeGeeX是一个基于华为MindSpore框架开发的多语言代码生成模型,具备130亿参数。
BLOOMChat:多语言支持、可商用的聊天模型
BLOOMChat是一款开源、支持多语言、可商用的大语言模型,旨在提供优质的多语言对话支持,适用于各种商业和学术环境。
Baize:适用于各种对话场景的聊天模型
Baize是一款利用自我对话数据和LoRA技术训练的开源聊天模型,支持多种语言,适用于各种对话场景。
Stanford Alpaca:遵循指令的LLaMA模型
Stanford Alpaca是斯坦福大学开发的遵循指令的LLaMA模型,通过微调已有的大规模语言模型并利用新生成的指令数据,提供了一个强大的、可复现的研究工具,专为高效执行广泛的AI任务而设计。
Qwen-7B:超大规模语言模型
阿里云Qwen-7B是一款基于Transformer的超大规模70亿参数语言模型,专为多语言理解与生成、长文本处理和高效编码而设计。
MiLM-6B:小米的64亿参数语言模型
MiLM-6B是小米开发的64亿参数的大规模预训练语言模型,特别在中文语境的知识和推理能力评估中表现卓越,适用于广泛的中文处理任务。
Metaseq:多功能开源转换器模型代码库
Metaseq是一个开源的代码库,专为支持开放预训练转换器模型而设计,提供多种工具和集成选项,帮助用户高效训练和部署大规模语言模型。
Llama 2:开放大规模语言模型的最新进展
Llama 2是Meta开发的一款功能强大的大规模语言模型,提供从7B到70B参数的不同版本,适用于广泛的语言处理任务,帮助用户负责任地扩展和创新。
Lit-LLaMA:开放源码的LLaMA实现探索
Lit-LLaMA是一个完全开源的LLaMA模型实现,旨在提供一个不受GPL限制的、高性能的语言模型方案,适用于广泛的AI应用和研究。