官网介绍
星辰语义大模型-TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,开源于OpenI-启智AI开源社区。该模型系列包括TeleChat-7B和TeleChat-12B两个版本,以及对应的int8和int4量化版本。7B模型基座采用1.5万亿Tokens中英文高质量语料进行训练,12B模型基座采用3万亿Tokens中英文高质量语料进行训练。TeleChat模型采用标准的Decoder-only结构设计,在位置编码、激活函数、层标准化等方面进行了多项技术创新,具备强大的自然语言理解与生成能力。
核心功能特点
多版本与量化支持
提供7B和12B两种规模的模型,以及int8和int4量化版本,满足不同算力环境需求。12B版本在模型结构、训练数据、训练方法等方面进行了改进,相比7B版本在通用问答和知识类、代码类、数学类榜单上均有大幅提升。
长文本处理能力
支持8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务上表现优异。
国产化适配支持
已完成昇腾Atlas 300I Pro推理卡的推理适配,支持int8量化能力;同时支持昇腾Atlas 800T A2训练服务器,可基于昇思MindSpore框架和PyTorch框架进行模型训练和推理,性能与效果均对齐A100。
数据开源与处理
开源TeleChat-PTD数据集,包含约2.7亿条中文数据,原始大小约1TB,压缩后480G。数据经过规则筛选、去重、高质量筛选和安全处理等多步清洗流程,确保数据质量。
灵活部署与推理
支持单卡和多卡推理,提供API和Web两种部署方式,满足不同场景需求。兼容Hugging Face生态,提供简洁的推理代码示例,便于快速上手使用。
模型微调支持
开源基于deepspeed的训练代码,支持Zero并行显存优化,集成FlashAttention2,支持单机和多机训练。提供数据处理工具,支持单轮和多轮数据格式,可灵活配置数据配比。
应用场景
- 工作计划生成:根据用户提供的关键信息,自动生成结构完善、内容详实的项目计划,包括市场分析、开发路线图、资源需求等。
- 周报撰写:帮助算法工程师等职业人员快速生成专业的周报,总结工作成果、问题及后续计划,语言简洁专业。
- 辅助编程:支持多种编程语言代码生成,如使用Spring Cloud Feign框架实现远程调用功能,提供清晰的代码示例和使用说明。
- 数学计算:能够解决数学问题,如鸡兔同笼等经典问题,通过建立方程并逐步求解,提供详细的解题过程。
- 安全问答:对涉及医疗、暴力等敏感问题能够进行安全拒识和正确引导,提供合理建议,避免不当内容生成。
- 相似问生成:根据用户提供的问题,生成意思相同但表述不同的相似问题,可用于数据增强、测试等场景。
- 表格生成:将用户提供的结构化数据自动转换为规范的表格形式,方便数据展示和分析。
- 阅读理解:对给定文本进行深度理解,准确回答相关问题,如分析文学作品的情感表达和创作背景。
优势
TeleChat模型相比同规模模型具有多方面优势:在性能上,在MMLU、C-Eval、CMMLU等多个权威评测集上表现优异,12B版本MMLU达到73.3分,超过众多同规模模型;在功能上,支持长文本处理、多轮对话、代码生成等多种能力;在部署上,提供多种量化版本和部署方式,适配不同算力环境;在国产化方面,全面支持昇腾芯片和国内AI框架,满足国产化需求;在生态上,开源训练数据、代码和模型权重,提供完善的文档和示例,便于开发者使用和二次开发。
价值总结
TeleChat模型的核心价值在于为用户提供高性能、低成本、易部署的大语言模型解决方案。通过开源模型和数据,降低了大模型应用的技术门槛,使更多企业和开发者能够利用先进的AI技术提升工作效率。模型的长文本处理能力和多轮对话支持,能够满足办公、创作、教育等多种场景需求。国产化适配则为国内用户提供了安全可控的AI基础设施选择,有助于推动AI技术在各行业的广泛应用,促进数字化转型和智能化升级。
用户体验与优势
TeleChat模型注重用户体验,提供简洁易用的API和Web界面,用户可以快速上手进行模型推理和部署。模型响应速度快,生成内容质量高,能够准确理解用户意图并提供有价值的结果。开源社区提供了丰富的教程和示例,帮助用户解决使用过程中遇到的问题。同时,模型支持多轮对话,能够保持上下文连贯性,提升交互体验。灵活的部署选项和量化版本,使用户可以根据自身硬件条件选择合适的方案,降低使用成本。
技术优势
TeleChat模型在技术层面具有多项优势:采用Rotary Embedding位置编码,具有较好的位置外推性,可与Flash-Attention v2配合提升训练速度约20%;使用SwiGLU激活函数替代GELU,在减少计算量的同时提升模型性能;采用基于RMSNorm的Pre-Normalization层标准化方法;12B模型采用词嵌入层与输出层解耦结构,增强训练稳定性和收敛性。训练方法上,使用科学数据配比学习与课程学习,动态调整数据集权重,保证模型在各数据集上的拟合效果。分词器采用BBPE算法,词表大小为160256,支持中英双语处理,分词效率高。量化方案基于AutoGPTQ,提供Int8和Int4量化模型,在保证性能的同时降低显存占用。




京公网安备 京ICP备17006096号-3