AI大模型AI训练模型

星辰语义大模型

中国电信开源的语义大模型

标签:

官网介绍

星辰语义大模型-TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,开源于OpenI-启智AI开源社区。该模型系列包括TeleChat-7B和TeleChat-12B两个版本,以及对应的int8和int4量化版本。7B模型基座采用1.5万亿Tokens中英文高质量语料进行训练,12B模型基座采用3万亿Tokens中英文高质量语料进行训练。TeleChat模型采用标准的Decoder-only结构设计,在位置编码、激活函数、层标准化等方面进行了多项技术创新,具备强大的自然语言理解与生成能力。

星辰语义大模型 工具图片

核心功能特点

多版本与量化支持

提供7B和12B两种规模的模型,以及int8和int4量化版本,满足不同算力环境需求。12B版本在模型结构、训练数据、训练方法等方面进行了改进,相比7B版本在通用问答和知识类、代码类、数学类榜单上均有大幅提升。

长文本处理能力

支持8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务上表现优异。

国产化适配支持

已完成昇腾Atlas 300I Pro推理卡的推理适配,支持int8量化能力;同时支持昇腾Atlas 800T A2训练服务器,可基于昇思MindSpore框架和PyTorch框架进行模型训练和推理,性能与效果均对齐A100。

数据开源与处理

开源TeleChat-PTD数据集,包含约2.7亿条中文数据,原始大小约1TB,压缩后480G。数据经过规则筛选、去重、高质量筛选和安全处理等多步清洗流程,确保数据质量。

灵活部署与推理

支持单卡和多卡推理,提供API和Web两种部署方式,满足不同场景需求。兼容Hugging Face生态,提供简洁的推理代码示例,便于快速上手使用。

模型微调支持

开源基于deepspeed的训练代码,支持Zero并行显存优化,集成FlashAttention2,支持单机和多机训练。提供数据处理工具,支持单轮和多轮数据格式,可灵活配置数据配比。

应用场景

  • 工作计划生成:根据用户提供的关键信息,自动生成结构完善、内容详实的项目计划,包括市场分析、开发路线图、资源需求等。
  • 周报撰写:帮助算法工程师等职业人员快速生成专业的周报,总结工作成果、问题及后续计划,语言简洁专业。
  • 辅助编程:支持多种编程语言代码生成,如使用Spring Cloud Feign框架实现远程调用功能,提供清晰的代码示例和使用说明。
  • 数学计算:能够解决数学问题,如鸡兔同笼等经典问题,通过建立方程并逐步求解,提供详细的解题过程。
  • 安全问答:对涉及医疗、暴力等敏感问题能够进行安全拒识和正确引导,提供合理建议,避免不当内容生成。
  • 相似问生成:根据用户提供的问题,生成意思相同但表述不同的相似问题,可用于数据增强、测试等场景。
  • 表格生成:将用户提供的结构化数据自动转换为规范的表格形式,方便数据展示和分析。
  • 阅读理解:对给定文本进行深度理解,准确回答相关问题,如分析文学作品的情感表达和创作背景。

优势

TeleChat模型相比同规模模型具有多方面优势:在性能上,在MMLU、C-Eval、CMMLU等多个权威评测集上表现优异,12B版本MMLU达到73.3分,超过众多同规模模型;在功能上,支持长文本处理、多轮对话、代码生成等多种能力;在部署上,提供多种量化版本和部署方式,适配不同算力环境;在国产化方面,全面支持昇腾芯片和国内AI框架,满足国产化需求;在生态上,开源训练数据、代码和模型权重,提供完善的文档和示例,便于开发者使用和二次开发。

价值总结

TeleChat模型的核心价值在于为用户提供高性能、低成本、易部署的大语言模型解决方案。通过开源模型和数据,降低了大模型应用的技术门槛,使更多企业和开发者能够利用先进的AI技术提升工作效率。模型的长文本处理能力和多轮对话支持,能够满足办公、创作、教育等多种场景需求。国产化适配则为国内用户提供了安全可控的AI基础设施选择,有助于推动AI技术在各行业的广泛应用,促进数字化转型和智能化升级。

用户体验与优势

TeleChat模型注重用户体验,提供简洁易用的API和Web界面,用户可以快速上手进行模型推理和部署。模型响应速度快,生成内容质量高,能够准确理解用户意图并提供有价值的结果。开源社区提供了丰富的教程和示例,帮助用户解决使用过程中遇到的问题。同时,模型支持多轮对话,能够保持上下文连贯性,提升交互体验。灵活的部署选项和量化版本,使用户可以根据自身硬件条件选择合适的方案,降低使用成本。

技术优势

TeleChat模型在技术层面具有多项优势:采用Rotary Embedding位置编码,具有较好的位置外推性,可与Flash-Attention v2配合提升训练速度约20%;使用SwiGLU激活函数替代GELU,在减少计算量的同时提升模型性能;采用基于RMSNorm的Pre-Normalization层标准化方法;12B模型采用词嵌入层与输出层解耦结构,增强训练稳定性和收敛性。训练方法上,使用科学数据配比学习与课程学习,动态调整数据集权重,保证模型在各数据集上的拟合效果。分词器采用BBPE算法,词表大小为160256,支持中英双语处理,分词效率高。量化方案基于AutoGPTQ,提供Int8和Int4量化模型,在保证性能的同时降低显存占用。

数据评估

星辰语义大模型浏览人数已经达到6833,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入; 以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:星辰语义大模型的访问速度、搜索引擎收录以及索引量、用户体验等; 当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找星辰语义大模型的站长进行交谈提供。如该站的IP、PV、跳出率等!

关于星辰语义大模型 特别声明

本站CloudsAI提供的星辰语义大模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由CloudsAI实际控制,在2024年 7月 9日 上午9:22收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,CloudsAI不承担任何责任。

0 条评论

点击更换头像
  • 暂无评论,快来发表第一条评论吧!

相关导航