星辰语义大模型

中国电信开源的语义大模型

官网介绍

星辰语义大模型-TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型，开源于OpenI-启智AI开源社区。该模型系列包括TeleChat-7B和TeleChat-12B两个版本，以及对应的int8和int4量化版本。7B模型基座采用1.5万亿Tokens中英文高质量语料进行训练，12B模型基座采用3万亿Tokens中英文高质量语料进行训练。TeleChat模型采用标准的Decoder-only结构设计，在位置编码、激活函数、层标准化等方面进行了多项技术创新，具备强大的自然语言理解与生成能力。

核心功能特点

多版本与量化支持

提供7B和12B两种规模的模型，以及int8和int4量化版本，满足不同算力环境需求。12B版本在模型结构、训练数据、训练方法等方面进行了改进，相比7B版本在通用问答和知识类、代码类、数学类榜单上均有大幅提升。

长文本处理能力

支持8K训练版本模型，采用NTK-aware外推和attention scaling外推方式，可以外推到96K。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务上表现优异。

国产化适配支持

已完成昇腾Atlas 300I Pro推理卡的推理适配，支持int8量化能力；同时支持昇腾Atlas 800T A2训练服务器，可基于昇思MindSpore框架和PyTorch框架进行模型训练和推理，性能与效果均对齐A100。

数据开源与处理

开源TeleChat-PTD数据集，包含约2.7亿条中文数据，原始大小约1TB，压缩后480G。数据经过规则筛选、去重、高质量筛选和安全处理等多步清洗流程，确保数据质量。

灵活部署与推理

支持单卡和多卡推理，提供API和Web两种部署方式，满足不同场景需求。兼容Hugging Face生态，提供简洁的推理代码示例，便于快速上手使用。

模型微调支持

开源基于deepspeed的训练代码，支持Zero并行显存优化，集成FlashAttention2，支持单机和多机训练。提供数据处理工具，支持单轮和多轮数据格式，可灵活配置数据配比。

应用场景

工作计划生成：根据用户提供的关键信息，自动生成结构完善、内容详实的项目计划，包括市场分析、开发路线图、资源需求等。
周报撰写：帮助算法工程师等职业人员快速生成专业的周报，总结工作成果、问题及后续计划，语言简洁专业。
辅助编程：支持多种编程语言代码生成，如使用Spring Cloud Feign框架实现远程调用功能，提供清晰的代码示例和使用说明。
数学计算：能够解决数学问题，如鸡兔同笼等经典问题，通过建立方程并逐步求解，提供详细的解题过程。
安全问答：对涉及医疗、暴力等敏感问题能够进行安全拒识和正确引导，提供合理建议，避免不当内容生成。
相似问生成：根据用户提供的问题，生成意思相同但表述不同的相似问题，可用于数据增强、测试等场景。
表格生成：将用户提供的结构化数据自动转换为规范的表格形式，方便数据展示和分析。
阅读理解：对给定文本进行深度理解，准确回答相关问题，如分析文学作品的情感表达和创作背景。

优势

TeleChat模型相比同规模模型具有多方面优势：在性能上，在MMLU、C-Eval、CMMLU等多个权威评测集上表现优异，12B版本MMLU达到73.3分，超过众多同规模模型；在功能上，支持长文本处理、多轮对话、代码生成等多种能力；在部署上，提供多种量化版本和部署方式，适配不同算力环境；在国产化方面，全面支持昇腾芯片和国内AI框架，满足国产化需求；在生态上，开源训练数据、代码和模型权重，提供完善的文档和示例，便于开发者使用和二次开发。

价值总结

TeleChat模型的核心价值在于为用户提供高性能、低成本、易部署的大语言模型解决方案。通过开源模型和数据，降低了大模型应用的技术门槛，使更多企业和开发者能够利用先进的AI技术提升工作效率。模型的长文本处理能力和多轮对话支持，能够满足办公、创作、教育等多种场景需求。国产化适配则为国内用户提供了安全可控的AI基础设施选择，有助于推动AI技术在各行业的广泛应用，促进数字化转型和智能化升级。

用户体验与优势

TeleChat模型注重用户体验，提供简洁易用的API和Web界面，用户可以快速上手进行模型推理和部署。模型响应速度快，生成内容质量高，能够准确理解用户意图并提供有价值的结果。开源社区提供了丰富的教程和示例，帮助用户解决使用过程中遇到的问题。同时，模型支持多轮对话，能够保持上下文连贯性，提升交互体验。灵活的部署选项和量化版本，使用户可以根据自身硬件条件选择合适的方案，降低使用成本。

技术优势

TeleChat模型在技术层面具有多项优势：采用Rotary Embedding位置编码，具有较好的位置外推性，可与Flash-Attention v2配合提升训练速度约20%；使用SwiGLU激活函数替代GELU，在减少计算量的同时提升模型性能；采用基于RMSNorm的Pre-Normalization层标准化方法；12B模型采用词嵌入层与输出层解耦结构，增强训练稳定性和收敛性。训练方法上，使用科学数据配比学习与课程学习，动态调整数据集权重，保证模型在各数据集上的拟合效果。分词器采用BBPE算法，词表大小为160256，支持中英双语处理，分词效率高。量化方案基于AutoGPTQ，提供Int8和Int4量化模型，在保证性能的同时降低显存占用。

来源：AI工具集

访问官网

数据评估

星辰语义大模型浏览人数已经达到6833，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：星辰语义大模型的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找星辰语义大模型的站长进行交谈提供。如该站的IP、PV、跳出率等！

特别声明

本站CloudsAI提供的星辰语义大模型都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由CloudsAI实际控制，在2024年 7月 9日上午9:22收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，CloudsAI不承担任何责任。

CloudsAI致力于优质、实用的网络站点资源收集与分享！本文地址https://CloudsAI.cn/sites/2676.html转载请注明

0 条评论

暂无评论，快来发表第一条评论吧！

导航菜单