|凯发国际ag旗舰厅登录实时pg电子模拟器网站_社会新闻_大众网

　　为了支持开源社区在GRPO这个方向上的探索★★，ModelScope魔搭社区围绕MS-SWIFT训练框架以及EvalScope评估框架，推出了相对完整高效的GRPO全链路解决方案★，和社区分享。

　　★★“嗯，人少了很多★★★，竟然逃走了？”另一位头领开口，脸沉了下来★，而眸子则也越发寒冷了，道：“没有经过我们的允许，竟敢逃，真是不知死活，以为这样就可以活下来吗？！★”

　　[1] AI-MO/NuminaMath-TIR数据集★★★：★★：多模态GRPO最佳实践：大模型评估框架EvalScope★：数据集：模型推理能力评测最佳实践：：模型思考效率评测最佳实践：完整实验流程：

　　SWIFT框架目前已经支持多模态模型（图文★、视频、音频）的GRPO训练★★，只要在数据集中给定’images★’/‘videos’/★★‘audios★’字段，GRPO会将多模态内容输入多模态模型中进行强化训练。SWIFT目前在微调中支持的多模态模型近两百个，这些模型均天然支持GRPO训练。参考R1-V的任务设置，在多模态计数任务上进行了训练，训练数据集为CLEVR-70k-Counting(2)。训练选取的奖励函数一共有两个，一个是 Deepseek-R1 中提到的格式奖励函数★★★，用于评估模型输出格式的准确性★；另一是自定义的准确性奖励函数，用于计算模型输出的计数是否与真值一致★，目前两个奖励函数都已经定义在SWIFT框架中，通过—reward_funcs external_r1v_acc format参数指定。选取Qwen2.5-VL-3B-Instruct 作为基础模型进行训练★★★，选取 instruct 而不是base模型的主要原因是可以更快地获取 format reward★★★。整体实验在8卡 GPU 上完成。当前SWIFT GRPO训练已支持多卡部署模型以加速rollout，因此设置num_infer_workers为2，进程数为6★★：即2卡vLLM部署采样★★，6卡模型训练。设置模型的最大输出为1024，学习率设置为1e-6★★，其他参数设置详见最佳实践(3)。

　　模型训练了500个epoch已经基本收敛，准确性奖励(图中为ClevrCountORM)和格式奖励（图中为Format）在不断增加★★★，证明模型学习到了如何完成这一任务，最终任务成功率从初始的0.4攀升到1左右；在大概300step左右，reward_std已经将到0.1左右，证明模型已经基本收敛★★★；completion length最终稳定在60-80，模型学习到的任务推理范式是逐个列举图中的物体。训练后的模型输出样例如下：

　　GRPO训练中，采样和模型训练需要交替进行，即训练时采样卡闲置★★★，采样时训练卡闲置。对于这个问题，不同的框架给出了不同的解决方案。

　　同样训练设置下的实验测试表明，在单卡部署LMDeploy的情况下，异步采样的训练时间约为同步采样的2/3★★★。

　　选取Qwen2★★.5-3B-Instruct模型进行全参数GRPO训练★★，具体参数设置详见实验流程。发现GRPO的训练过程是比较不稳定的★，一个比较大的学习率和beta（KL散度的权重）虽然会是模型更快收敛★★★，但往往出现梯度过大而训练崩溃的情况。最终选取学习率为7e-5，beta为0★.001。实验结果如下图所示：

　　从简单的数学任务Countdown Game出发，对SWIFT框架的GRPO有效性进行验证，并给出了完整的实验流程(9)凯发国际ag旗舰厅登录。

　　目前围绕R1模型的技术方案，社区也已经有一些开源实现★★，比如来自Hugging Face的Open-R1★★★，以及其他一些RL框架★★★，包括veRL★★★，OpenRLHF等等。然而，在GRPO训练方面，大部分方案仍然面临着诸多挑战，包括训练速度较低★★、集群配置复杂，以及对多模态扩展能力差★、训练后不好评测等等★★★。

　　一共训练了2000个step★，各项曲线证明了SWIFT GRPO的有效性★，从实验结果中也能看到模型的收敛过程。

　　同时★★，团队将MATH-500、GPQA-Diamond和AIME-2024三个数据集整合为一个数据集合，放置于modelscope/R1-Distill-Math-Test数据集(5)中，用户可以直接使用该数据集的ID进行评测操作，具体使用流程参考：模型推理能力评测最佳实践(6)。

　　尤其在采样量以及batch_size较大时，采样耗时对训练速度影响会更为显著★★。因此，在SWIFT中对vLLM和LMDeploy进行了一定的patch（同时也与相关框架负责同学进行了讨论，将会将相关实现在vLLM/LMDeploy上原生支持），支持在任意比例的训练卡上拉起采样实例。例如对于8卡训练中，配置4张卡负责模型训练，4张卡负责采样；或者6张卡负责训练，2张卡负责采样★★。

　　GRPO训练又有新的工具链可以用，这次来自于ModelScope魔搭社区★。

　　LMDeploy是来自于上海浦江实验室的优秀推理加速框架★★★。该框架不仅支持了纯文本和多模态模型的推理加速，并且自研了基于FasterTransformer实现的Turbomind推理加速引擎★★★。在推理速度上，LMDeploy相较vLLM在一众模型上速度有显著的提升。对Qwen2.5-7B-Instruct模型进行实验测试，具体配置如下★：使用AI-MO/NuminaMath-TIR数据集，批量大小设置为7，每条query采样24条结果，训练50个steps。以下是vLLM框架和LMDeploy框架在相同条件下的推理时长对比。

　　对于GRPO算法★，单实例采样往往无法满足需求。团队观察发现，7B模型在训练期间，单iter的采样时间占比约为70%，这意味着应该允许训练资源根据实际情况，针对性的倾斜分配给采样计算

　　从completion_length的变化上能明确地看到模型思考方式的转变。从初始的500左右降到200★★，然后又增长到300-400 tokens★，能明确看到各个阶段模型的思考方式。初始时，模型会直接从结果出发★★★，反推需要的数字；然后，模型逐渐精简了反推过程，显著缩减了输出场地；最后，模型发现完成任务最好的方式是列举已有数字和运算的组合★，并逐步运算，输出范式基本收敛。最终的输出样例如下★：

　　不仅提供O1/R1等推理类模型的推理性能的评测能力★★，还支持评测结果的可视化，如下图所示。

　　针对八卡环境的SWIFT★、veRL和trl框架的训练效率进行了对比★★。在实验设置中整合了前文提到的多种训练加速技术，并选用LMDeploy作为推理引擎。

　　除此之外，针对Reasoning模型在推理过程中存在Underthinking（思考不足★，指模型在推理时频繁思路跳转★★，无法专注于正确的思路，导致错误答案）和Overthinking（过度思考，指模型简单问题上生成过长思维链，浪费计算资源）的问题。

　　例如veRL允许将采样和训练部署在同一GPU上，在不同阶段让不同的权重offload到CPU中；或者针对LLM的不同Layer、不同Tensor进行异构式切分，在加载权重时不必all_gather（而是部分weights进行gather并同步）★★★，使训练模型和采样模型的效率达到最高★★。然而在中小模型的体量上★★★，这样的切分未必是最优的。

　　该框架实现了模型思考效率评测能力，可以评估如DeepSeek-R1-Distill-Qwen-7B(7)等推理模型的思考效率★★，如下图所示，从token效率、思考长度、子思维链数量和准确率四个方面进行衡量，可以用来评测并优化模型在短输出中获取正确答案的能力，具体使用流程参考教程★：模型思考效率评测最佳实践(8)★★。

　　多轮更新的核心思想是：让一次采样得到的数据可以被多次使用。通过这种方式，可以减少采样的频率★，从而让采样和训练的资源分配更加均衡★。

　　多模态GRPO训练目前已经有一些开源解决方案，例如R1-V，open-r1-multimodal等，都是基于Open-R1进行了简单的扩展★★★。

　　通过设置参数num_iterations★★★, 可设置每轮采样数据的迭代更新轮数★，增大该参数值可以多次利用采样数据，缓解采样过程对训练的速度影响，从而提高训练速度。在该值设置不太大（例如小于等于4）的情况下，基本不会对模型训练效果有不良影响。这里的更新轮次对应论文中的mu值。

　　20~~年，~~上下要团结一心，迎接挑战★★;20~~年★，~~全体员工要蓄势待发

　　因为随着模型尺寸和batch_size增大★★，采样、训练的耗时占比会有本质差别。对此SWIFT采用了不一样的技术路线，即异步采样(replay buffer)★★★，其原理是在训练时同时进行采样，采样结果用于下一iter的模型训练★★★。由于采样使用的是old policy model，因此训练过程需要额外增加对于logits差异的CLIP。由于old policy model和policy model仅相差一个iter★，因此其训练稳定性几乎没有下降。二者唯一需要等待（或者stop the world）的过程是权重加载。

　　SWIFT框架在TRL框架以及vLLM采样的基础上，额外引入了LMDeploy采样的支持。得益于其推理速度和权重加载速度，可以做到整体采样耗时只有基础实现的70%。

　　多轮更新是TRL库提供的机制，发现该机制和团队提供的其他机制结合起来有更好的加速效果★。

　　SWIFT正在添加vLLM的MP模式以适配更大体量模型的训练，并希望在已有的优秀框架的技术沉淀上以差异化技术的方式为开发者提供简单快速的中、小集群RL训练方案，给开发者提供新的技术选型。目前SWIFT已经支持的训练领域有数学★★、ReACT结构的Agent、多模态VQA等，代码领域的支持也在陆续更新中★★★。对于Megatron结构的模型SWIFT在支持中，不仅仅是GRPO训练★★，SFT和PreTrain也将得到相应支持★。

　　可以看到使用LMDeploy作为采样的推理引擎★★★，在整体的训练速度上从44分/50steps加速到37分/50steps，加速比大约为16%。

　　GRPO训练的耗时主要来自于采样★、训练等几个方面。其中，采样本身是PPO算法的重要组成部分★。尤其是GRPO在PPO的基础上，使用采样代替value model的方案，这使得在GRPO训练中，采样的耗时的占比，更是大大的增加了。而且GRPO中单query的采样数（即group size）★★，一般比较大（DeepSeekMath论文中为64个），高采样频率对于推理引擎的挑战是巨大的★★★。优化采样效率是提升GRPO整体训练速度的核心所在。

　　刚才，学院及师生代表的发言说出了当代大学生的共同心声★★★。在党和国家倡导的★★“大众创业★★，万众创新”的浪潮下，高校作为创新创业的前沿阵地，积极探索创新“众创空间★★”的发展模式，是高校师生义不容辞的光荣历史使命。“众创空间★”是学校创新创业课程的有效延伸，能够使学校的创业创新教育落到实处、起到实效★★★，能够把校内的科技项目快速转化，能够实现项目和社会资本的双赢对接，从而助力高校就业创业工作的开展★★。

　　评测领域，EvalScope后续会针对Reasoning models进一步探索模型的★★★“思考效率★”问题；另外，从目前的趋势看★★，多模态Reasoning的范式也逐渐引起重视，团队也会在该领域积极探索最新的评测基准、指标和方法。

　　EvalScope框架是魔搭社区上开源的大模型评测工具(4)，提供了完整的大模型全面评测框架★★★。

　　开展专项治理★。银行业金融机构要组织开展督促、指导和抽查，加强排查信息交流与共享，上下联动，形成具有本机构特色的常态化风险排查机制★★，并按季向监管机构报送排查情况★★★。各银监局要加强督促检查★，按季将排查工作情况银监会★★★。

　　Coundown Game 的任务目标是根据给定的几个数字和加减乘除四种运算★，得到目标数字，给出运算公式★，因此在模型的输入中给定了任务描述、已有数字和目标数字。训练选取的奖励函数一共有两个★★，一个是标准的格式奖励函数★,用于评估模型输出格式的准确性；另一是自定义的准确性奖励函数，用于评估模型输出运算公式是否能得到目标值，目前两个奖励函数都已经定义在SWIFT框架中，通过—reward_funcs external_countdown format参数指定。

　　准确性奖励（CoundownORM）和格式奖励（Format）的稳步上升证明模型逐步学习到了如何更好地完成这一任务★★，同时reward_std最终处在0.2-0★★.3左右也证明了模型仍有继续上升的空间。

　　具体配置上★，采用双卡进行推理采样★★★，结合异步采样策略，并将多轮更新轮次设定为4轮。同时★，为了更好模拟真实训练场景，将batch_size调整为48（每轮6个query，梯度累计步数为 8），group size设置为24，基于Qwen2.5-7B-Instruct模型和AI-MO/NuminaMath-TIR数据集(1)★★★，对多框架的GRPO训练速度进行了对比评测★★。

　　SWIFT除了支持上述训练和rollout使用两个资源组进行异步训采流程之外，也支持二者共用同一资源组。即，在actor模型训练时，vLLM将开启sleep模式以减少显存占用。

　　可以看到，基于LMDeploy分配2卡进行采样时★，训练时长约为1卡采样的87%★★★。而vLLM2卡采样时，时长为1卡采样的78%。在这两个例子中★，通过更合理多卡数分配，对采样资源进行一定倾斜，都达到了有效降低训练所需时长都目的★。

　　随着DeepSeek-R1的成功出圈，其使用的GRPO算法受到了业界的广泛关注。GRPO训练是来自于PPO算法的一种改进，旨在利用采样原理对value model进行简化，以增大训练的稳定性和可维护性。

　　实验结果表明★★★，SWIFT框架的训练耗时约为120秒/步，而veRL框架训练耗时约为280秒/步★，TRL框架在采用多步更新下约为144秒/步，而不采用多步更新则约为320秒/步★★。通过整合多种训练加速技术★★，SWIFT框架在GRPO的中小集群训练效率上实现了显著提升。下图展示了SWIFT框架下的训练奖励走势★★★，可以看出模型成功实现了奖励值的提升。

　　新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证

　　基于1卡部署LMDeploy的设置下，对比num_iterations从1-4的训练时间，下面给出了完整的实验结果：

　　今天★★★，举行我镇第八届村两委换届选举后主持日常工作村干、计生专干的培训班，其意有三：一是两委换届后工作头绪多★★★，日常工作量大★★★，为了确保培训内容、质量★，需要一段时间精心准备★★;二是少数村换届选举后有一个从波动到稳定的过程，需要适当的时间来检测;三是“双十”寄希望于全体村主持日常工作的村干、计生专干、在本届任期内要十分之意为民服务，十分之力勤勉工作，为第八届村两委的各项工作开好局★、起了步而努力工作★★★，奋力推进镇新农村建设和小康社会进程。第八届村党组织★★★、村民委员会换届选举工作历时两个月，在座的们又经历了一次党组织的考验和选民的选择，这是基层民主政治制度在各村又一次生动实践，除因任职年龄等因素主动退出来一些外★★★，大部分都为连选连任，部分是新当选的新人。无论是连选连任还是新当选★★★，都是党内外选民的现实选择，都是必然和偶然的结合，希望们尊重必然，珍惜偶然，以今天的培训班为新起点、新征程★、新境界★★★。接过第七届村两委的“接力棒”★★，肩负起建设“四个”(生态、人文★★★、和谐★、魅力)和创新村级社会管理的责任，探索符合村情的★“一村一品”、“多元发展”的新格局，开创出谋发展★★★、求和谐、创特色、增收入的新路子，挡担起走在全县发展前列的责任和使命，承载起全镇各级党组织、广大和万人民的希望和重托，为完成“★”规划宏伟目标，描绘村级平台壮美画卷，为建设一个“生态环境好、经济发展快、幸福指数高的十一个美丽乡村而团结奋斗!

　　可以看到，在设置多轮更新轮次为4时（mu=4），整体训练耗时约为单轮更新的一半★。

　　下图展示了在同样的8卡训练设置下，分别使用1卡/2卡部署推理引擎进行采样，剩余卡负责训练，vLLM/LMDeploy的采样耗时和训练耗时如下★★★:

AG凯发官方网站

热点新闻

|凯发国际ag旗舰厅登录实时pg电子模拟器网站_社会新闻_大众网