开云kaiyun.com探索进程中还有哪些教学与发现？最新公开共享来了-kaiyunApp下载入口|kaiyun

发布日期：2026-05-16 19:07 点击次数：187

保举大模子也可生成式开云kaiyun.com，而且初次在国产昇腾 NPU 上到手部署！

在信息爆炸时间，保举系统已成为生存中不行或缺的一部分。Meta 领先提议了生成式保举范式 HSTU，将保举参数膨胀至万亿级别，得到显赫效劳。

探索进程中还有哪些教学与发现？最新公开共享来了。

叙述亮点包括：

回来保举范式发展历程，指出具备膨胀定律的生成式保举范式是往日趋势；

复现并忖度不同架构的生成式保举模子过火膨胀定律；通过消融实验和参数分析，剖析 HSTU 的膨胀定律开始，并赋予 SASRec 以可膨胀性；

考证 HSTU 在复杂场景和排序任务中的阐扬及膨胀性；

团队瞻望并回来往日忖度标的。

具备膨胀定律的生成式保举范式正在成为往日趋势

如图 1 所示，保举系统的发展趋势是冉冉减少敌手工联想特征工程和模子结构的依赖。在深度学习兴起之前，受限于打算资源，东说念主们倾向于使用手工联想的特征和浮浅模子（图 1A）。

跟着深度学习的发展，忖度者专注于复杂模子的联想，以更好地拟合用户偏好，并提高对 GPU 并行打算的诓骗率（图 1B）。

然则，跟着深度学习才调的瓶颈，特征工程再次受到关怀（图 1C）。

如今，大言语模子膨胀定律的到手启发了保举规模的忖度者。膨胀定律形色了模子性能与枢纽计划（如参数范畴、数据集范畴和考试资源）之间的幂律筹商。通过增多模子深度和宽度，并结合无数数据，不错提高保举效果（图 1D），这种阵势被称为保举大模子。

近期，HSTU 等生成式保举框架在此标的得到了显赫效劳，考证了保举规模的膨胀定律，激励了生成式保举大模子忖度的飞扬。团队以为，生成式保举大模子正在成为颠覆面前保举系统的下一个新范式。

在此配景下，探索哪些模子真实具备可膨胀性，邻接其到手应用膨胀定律的原因，以及怎么诓骗这些规章提高保举效果，已成为面前保举系统规模的热点课题。

基于不同架构的生成式保举大模子膨胀性分析

为了评估生成式保举大模子在不同架构下的膨胀性，团队对比了 HSTU、Llama、GPT 和 SASRec 四种基于 Transformer 的架构。

在三个公开数据集上，通过不同提神力模块数目下的性能阐扬进行分析（见表 1）。限度败露，当模子参数较小时，各架构阐扬同样，且最优架构因数据集而异。

然则，跟着参数膨胀，HSTU 和 Llama 的性能显赫提高，而 GPT 和 SASRec 的膨胀性不及。尽管 GPT 在其他规模阐扬精粹，但在保举任务上未达预期。团队以为，这是因为 GPT 和 SASRec 的架构衰退专为保举任务联想的枢纽组件，无法有用诓骗膨胀定律。

生成式保举模子的可膨胀性开始分析

为了探究 HSTU 等生成式保举模子的可膨胀性开始，团队进行了消融实验，辞别去除了 HSTU 中的枢纽组件：相对提神力偏移（RAB）、SiLU 激活函数，以及特征交叉机制。

实验限度（见表 2）败露，单一模块的缺失并未显赫影响模子的膨胀性，但 RAB 的移除导致性能昭彰下落，标明其枢纽作用。

为了进一步分析赋予模子膨胀定律的成分，团队比较了 SASRec 与膨胀性精粹的 HSTU 和 Llama 的区别，发现主要各别在于 RAB 和提神力模块内的残差联结口头。

为考证这些各别是否为膨胀性的枢纽，团队为 SASRec 引入了 HSTU 的 RAB，并退换其提神力模块的罢了口头。

实验限度（见表 3）败露，单独添加 RAB 或修改残差联结并未显赫改善 SASRec 的膨胀性。然则，当同期修改两个组件后，SASRec 展现出精粹的膨胀性。这标明，残差联结模式与 RAB 的结合，为传统保举模子赋予了膨胀性，为往日保举系统的膨胀性探索提供了进军启示。

生成式保举模子在复杂场景和排序任务中的阐扬复杂场景中的阐扬

HSTU 在多域、多看成和扶助信息等复杂场景中阐扬出色。以多域为例，HSTU 在 AMZ-MD 的四个域中永久优于基线模子 SASRec 和 C2DSR（见表 4）。

与单域沉寂考试的 HSTU-single 比较，多域聚拢考试的 HSTU 阐扬更佳，证实注解了多域聚拢建模的上风。表 5 败露，HSTU 在多域看成数据上的膨胀性显赫，尤其在范畴较小的场景如 Digital Music 和 Video Games 上。这标明 HSTU 在惩办冷初始问题上具有后劲。

在排序任务中的阐扬

排序是保举系统中进军的一环，团队深远计划了生成式保举模子在排序任务中的有用性和膨胀性。正如表 6 所示，生成式保举大模子在性能上显赫优于 DIN 等传统保举模子。尽管在小范畴模子下，Llama 的阐扬优于 HSTU，但 HSTU 在膨胀性方面更具上风，而 Llama 在膨胀性上显得不及。

团队还忖度了负采样率和评分会聚架构对排序任务的影响，并进行了全面分析。此外，还计划了缩减 embedding 维度对性能的影响。消弱 embedding 维度（表 7）提高了一丝据集 ML-1M 和 AMZ-Books 的性能，但在大数据集 ML-20M 上则有所下落。这标明，保举大模子的膨胀定律不仅受垂直膨胀（提神力模块数目）影响，也受水平范畴（embedding 维度）影响。