12 月 1 日星期四下午 4:30 CST — 下午 6 点 CST J 厅 #538
CodeRL:通过预训练模型和深度强化学习掌握代码生成
洪乐、王悦、Akhilesh Gotmare、Silvio Savarese、Steven Hoi
CodeRL 是一个突破性的全新程序合成框架,它通过全面整合预训练语言模型和深度强化学习来实现。通过将单元测试反馈作为模型训练和推理的一部分,并与改进的 CodeT5 模型集成,CodeRL 在竞赛级编程任务中取得了 SoTA 的成绩。
改进模型选择并提升领域泛化性能
Devansh Arpit、王欢、周英波、熊彩明
在训练和集成期间使用模型参数的简单移动平均值的简单无超参 手机号数据库列表 数策略在领域泛化基准上实现了 SOTA,并且可以使用偏差-方差权衡来解释。
11 月 29 日星期二下午 4:30 CST — 下午 6 点 CST J 厅 #732
找到摆脱 NTK 束缚的良好方向,高效学习低阶及稀疏多项式
Eshaan Nichani、白宇、Jason D. Lee
我们表明,通过利用 NTK 谱和新设计的正则化器的特性,利用梯度下降训练 钱多多四肖三期必出特 的神经网络可能可以摆脱神经切线核 (NTK) 机制,并且在学习某些自然函数时实现比 NTK 更好的样本效率。
12 月 1 日星期四下午
马尔可夫博弈的策略优化:统一框架和更快的收敛速度
张润玉、刘清华、王欢、熊才明、李娜、白宇
我们证明了,自然乐观策略优化算法在马尔可夫博弈中,无论是在双人零和博弈还是多人一般和博弈中,都能达到目前最佳的均衡收敛速度。我们还提供了一个统一大多数现有策略优化算法及其分析的框架。
11 月 30 日(周三)上午 11:30(中部标准时间)—下午 1 点(中部标准时间) J 厅 #816
通过多语言翻译模型的语言解缠来完善低资源无监督翻译
Xu-Pi Nguyen、Shafiq Joty、吴奎、Ai Ti Aw
一个四阶段细化程序,对多语言无监督 NMT 模型进行微调,使其显著超越基 基於數據 线并在低资源无监督翻译任务中达到最佳水平。