抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

本文总结2022年任务驱动对话的研究进展。 [CASPI] Causal-aware Safe Policy Improvement for Task-oriented Dialogue来源:ACL 2022 Long Paper 使用强化学习策略解决任务驱动对话中的问题:任务驱动对话中的策略学习。文章认为,任务驱动对话是从离线数据中学习,另一方面强化学习在离线数据训练的时候会导致误差和泛化...