专栏名称: 赛尔实验室
哈尔滨工业大学社会计算与信息检索研究中心
今天看啥  ›  专栏  ›  赛尔实验室

哈工大SCIR发布Molweni多人对话语篇结构分析及机器阅读理解数据集

赛尔实验室  · 公众号  · 程序员  · 2020-10-08 09:13
摘要:Molweni 数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭副教授主持开发,是当前规模最大的带有语篇结构的英文多人对话阅读理解数据集。Molweni数据集源自于Ubuntu多人对话聊天语料,包含1万个对话(dialogue),8.8万条话语(utterance),每篇对话均提供人工标注的语篇关系。为进一步促进对话理解方面的研究,数据集还提供阅读理解任务,共标注了超过3万个问题,包括可回答问题和不可回答的问题。Molweni对话数据集是当前规模最大的多人对话语篇结构数据集,相较于当前流行的对话语篇结构数据集STAC (Strategic Conversation),对话数扩大近10倍,同时第一次将语篇结构和阅读理解任务结合在一起。该数据集的提出能够为对话语篇结 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照