近日,由国际计算语言学会(ACL)下属的专门兴趣小组SIGLEX主办的第十四届国际语义评测比赛(International Workshop on Semantic Evaluation; SemEval 2020)于线上进行。73882必赢游戏app马坤老师指导,学生姚胤楠、苏南组成的人工智能自然语言处理研究小组UJNLP在任务的评测中取得了较高名次,在85个队伍中位列第16名。
国际语义评测比赛由国际计算语言学会(ACL)下属的专门兴趣小组SIGLEX主办,是全球范围内影响力最强、规模最大、参赛人数最多的语义评测竞赛,吸引着世界各大顶尖高校的实验室和科技企业的研究人员前来,比赛中的每个任务都有数百个队伍报名参与,本届比赛吸引了包括卡内基梅隆大学(CMU)、哈尔滨工业大学、东北大学、华盛顿大学(UW)、百度等全球知名高校企业及科研院所参加。
本次比赛,济南大学参赛队伍选择的任务关注点是检测社交媒体文本中的攻击性语言并进行分类。对于此项任务,参赛队伍需要利用官方提供的训练数据集OLID,训练出一个能鉴别用户发布的文本是否是“攻击性言论”的人工智能模型。参赛学生选用了华盛顿大学西雅图分校保罗·艾伦(Paul G.Allen)计算机科学与工程学院和Facebook AI研究院在2019年7月共同发布的A Robustly Optimized BERT Pretraining Approach(RoBERTa)模型。由于模型训练需要大量的算力,指导教师马坤副教授为同学们提供了用于训练的计算资源,保证了模型训练的正常进行。参赛学生在预训练模型的基础上使用自己的数据进行训练和微调。并利用所学知识对预测结果进行分析,反复尝试以寻找最好的数据预处理方式和提高模型效果的方法。参赛团队充分思考了任务模型所需,并采取多种技术手段,最终巧妙的利用模型识别并分类了社交媒体文本中的攻击性语言,从而取得了亮眼的成果。
参赛的学生纷纷表示,经过本次比赛,学习了解了更多最前沿的人工智能、自然语言处理的知识。锻炼了代码能力和团队协作能力,对自然语言处理问题有了更多的经验。本次大赛,培养了同学们的创新精神,加强了学生的智能技术运用能力、团队协作能力及开发创新能力,为今后学校科创活动的开展奠定了坚实基础。
撰稿:陈晓卉、姚胤楠