江苏捷胜锚机有限公司
(原泰兴市捷胜船舶设备有限公司)
地址:江苏省泰兴市江平南路76号
全球服务热线:13905266196
手机:13905266196 13905264589
电话:0523-87838058
传真:0523-87838058
网址:www.jscbsb.com
E-mail:js139589@163.com jm139589@163.com
哈工大讯飞联合实验室:摘得AI中文语法错误自动诊断大赛桂冠
人气:10429 发布时间:2018-07-29
以前写作文,老师改语病,如今,AI就能揪出问题。在语病纠错的武林江湖里,中文又比英文难得多。最近,一场通过AI检测中文语病的“中文语法错误自动诊断大赛”上,哈工大讯飞联合实验室摘得桂冠。
第五届中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,简称 CGED)刚在澳大利亚墨尔本举办。本届CGED评测的参赛者可谓高手如云,团队包括中国社科院、阿里巴巴、北京大学、哈工大讯飞联合实验室(下文简称HFL)等,最终由HFL竞得冠军。而上一届的冠军是阿里巴巴团队。
写完一篇作文,语文老师批改时从里面选出多余的词、缺少的词、使用不当的表述、以及语序不通的表述,然后一一改正过来。这样的场景,现在已经成为一场世界性的比赛——第五届中文语法错误自动诊断大赛。今年第五届的评测大会于上周四(2018年7月19日)在澳大利亚墨尔本举行,这场比赛最终由哈工大讯飞联合实验室摘得桂冠。
比赛方式是,主办方挑选了一些外国人写作的中文句子片段,让参赛者通过人工智能算法技术对其中的语法语义错误进行识别并进行系统性能评估。
比赛从四个维度对参赛者的能力进行评估:语病识别(即:识别句子是否有错误)、语病分类(识别具体的错误类型)、语病定位(识别错误的位置和类型)、语病修正(对于缺词和错词,提供修正的建议)。一共有13个团队参加了这项比赛。
在这四项成绩中,哈工大讯飞联合实验室获得了后三项的第一名、以及第一项的第二名,总体排名第一,首次参赛便摘得冠军。
值得一提的是,去年的比赛只有三项成绩,第四项“语病修正”是今年才增加的比赛分项。和去年相比,除了“指出问题”,还提供“解决答案”,其难度更上一级。在“语病修正”的任务中,在“第一候选”或“前三候选”项,HFL分别获得0.1723分和0.2527分,以绝对领先的成绩排第一名。也就是说,在13个参赛团队中,HFL做语法改错题成绩最棒。
为什么可以在“语病修正”任务中斩获佳绩?
科大讯飞研究院北京分院副院长、哈工大讯飞联合实验室主任助理付瑞吉分析,因为参赛系统采取了端到端的神经网络模型与词汇点互信息相结合,将语病位置空出,根据上下文以及语病信息对于该位置正确的词汇进行推测。拥有极强探索精神的你,可以直接英语论文深究其中原理.纠错语法AI冠军如何诞生?
通过神经网络序列标注模型生成
怎么区分“静静的顿河”与“静静地等待”这两个短句中,“的”和“地”有何区别?哈工大讯飞联合实验室出品的AI神器就能做得到!靠的是对神经网络序列标注模型BiLSTM-CRF进行改进。
付瑞吉分析,这次HFL的AI可以获得冠军,有赖于对神经网络序列标注模型BiLSTM-CRF进行改进,包括底层的整个模型、单模型内部的融合、模型外的融合三大板块。具体而言——
第一,将词向量、统计、先验的语法知识相融合,如汉语语言习惯用法等统计特征,比如“静静的顿河”和“静静地等待”中结构助词“的”和“地”的使用会根据上下文的词性而决定;
第二,采用模型内部融合的技术,将多个BiLSTM单模型的输出加权融合,再经过CRF计算最终结果;
第三,采用了模型选取、模型排序等外部融合方法,发挥了不同模型的优势。
总体来说,这三项“黑科技”让哈工大讯飞联合实验室出品的AI可以获得更好的语感,从而摘冠。