
演讲人:谢奇懿
谢奇懿,台湾高雄师范大学华语教学研究所副教授、所长,华语文博士学位学程主任。曾担任台湾金门大学华语文系系主任、文藻外语大学应用华语文系系主任及华语文教学研究所所长、台湾地区教育主管部门“国际华语教育推动指导委员会”委员、台湾华语文教学学会监事、辞章章法学会理事及监事。主要研究领域为中文/华语测验与评量,曾先后在台湾华语文测验(TOCFL)推动工作委员会、国中教育会考及国中基本学力测验写作测验、四技二专统一入学测验国文科、二技入学测验国文科、大学入学测验中心国写测验、台湾地区考选事务主管部门的考选部国文科担任委员。
讲座内容:
文本分级是指将文本依照设定的标准分为不同等级的研究课题,十九世纪已开始使用量化方法进行文本分级,随着人工智能(AI)技术的发展,自然语言处理领域(NLP)也开始发展出文本分级模型。现有NLP中的中文文本分级模型多数以中文为母语之分级进行训练,少有就而就国际汉语/华语之等级分级模型。本研究系以HSK之等级分级为目标,搜集大陆、台湾、美国、法国、德国、日本、越南、韩国等地之国际汉语教材共50种、2000多课做为资料,从中挑选700多篇做为训练材料。在经过南方985重点大学教授带领硕士生进行人工标记并取得分级之一致性后,再运用DNN技术,分别使用三种不同的参数进行模型训练,以探讨HSK人工智能等级分级模型的可能。
研究发现,以三种不同参数建构之HSK文本分级模型之预测准确度大致良好,预测准确度在70-85%之间,此一结果与台湾TOCFL文本分级模型之结果接近。