zwPython.com研习社

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1658|回复: 0

关于“中文字型深度学习模型Glyce+田字格CNN”的个人看法

[复制链接]

233

主题

240

帖子

5501

积分

超级版主

Rank: 8Rank: 8

积分
5501
发表于 2020-8-10 08:38:22 | 显示全部楼层 |阅读模式
关于“中文字型深度学习模型Glyce+田字格CNN”的个人看法

张俊林


你所不知道的事





174 人赞同了该文章

今天被Glyce刷屏了,刚开始我是下午在微信朋友圈看到的paperweekly公众号里推的这个新闻“香侬科技提出中文字型的深度学习模型Glyce,横扫13项中文NLP记录”,刚看到标题心里还有点小激动,觉得NLP今年大进展真的是多啊,但是白天有事没来及细看,匆匆扫了一遍,晚上回家找来论文仔细读了一下,感想比较多,下面简单谈谈我的个人看法。

首先,使用字型作为特征引入NLP中这种思路还是挺有意思的,尽管直观想这种信息可能只会对语义匹配类或者汉字发音计算类的任务有帮助,对于分词,词性标注,句法,分类这种任务直观感觉应该没太大作用;

其次,现在很多技术媒体出于吸引眼球,有一种标题党倾向,动不动就“超过人类”,“横扫...记录”......,虽然可以理解,但是这对于外行或者领域经验不足的年轻人的的引导尤其不好。横扫这种词不能轻易拿来用,Bert的效果在很多任务大幅度领先,说横扫没人不服气,Glyce在每个任务提升幅度有限,说横扫只会招黑。

第三,论文的立论多少缺乏说服力。论文的立论是:象形字中包含语义信息,所以从汉字图片中抽取象形字特征作为补充。但是,象形字本身占汉字的比例并没有想象中那么高,“现行汉字最多的是形声字.象形字只是很少的一部分,但它是构成其他汉字的基础.《说文解字》形声字占所收汉字9353个字的80%以上,清代《康熙字典》形声字占90%.形声字大量增加是汉字发展的主流.”比如,蜘蛛的 “蛛“和“珠宝”的珠,这两个是形声字,形只占了一半,声占了另外一半,CNN提出的特征能够区分那一部分是代表声,哪一部分是代表形吗?但是从特征角度讲,蜘蛛的蛛,和珠宝的珠,提出的特征应该是很大相似的吧?难道从预测任务来说,比如语言模型,看到蜘蛛的蛛,我们会觉得后面会出现珠宝的珠吗?这个概率应该很小。比如对于文本分类来说,两篇不同领域的文章都包含那么多形声字,所以会存在大量重叠的偏旁部首在两篇领域相差很远的文章中,比如一篇体育一篇娱乐,偏旁部首会对分类有帮助?这在直觉上很难接受。其它高层任务,比如分词,词性,情感倾向等都面临这个问题。就是说,从直观感觉,写起来比较像的文字,它们可能只在单词级别的语义匹配或者发音类的任务上应该有用,对于其它任务看不出有什么必然的联系。所以总体感觉,论文立论不太符合直觉。
另外一种解释是这种方式对于OOV有帮助,但是从大比例汉字其实是形声字的角度看,也没有特别必然的联系。而且如果采取汉字单字字符输入的方式,哪怕是单字onehot或者embedding,它本身对于OOV也是直接有帮助的,OOV这个问题可能并不突出。如果对比对象是字符ID方式的话,采取图形汉字作为输入,对于OOV能有多大作用,目前看不到特别明显的理由。可能需要专门设计实验来验证这一点。

第四,我觉得这里面的实验设计需要改进,拿Bert来比较确实不是必要的,因为两者的目的不太一样,Transformer类特征抽取器用来做NLP任务的模型应该引入对比一下,毕竟这基本已经是在很多NLP任务中公认的最强的模型了。最关键的一点是:如何证明在这么多任务中性能的提升真的是汉字图片信息带来的,而不是那个Glyce-char之上的辅助优化目标带来的?如果是那个Glyce-char之上的辅助损失函数带来的,那么把这个损失函数放在常规模型的字符embedding上,也可能产生类似的不同任务提升效果。我的感觉是很大可能是相当比例的性能提升来自于这个辅助损失函数,它有助于优化单字的embedding表达能力,而跟是字符是图形形式还是ID形式关系没那么大。建议做个对比实验:把模型中的Glyce去掉,然后给常规模型的char的embedding也加上辅助损失函数。然后再和带Glyce的比较,如果证明不是这个因素在起作用,那么多少能增加实验的说服力。

第五,当然还有其他一些值得讨论的地方,比如论文开始时候说的“其他利用字型的工作之所以效果不好,是因为简体字经过简化,缺乏历史上的语义信息,所以一个创新点是引入其他字体”,实验并没有充分说明这一点,除了字符级语言模型外,其它实验并没有对这两者效果作对比,无法确定这个立论是否成立,除非大大量任务上都是多种字体效果好于单字体,这个立论才成立。而从目前版本的论文看不出这点。再比如CNN的田字格的说法,这个就是偏文艺化的说法了,凭什么pooling后不能是5或者6而只能是4形成田字格呢?如果是6的话,跟田字格又有什么关系呢?这块应该更严谨一些。

作为技术人员,我们其实都希望能有新技术带来大的技术突破,但是技术本身说服力够强才是基础,也希望技术媒体能够客观进行报道,AI泡沫本来已经快破了,希望不要推波助澜进一步加快这个破灭过程,这样对所有人其实都不好。



【极宽QQ群】
群号:1057170501 ,zwPython.com学习QQ群,面向py初学者和大众小白用户。
群号:124134140,TOP极宽金融量化,三千人超大QQ群,面向专业金融实盘用户。
群号:699266891,TFB极宽足球大数据QQ群
群号:790548107,FASTAI智能量化QQ群。
【微信公众号】
请大家关注TOP极宽量化公众号,大量原创Python量化技术
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|zwPython.com研习社

GMT+8, 2022-5-25 06:22 , Processed in 0.023857 second(s), 5 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表