“中文十级”难题,AI怎样解读
作者:陶玉祥 盛利 发布时间:2018-11-27 17:35:53 本文来源于:《高中生·青春励志》2018.12
  在人工智能领域,“懂语言者得天下”是普遍共识。其中,可帮助人工智能识别人类语言的NLP(自然语言处理技术)被誉为“皇冠上的明珠”。

  当人工智能自然语言处理技术遇到“要你管和不要你管”“掉地上和掉地下”“我一把把把把住了”等中文“绕口令”,“小意思”“意思意思”等多义词,以及“俺们”“中不中”等方言时,该怎样“听懂”这些“中文十级”语句呢?在成都举办的科大讯飞“未来科栈”活动上,记者采访了相关专家。

  能分词会断句 机器尚在努力

  NLP就是让计算机来理解和处理人类自然语言的技术,它和计算机视觉、语音处理的区别在于信息处理的类型。

  “计算机视觉主要处理图像,语音技术处理声音,而NLP主要是对文字的理解。”云浮科技的创始人兼CEO张文斌说,在人工智能中,语音识别是“耳朵”,语音合成是“嘴巴”,计算机视觉是“眼睛”,而NLP则负责将抽象的文字符号转化为计算机能理解的语言。

  “‘中文十级’的某些语句,人类去理解都有很大难度,何况是计算机!”张文斌说,在口语和书写上,汉字往往没有词与词之间的边界,即便机器能够准确识别文字,但理解其意思也很难。再比如五花八门的地方口音和方言,也是机器正确理解意思的“绊脚石”。

  “自然语言处理一般从最小的语意单位‘词’开始,即分词算法。这最简单,也最成熟。”张文斌说,NLP的算法分为语法级别分析、句子级别分析等。其中,“分词”就是将字词“切开”,让机器明白哪几个字组成一个词,哪几个词组成一句话,从而理解整句、整段的意思。但是,在“分词”的应用过程中,仍然存在各种各样的问题。

  张文斌解释,首先是分词标准不确定、存在歧义,此外还有新词等问题。如“乒乓球,拍卖完了”和“乒乓球拍,卖完了”两种切分都正确,这就要依赖上下文语境进行正确切分。其次,每年都会涌现出网络词汇,像“神马”“不明觉厉”“佛系”等原来不存在的词也需要计算机理解。

  听语气判关系  AI有新招

  如何让机器读懂上下文语境,从而进一步了解整段话的含意?

  “我们会尝试利用听人类说话时的停顿信息,作为一种分词算法的辅助。”讯飞翻译业务负责人翟吉博说。

   ……

    更多精彩请阅读《高中生》杂志!


[《高中生》杂志·新高考网 责任编辑:陈姣]

关于我们 - 关于《高中生》杂志社 - 联系我们 - 编辑热线 - 投稿

copyright 2010-2016 中共湖南省委宣传部、湖南省教育厅主管,湖南教育报刊集团主办,《高中生》杂志社承办
ALL Rights Reserved

互联网出版许可证:新出版网证(湘)字017号 湘ICP备10000103号