当人工智能自然措辞处理技能碰着“要你管和不要你管”“掉地上和掉地下”“我一把把把把住了”等中文“绕口令”,“小意思”“意思意思”等多义词时,及“俺们那疙”“中不中”等方言时,该若何“听懂”这些“中文十级”语句呢?日前在成都举办的科大讯飞未来科栈活动上,采访了干系专家。
能分词会断句 机器尚在努力
NLP便是机器让打算机来理解和处理人类自然措辞的技能,它和打算机视觉、语音处理的差异在于信息处理的类型。
“打算机视觉紧张处理图像,语音技能处理声音,而NLP紧张是对笔墨的理解。”云浮科技的创始人兼CEO张文斌说,在人工智能中,语音识别是耳朵,语音合成是嘴巴,打算机视觉是眼睛,而NLP则卖力将抽象的笔墨符号转化为打算性能理解的措辞。
“‘中文十级’的某些语句,人类去理解都有很大难度,何况是打算机。”张文斌说,在口语和书写上,汉字每每没有词与词之间的边界,即便机器能够准确识别笔墨,但理解它的意思却很难;再比如各种五花八门的地方口音和方言,也是“绊脚石”。
“自然措辞处理一样平常从最小的语意单位‘词’开始,即分词算法。这最大略,也最成熟。”张文斌说, NLP的算法分为语法级别、句子级别剖析等,个中分词便是将字词切开,让机器明白哪几个字组成一个词,哪几个词组成一句话,从而理解整句、整段的意思。但在“分词”实际的运用过程中,仍有各种问题。
张文斌阐明,首先是分词标准不愿定、存在歧义,及新词和实体词困扰等问题。如“乒乓球,拍卖完了”和“乒乓球拍,卖完了”无论怎么切分都精确,这就要依赖高下文语境。其次,每年都会呈现出的网络词汇,“神马”“不明觉厉”“佛系”等原来不存在的词也须要打算机理解。
听语气判关系 AI有新招
如何让机器读懂高下文语境,从而进一步理解整段话的含义?
“我们会考试测验利用听人类说话时的停顿信息,作为一种分词算法的赞助。”讯飞翻译业务卖力人翟吉博说。
对付AI工程师们来说,更主要的是深层次的算法,如实体识别、属性抽取等。“便是把人名、地名、机构名等实体识别出来后,再抽取实体之间的关系,搞清楚不同实体在句子中的不同属性。”张文斌说,五花八门的算法还有很多,比如情绪剖析,剖析文本里面蕴藏了什么样的情绪,是正面、负面还是中性的;文档择要,把长文天生一两百字简短的择要等。而基于这些算法层,又可以做很多NLP的衍生运用,包括自动问答、机器翻译等。
那如何识别方言呢?在科大讯飞的新款翻译机设备中,首次推出方言翻译功能,实现河南话、东北话、粤语等方言互译,或将之翻译成外语。翟吉博说,针对不同类型方言,机器采取不同翻译流程——对同属北方方言区的河南话、东北话等,可先翻译成普通话再翻译成外语;对付粤语等南方措辞,则建立独立的语料库,直接从粤语到外语进行翻译。“考虑到方言中带有许多地方特色的说法、措辞、词汇,‘雄起’‘中不中’等也可以作为独立的语料,由机器单独学习。”他说,人工智能的上风是在自然措辞处理方面能够不断从用户处积累语料,学习新的词汇和表达办法,不断完成自身数据库和语料库的更新。( 盛利)
科普百分百·助力科普中国,让科学知识在网上和生活中盛行起来。温馨提示:以上为科普百分百网上阅读所浏览内容,转载分享只为知识传播和学习宣扬,本文内容仅代表原作者不雅观点,如有见地建议,请私信留言,我们会及时处理。欢迎关注,感激。