人工智能时代智能设备如何学会对话？

2021-09-18 14:53:14 来源：钱江晚报

我国将在人工智能等前沿领域进行新兴产业链布局。

开学伊始，记者也收到了一些同学的提问：现在在用的一些学习英语的人工智能产品真的是智能教学产品么?苹果手机中的siri以及很多家庭中都有的天猫精灵，与智能化外语教学产品中的技术一样吗……

本期我们咨询了我国知名人工智能专家、浙江省特聘专家、江苏省产业教授朱奇峰博士。朱博士曾就读于清华大学、中科院、美国加州大学洛杉矶分校、伯克利分校。他也是智能教学专家，曾担任三个国家级信息化教育研究课题。他独立研发了世界领先的人工智能语音技术并创办了清睿教育，最引人注目的产品——“口语100智慧学习空间”和“智能听说教练”在全国广泛应用。此次他为大家带来人工智能相关的解答。

人机对话，人工智能的标配之一

过去20年中，信息时代已跨越了数字化时代、云技术时代、大数据时代，来到了人工智能时代。

我们其实可以从和同学们关联更多的学习角度理解。每天，同学们都能用上与人工智能相关的产品，甚至在日常学习上，也会有很多体验，比如语音识别、语音分析、语音合成、口语测评、图像识别、手写体识别、自然语言理解、人机对话、作文批改等等，并且新技术的水平都在不断提升。

而我们每天都会接触的这些教学产品，也经历了“电子书包”和习题光盘、网络多媒体学习内容、通过大数据分析的精准化分析建议和教学内容推送，直至如今的人工智能个性化互动训练的阶段。比如研发人员把多种人工智能技术应用在外语教学中后，也给学生带来了全新并有效的训练形式：拟人化智能互动语言能力训练。

第一代信息化教学产品一般是传统教学内容电子化，而智能化互动训练是完全个性化的，针对学生说什么，智能教学产品可以像真人一样，能听、能说、能看、能对话、能聊天、能评价能纠正，并且通过个性化智能互动提升学生语言能力。

不过同学们肯定更关注，这种新型的人工智能互动语言训练，能对自己在外语学习等方面带来多大帮助?

看了同学们的这些疑问和希望，我们也发现，人工智能设备最大的特点之一，就是可以和同学们进行交流，也就是我们常说的“人机对话”。

智能设备，是怎么学会对话的

那么人工智能是怎么工作的呢?20多年来，人工智能的工作方式已经从专家系统、决策树，发展到统计模型和最新的多层神经网络模型——也称为“深度学习”。这个深度学习和我们日常认为的深度学习完全不同，它指的是模拟大脑神经元连接方式的人工神经网络的层数可能多达十几层甚至上百层的大数据模型方法。

比如人机智能对话在教学应用中，就得首先用到语音识别技术。为了让机器(智能老师)听懂人话，研发人员需要收集几万小时甚至十几万小时的学生语音去“训练”这个多层神经网络模型。

10万个小时的学生声音需要多大的存储呢?一分钟的声音大约需一兆字节的存储，10万小时的声音需要6TB(6000G)的存储空间，整个训练过程需要多台计算机多个CPU和GPU并用，分布协同工作连续运行约一周时间。可以看出，机器学习是一个很消耗算力的工作。

除了使用语音识别技术，智能机器还得接受发音分析技术的训练。

在这个任务中机器已经知道学生说了什么，然后需要判断学生说的是不是和标准的声音相似。语音识别任务的目标是为了容忍并听懂各种糟糕发音，而发音分析是为了挑出发音中的问题。这个貌似简单的任务其实很不简单——人可以轻松地把一个女孩儿说的A和一个成年男性说的A判断为“发音相同”，聪明地忽略他们因为性别、年龄差别对声音其实带来的巨大不同，但这对机器智能是一个挑战。

在各种智能互动训练任务中，语音合成技术也起到了重要的作用。有了这个技术，计算机才能对人说话，不仅避免同学们总是看屏幕文字，而且互动更加自然，也保护了视力。语音合成技术的背后可以使用不同的技术方案，包括波形拼接技术：直接录下一个人在录音棚里朗读的声音，存储为一个几十兆或者几百兆的包含了不同上下文的声音波形仓库，然后就可以根据合成任务的需要寻找正确的上下文波形进行拼接;还可以使用“声道参数模型”，在计算机内部模拟出气流通过声带振动和发音器官产生出最后语音波形的过程。这个方法不需要直接存储声音，但需要从声音中分析出这个人的发音器官的声道模型。

关键词：时代人工智能对话

人工智能时代 智能设备如何学会对话？

人工智能时代智能设备如何学会对话？