1.1 AI简述
人工智能(Artificial Intelligence,AI)是指利用计算机模拟人类智能的理论、方法、技术和应用系统的总称。比如ChatGPT就是人工智能领域的杰出产品,它通过大量数据和算力模拟人类的语言能力。
机器学习(Machine Learning,ML)是一种人工智能技术,通过对数据进行训练和学习,让计算机能够从数据中学习并自动改善算法的性能,以达到特定的目标。比如线性回归就是机器学习中的一种方法,被用来探索数据潜在的规律。
深度学习(Deep Learning,DL)是机器学习的一个分支,利用深度神经网络模型来学习和识别复杂模式及其关系,以实现更高层次的抽象和推理。比如ChatGPT背后是非常庞大的神经网络,通过大量参数来学习大量数据背后的规律。
这三者的关系如图1.1所示,人工智能包含机器学习,机器学习包含深度学习。
图1.1 人工智能、机器学习和深度学习的关系
人工智能与人类认知世界的维度一致,即主要通过图像、文本和声音这三个维度进行感知和交互。图像、文本和声音分别对应计算机视觉(Computer Vision,CV)、自然语言处理(Natural Language Processing,NLP)、自动语音识别(Automatic Speech Recognition,ASR)三个重点应用领域。为了解决这三个重点应用领域的问题,我们既会用机器学习和深度学习等人工智能方法,即本书重点内容,其产品就属于AI应用范畴,也会用除人工智能外的方法,比如,计算机视觉领域中应用了传统图像处理方法,自然语言处理领域也会应用基于统计的语言模型等,如图1.2所示。
图1.2 计算机视觉、自然语言处理、自动语音识别与人工智能的关系
AI应用都是建立在这三个维度里面的一个或多个结合的基础之上的。其中,两个或两个以上维度的应用即为多模态应用,下面详细介绍相关示例。
计算机视觉指能够模拟和实现人类视觉的感知和理解能力的计算机技术,包括图像处理、图像识别、目标检测、视频分析等分支,可应用于人脸识别、自动驾驶、智能安防等场景。图1.3所示的是Midjourney自动生成的食物广告图片。这就是AI在计算机视觉领域应用的示例。Midjourney是一款能够根据文字生成新的图片的AI应用。
图1.3 计算机视觉应用示例:AI生成的食物广告图片
自然语言处理是指处理、理解和生成人类语言的计算机技术,包括文本分类、文本生成、机器翻译等分支,可应用于聊天机器人、智能客服、自动摘要等场景。图1.4展示了AI把“知识就是力量”翻译成“Knowledge is power”的编码和解码过程,这是自然语言处理领域的典型应用,即机器翻译。
图1.4 自然语言处理应用示例:从中文翻译成英文
自动语音识别(Automatic Speech Recognition,ASR)是指将人类语音转换成可识别的文本的计算机技术。自动语音识别经常与自然语言处理结合,应用于语音助手、智能客服、智能家居等领域。比如,图1.5所示的是苹果公司推出的语音助手Siri的Logo,Siri和小度机器人、小爱机器人等均为自动语音识别与自然语言处理结合的对话机器人。
图1.5 自动语音识别与自然语言处理结合应用示例:对话机器人
基于上述三个维度组合出的多模态应用十分丰富,图1.6中所示的特斯拉的自动驾驶即为典型的多模态应用。在自动驾驶中,计算机视觉负责识别实体,即图1.6左图所示的车载摄像头所识别的对自动驾驶有影响的物体;自然语言处理则负责自动驾驶的智能决策,如是否转弯、行进速度等;自动语音识别负责语音交互,即与司机的语音交流。
图1.6 多模态应用示例:特斯拉的自动驾驶