AI学习笔记：人工智能与机器学习概述

时间:2020-03-26 码大叔人气:3

一、人工智能基本概念

1.1 基本概念

数据分析：对历史规律的展现、对未来数据的预测。

机器学习：机器学习是指从一系列的原始数据中找到规律，提取人们可以识别的特征，然后通过学习这些特征，最终产生一个模型。

流程：原始数据-->特征提取-->模型。机器学习偏向于算法。

人工智能：Artificial Intelligence, AI，亦称机器智能，是指利用计算机来对人的意识、思维信息过程、智能行为进行模拟（如学习、推理、思考、规划等）和延伸，使计算机能实现更高层次的应用。人工智能基于机器学习偏向于应用。

数据挖掘：综合运用机器学习和人工智能技术来解决生产或生活中的问题，是一个过程，一个解决方案。

1.2 人工智能发展历程

1.3 人工智能系统技术架构

基础层（基础资源）：
- 计算资源：学习数据的过程，如果资源不足将导致训练时间非常的漫长。
- 数据资源：数据要保证可靠、充分、准确
技术层：算法、算法底层支撑的框架、算法运行环境、友好的建模界面
应用层：人工智能只是一种技术，不是一个行业，需要和各个行业进行结合，才能发挥价值。因此需要懂技术，还要懂业务。

从整个人工智能项目要经历的阶段来看

基础层：数据收集-->数据理解-->数据处理-->
技术层：特征提取-->模型构建-->模型评估-->模型训练-->
应用层：模型应用

1.4 人工智能应用领域

机器视觉：将被摄目标的形态信息、像素分布和亮度、颜色等信息，转变成数字化图像信号，传送给图形处理系统；比如手机的AI摄像头对照片进行美化。

生物识别：通过计算机，与光学、声学、生物传感器、统计学的概念手段结合，利用人体固有的身体特征、行为特征进行个人身份的鉴定。比如人脸、指纹、虹膜等。一般将特征分为两类：静态特征和行为特征（或动态特征）

专家系统：模拟人类专家解决领域问题的系统。数据库里包含含有大量的某个领域专家水平的知识与经验，跟进用户的咨询，进行推理和判断，模拟人类专家的决策过程。比如智能客服，能够进行自我学习，天猫双11 80%以上是智能客服完成的。比如券商的智能投顾。

编码遗传：AI系统利用遗传算法和图灵完备语言开发的程序理论上能够完成任何类型的任务。比如基因改造、基因测序，这一块属于较敏感的话题。

机器人学：机器人是一个综合性的人工智能产品。应用机器的视觉触觉听觉等技术、机器人语言和智能控制软件等，来承担危险的事务。比如可以参与到人不可触及、高危的场景

举例：生物识别的通用流程

1.5 人工智能模型分类

人工智能的核心是机器学习，机器学习的核心是算法。常见的算法可以分为两大阵营：

1、传统的机器学习算法：主要解决一些简单的应用场景以及结构化的数据。

2、非传统的机器学习算法：主要解决一些比较复杂的应用场景以及非结构化的数据或者多样化的数据。

常见的算法：

传统的机器学习又分为有监督学习和非监督学习，

有监督学习：有feture和label；业务系统提供的数据源知道原因又知道结果，根据原因找结果，此时称之为有监督的学习，

非监督学习：只有feture；业务系统提供的数据源不知道会产生什么结果，此时称之为非监督的学习。百度百科：指在没有类别信息情况下，通过对所研究对象的大量样本的数据分析实现对样本分类的一种数据处理方法。

半监督学习：两者的结合。

监督学习算法又可以分为分类算法和回归算法

分类算法：看label的类型。如果label离散型变量，二分类/多分类。比如线性回归算法

回归算法：连续性变量，比如预测股票价格、交通流量等。比如逻辑回归、决策树、朴素贝叶斯、支持向量机。

随机森林、K-近邻、神经网络即可做回归，也可做分类。

强化学习：根据环境来调整学习xiao，反馈机制，每一阶段其实还是传统算法

1.6 人工智能原理举例

例1：卖房子

房子有很多的属性，比如面积、楼层、朝向、学区、交通是否便利等等。利用机器学习，基于已经卖掉的房子数据可以训练出一个房价和房子众多属性之间的关联函数，以后在房子估价时只需要输入参数到模型中，就可以输出房子可以卖多少钱。这是一个典型的机器学习的回归模型的应用。

例2 买苹果

根据你每次买苹果的口味进行决策，最终选出最适合你的口味，这属于二分类问题，这是一个典型的机器学习决策树模型的应用。

二、人工智能基本原理

本章节从业务沟通与业务目标确认、业务问题转换为机器学习问题、常规建模流程、模型/业务解释四个方面进行说明。

2.1 项目角色-甲方乙方

甲方：对自己的业务比较了解，但建模水平可能还达不到企业的自身要求。

乙方：建模技术、建模经验比较充分，具有一定的业务，但还需要和甲方进行深入沟通。

注意：在项目过程中，任何时候都要注意数据安全和数据隐私。

2.2 业务沟通与业务确认

建模不是调算法，而是需要从业务本身出发，最终目的是为了业务提升。

数据与目标：有哪些数据？想做什么？之前是怎么做的？之前结果有什么不满意？

做法与思路：能不能用机器学习方法来做？如何转换为机器学习问题以及优先级？

应用于评估：训练出来的模型怎么用？期望达到什么样的效果（业务角度的效果）？

2.3 业务问题转化为机器学习问题

在用人工智能技术解决真实业务问题之前，需要思考：

是否可以用机器学习方法来做

沟通需求与业务目标
明确是否是机器学习的范畴以及是哪种问题

如何实际开发节奏

明确人工智能建模流程
预设各阶段的开发周期和检验标准

最终产品的检验标准

确定最终模型使用方式
明确最终模型的效果评估方式

2.4 人工智能建模流程

阶段概要说明：

数据收集：ETL

数据理解：数据代表业务

数据处理：数据的准确性、数据的质量。

特征提取：两种方式。一：基于人对业务经验的了解,可能存在人为因素。二：用一些神经网络的方法，基于数据本身的特征进行加工和特征提取，但只能提取通用的规律。各有利弊

模型构建：选择算法

模型评估：评估模型、优化模型。

模型最终是否能产生价值，还需要业务推动、调整，因此需要和业务进行充分、反复的沟通，确认目标、确认做工作的方式和效果。

2.5 人工智能模型与业务解释

最终一定要转化为业务语言，指导业务。

三、人工智能技术发展趋势

3.1 各大厂商一些典型的应用

微软
主要研究大数据（城市计算）、智慧医疗、知识图谱（微软认知服务），NLP（机器翻译、实时语音翻译、微软小英、微软小冰），计算机视觉等领域。
百度研究院
下设深度学习实验室（IDL）、大数据实验室（BDL）、硅谷人工智能实验室（SVAIL）、商业智能实验室（BIL）、机器人与自动驾驶实验室（RAL）、认知计算实验室（CCL）、量子计算研究所（IQC）；多模态深度语义理解的百度大脑3.0，Apollo平台；
腾讯AI实验室
游戏类AI，围棋AI（绝艺）、王者荣耀AI（绝悟）等
华为诺亚方舟实验室
计算机视觉、推荐与搜索、AI基础理论、语音和语言处理、决策与推理等
阿里巴巴达摩院
分为机器智能、数据计算、机器人、金融科技、X实验室共5大研究领域，14个实验室。产品：人工智能芯片平头哥。

3.2 人工智能研究方向

1、深度神经网络：解开神经网络的工作原理

2、模糊计算：以模糊集理论为基础，它可以模拟人脑非精确、非线性的信息处理能力

3、强化深度学习：与环境交互以解决业务问题

4、生成对抗网络：配对神经网络刺激学习，减轻处理负担

5、混合学习模式：模型融合，提高模型准确性

6、自动化机器学习：自动化建模、让AI更智能。

四、人工智能典型技术方案

星环科技企业级人工智能平台SOPHON

目的：帮助企业用户以可视化方式实现人工智能的快速落地

功能：数据导入、数据预处理、特征工程、模型训练、模型验证、模型部署、模型应用等

产品优势：自动建模技术、全场景工具、优化的分布式算法、多数据融合、微服务部署、全流程图形化、多用户协作、流式机器学习、多种计算框架、工作流调度等。

五、人工智能应用场景

5.1 基于关联分析的经典案例：沃尔玛的啤酒尿布

5.2 回归预测：比如新冠肺炎疫情的预测

5.3 知识图谱：比如超级传播者的识别

5.4 自然语言处理NP：比如垃圾邮件检测与分类

5.5 神经网络（深度学习）：人脸识别VS猪脸识别

5.6 强化学习（深度学习）：比如电子竞技-AI dota。AI选手训练量惊人，相当于每天可打200万局dota；256块GPU，12.8万个CPU核心

5.7 人工智能应用领域

欢迎关注我的个人公众号“码大叔”，也可以加我的个人微信:qiaojs，我们一起java相关的交流学习！

本文是我观看星环科技AI工程师公开培训视频的学习笔记，拿出来和大家一起分享学习，版权归星环科技所有。大家也可以直接去观看视频，老师讲的更为详细。

B站直播地址：https://live.bilibili.com/21878856，免费噢（星环科技最近不定时有很多大数据、云计算、人工智能相关的分享）

AI讲师：孙国库星环科技AI架构师&金牌讲师

感谢星环科技孙老师的精彩分享！

加载全部内容