人工智能的十个重大数理问题
admin
2024-03-24 19:30:47
0

作者:徐宗本《中国科学:信息科学》2021.51:1967-1978

引言

  • AI从“不可用”→“可以用”,“可以用”→“用得好”“很好用”存在诸多技术瓶颈

  • 技术变革的先导是理论创新(新突破、新发展、新探索),即基础研究

  • AI——“算例、算法、算力

一、大数据的统计学基础

传统统计学:先问题,后数据——“数据→模型→分析→检验”

大数据统计学:先数据,后问题

统计学一直以来的公设在大数据情形下常常不满足,在真实的大样本条件下去建立各种估计的大样本性质。

统计学与人工智能的区别

统计学:使用专有的随机变量和分布函数去建模数据

人工智能:不提供对数据的建模,使用高度复杂的假设空间(eg.深度神经网络)

两者能否融合?

  • 巧用简单模型
  • 局部拼接整体
  • 逻辑与非逻辑混合
  • 内核 + 边界
  • 图网络

所有建模都必须在表示的广泛性和统计推断的易实现性或可解释性之间取得平衡,这是所有方法的瓶颈。

二、大数据计算的基础算法

人工智能算法本质上是大数据分析处理算法,即通过计算对大数据进行加工处理和从中萃取有用信息。

当前人工智能应用的主要障碍之一是对真正的大数据,大部分已知的核心算法和基础算法失效(要么不能用,要么算出结果不满意)。

七个巨人问题”:(在通常的单机环境下都有非常成熟的算法)

  • 基本统计
  • 广义N-体问题
  • 图计算问题
  • 线性代数计算
  • 最优化
  • 积分
  • 比对问题

大数据环境

  • 流环境:数据以“流”方式给出
  • 磁盘环境:数据存储在计算外设的磁盘
  • 分布式环境:数据存储在不同机器或边缘端
  • 多线程环境:数据在多处理器和共享RAM的环境中存储

三、数据空间的结构与特性

信息空间——数据空间

如何对自然产生的图像、视频、文本、网页等异构数据进行存储处理?

非结构化→结构化:本质是寻求数据的数学表示关键设置一个最小的公共维度,所有类型数据在数学化空间中都能得到表达)

对常见的这些数据空间能否赋予某种数学结构使它们成为数学上的空间?

eg.能否通过赋以缩放、卷积、平移、旋转等操作或运算,并选取图像中差异性的一种度量(欧氏距离、KL散度、Wasserstein距离等),使图像空间成为数学意义下的空间?怎样选择和搭配使建立的空间更利于图像分析?

研究数据空间为人工智能技术寻找新的突破口

四、深度学习的数学机理

深度学习独特优势:对任意复杂数据都有强的建模能力(只要训练数据足够就一定可学习、可应用,提供普适的AI解决方案)

致命缺陷:网络结构难设计、结果不具可解释性、易受欺骗等。

如何定量描述/定性刻画构-效关系?——估计深度网络泛化性能的上下界

学习过程的收敛性、深度学习的稳健性…

五、非正规约束下的最优运输问题

把异构的多类数据/信息在某个层面上打通(存在某些“共有特征”或者“不变量”)

机器翻译:把两种语言打通、把语音和文字打通

机器视觉:把图像和文字打通

六、如何学习学习方法论

学习方法是指导、管理学习者如何学习/完成学习任务的一般原则与方法学,让机器学会人类的学习方法论。

七、如何突破机器学习的先验假设

机器学习:根据输入-输出空间中的数据对未知输入-输出关系f:x→y做出估计

应用与有效性一直是以一些基本的先验假设为前提的:

  • 大容量假设
  • 独立性假设
  • 完备性假设
  • 正则子假设
  • 欧式性假设:数据集和参数集都嵌入到欧式空间中(问题在欧式空间中分析)

提高现有人工智能技术的应用水平与性能→突破这些机器学习先验假设

八、机器学习自动化问题

AI新一轮的浪潮:克服深度学习只适用于封闭静态环境、固定任务、鲁棒性不好、解释性不强等,发展对开放动态环境可用、稳定、可解释性、自适应的AI技术。

终身学习机——终身学习系统、终身学习自然原则

实现机器学习的自动化是更为现实也必须实现的中间阶段目标

  • 数据/样本层面:数据自生成、数据自选择
  • 模型/算法层面:模型自构建、算法自设计
  • 任务/环境层面:任务自切换、环境自适应

学习空间:K = F * H * L * O

F:描述数据集的分布函数空间

H:机器学习假设空间

L:损失函数空间

O:优化算法空间

九、知识推理与数据学习的融合

手工知识”——以符号推理/知识库运用为特征,知识表示人工设定

统计学习”——以基于数据/机器学习为特征,ANN广泛使用,知识自动表示

适应环境”——以自主学习/适应环境为特征

既具有强大的知识自表示/自学习功能,又具有强大的知识推理功能

十、智能寻优于AI芯片

模拟具有内在收敛特性和进化特征的自然算法

  • 群体智能算法(遗传算法、蚁群算法、粒子群算法、烟花算法)
  • 模拟退火算法
  • 文化算法

如何与深度学习结合?

AI芯片是加速AI算法执行的利器

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...