“能够支持AI大模型的算力基础设施建设需要持续投入巨大的财力、人力,要花得起钱,找得对人,还要耐得住寂寞,这就势必导致算力集中。一是向主要国家集中,二是向资本巨头和科技巨头集中。”6月10日,新金融联盟理事长、中国银行原行长
针对上述情况,李礼辉指出,我们需要探讨的是,如何构建一个全球领先的国家级算力基础设施;如何构建一个技术可信任、资源可共享、商业可持续、市场主体可受益的算力生态圈。
“算力基础设施的布局和建设应该锚定全球领先的目标,硬件与软件并重并行,国家级与企业级联动联调,新中心与老中心集约集成,人力资源与运营成本统筹兼顾。”他认为。
会上,新金融联盟学术理事、工商银行首席技术官吕仲涛,民生银行数据管理部总经理沈志勇,平安银行数字资产管理与研发中心总经理刘锦淼PG电子注册,第四范式联合创始人、首席架构师胡时伟做了主题发言。李礼辉及中国信通院金融科技研究中心副主任赵小飞进行了点评交流。
56家银行及非银机构、55家科技公司的170多位嘉宾通过线上线下参会。会议由新金融联盟秘书长吴雨珊主持,中国金融四十人论坛提供学术支持。以下为李礼辉的发言全文,已经本人审核。
微软的人工智能实验室OpenAI于2022年11月30日推出 的人工智能聊天程序ChatGPT ,2个月内突破月活跃用户1亿大关,被称为人工智能技术发展的奇点。ChatGPT的全称是Chat Generative Pre-trained Transformer,可理解为“具有生成能力、经过预训练的人机对话转换程序”。ChatGPT有基于超级算力的学习能力、逻辑能力和语言能力,能够学习、掌握和运用大数据库中各门各类的知识,能够学习、理解和使用人类的 语言 和表达方式,能够区分语境进行人机对话交流, 能够完成撰写邮件、论文、文案、代码以及翻译等任务。 2月7日微软将ChatGPT整合到Bing搜索引擎和Edge浏览器,解决负荷过载问题;3月14日发布GPT-4,建立文本-图像映射关系,支持图片输入、表格输入和以图编程、据图写作等应用。
在ChatGPT带动下,上半年AI应用迅速扩展。Google的Bard将生成式AI融入电子邮件、图片编辑和在线工具,以前仅向美英开放,现在扩展到180个国家。百度的生成式AI产品“文心一言”可以用于商业文案制作、文学写作、数理推算、中文理解、多模态生成等场景。Character.AI开放IOS和Android下载,用户可以创建角色,对话内容涵盖撰写邮件、答问、编程等。虎博科技的多语态大语言模型TigerBot对外开源,对话AI邀请内测。
ChatGPT是目前最先进的AIGC(AI Generated Content/人工智能生成内容)模型。有人挑选评定人类理性思维的4类经典测试任务,包括语义错觉类任务、认知反射类任务、证伪选择类任务、心智程序性任务共26道题目,做了一个测试,GPT-3.5的正确率为58%,GPT-4的正确率高达88%,高于应试人类62%的平均正确率。用户发现,应用ChatGPT确实能够提高编程、翻译工作的效率,增强视频、图片创作的效果。一些大学拒绝接受AI模型辅助完成的论文。
新的AI模型能够为开发者直接创造商业价值,例如,ChatGPT Plus用户每月须支付20美元,OpenAI的市场估值大幅攀升。新的AI模型也将为企业创造价值:能够精确、快速、自动执行例行任务,从而提高产出;能够提升工业流程、物流流程、服务流程的自动化程度,从而节约成本;能够检测、发现、诊断生产经营各环节的运行缺陷,从而提升管理效率。至于AI迭代对数字经济社会的具体贡献,还有待经济学家的深入评估。
算力一般指数据计算的能力。人们一般认为,数字经济时代,数据成为生产要素,算力构成新生产力。算力基础设施包括以服务器为中枢的硬件和以算法程序为核心的软件。2022年我国算力总规模达到每秒180E(1.8万亿亿次/1.8万京次)FLOPS(浮点运算),据说排名在美国之后居全球第二。
在数字技术应用中,人工智能、大数据、云计算都需要巨大的算力支撑,人工智能计算能力反映最前沿的算力。
ChatGPT 堆砌了超级的算力,算力竞争集中表现为AI模型水平的竞争。模型的本质是对基于数据的客观规律的发现和表达PG电子网址,通过模型的学习和优化,可以得到相对准确、可信、可用的预测结果。模型可以用于 自然语言处理、计算机视觉、 智能驾驶、智能医疗保健、智能家居、智能制造、环境监测等场景和任务。在高阶的自然语言处理、计算机视觉任务中,需要万亿级到千万亿级参数的大模型,需要超级的计算资源和数据,需要更加复杂的算法和技术,需要更长的训练时间,方可在浩瀚的数据中提取出更加典型、更高维度的特征和模式,从而提高模型的准确性和时效性。算力也在很大程度上决定金融竞争力,智能化的信用评估、客户筛选、风险定价、风险控制、投资顾问、保险精算、数字员工等,都需要数据、算力和模型的支撑。
微软的OpenAI从2015年以来投入巨大财力、人力培育超级算力,终于实现AI技术迭代升级,成功打造出ChatGPT,形成AI大模型技术的优势。
能够支持AI大模型的算力基础设施建设需要持续投入巨大的财力、人力,要花得起钱,找得对人,还要耐得住寂寞,这就势必导致算力集中。一是向主要国家集中,据非官方统计,美、中两国的算力占全球算力的60%左右。二是向资本巨头和科技巨头集中,绝大多数小企业自有的财力、人力不足以自建有价值的算力。
因此,算力竞争将是主要经济体之间的国家级竞争,以及资本巨头之间、科技巨头之间的企业级竞争。我们需要探讨的是,如何构建一个全球领先的国家级算力基础设施;如何构建一个技术可信任、资源可共享、商业可持续、市场主体可受益的算力生态圈。
不同领域、不同场景的应用程序各有不同的性能、不同的覆盖范围,因而对数据资源、AI模型各有不同的需求。并非所有的应用场景都需要大规模的数据,都需要大模型。但立足于国家级、企业级的算力竞争,就必然要求国家级、企业级的数据支持。OpenAI用于ChatGPT学习和预训练的数据资源基本上是开放和共享的,总体上获得了无断层的数据供给。要打造与ChatGPT媲美的AI大模型,就一定需要无断层、无障碍的数据供给。
尽管我国具有海量数据规模和丰富应用场景的优势,但问题在于,派生于行政体制、支付模式、地缘的数据鸿沟,有可能影响我国顺利达成建设一流算力、一流AI模型的科技目标。
例如,涉及企业的信用数据和行为数据,分散在金融机构、金融监管、工商行政管理、税务、海关等不同的局域系统中,开放共享的水平不高,形成行政性的数据鸿沟。又如,我国移动支付用户规模高达9亿,数字化支付成为主要数据入口,互联网平台拥有超大规模的个人数据和企业数据,但互联网平台与金融机构之间的数据关连、数据共享尚未达成成熟的模式,数据鸿沟有待填充。
美国为首的西方发达国家依托长期发展累积而成的数据资源优势,在诸多关键领域构建了西方主导的数据资源供给格局。
以医疗健康为例,美国国立医学图书馆的 Medline 是全球最权威的 生物医学文献数据库 ,收录1966年以来70多个国家和地区出版的3400多种生物医学期刊的文献,每年递增30-35万条记录,涵盖基础医学、临床医学、环境医学、营养卫生、职业病学、卫生管理、医疗保健、微生物、药学、社会医学等细分领域。我国的生物医学文献数据库成长迅速,但目前仍然存在数量级的差距。中国医学科学院1994年研发的“中国生物医学文献数据库CBM”是一个集检索、个性化定制、全文传递为一体的生物医学中外文整合文献服务系统,检索系统兼容美国国立医学图书馆医学文献数据库Medline的检索平台Pubmed。2018年1月21日,检索平台Pubmed因美国政府财政资金断流导致停更,对全球医学实验造成重大影响。
需要警惕的是,在地缘环境中,美国联合西方国家对中国设置的技术壁垒不断升级,很有可能从高端芯片、核心软件延伸到数据资源领域,人为制造数据鸿沟。
为此,我们需要探讨的是,如何完善数据治理体系,构建适应数据特征、符合数字经济发展规律、能够保障国家数据安全的数据基础制度,充分实现数据要素价值;如何把握全球数据共享的方向和原则,参与数据跨境流动,在维护数据主权的同时,充分利用全球数据资源,打造算力竞争优势。
AI合成是指应用深度学习、虚拟现实等生成类算法制作图像、音频、视频、虚拟场景等深度合成内容。随着AI合成拟真水平的进化,最新的深度合成算法甚至可以对抗通用的技术性甄别,可以制作高仿的拟真声纹。人们开始担忧AI虚假与AI操纵对社会构成的威胁。
据统计,在爱奇艺、腾讯视频、优酷、抖音、YouTube、Twitter等10家主流平台上,2021年新发布的深度合成视频作品24317件,比2017年增长13.5倍。深度合成内容关注度呈指数级增长,市场动力充沛,2021年新发布的深度合成视频的点赞数超过3亿。
深度合成内容可以模糊真实和虚假的边界。菜鸟级别的AI虚假已经被用于实施经济,还可能被用于诋毁个人信誉和企业商誉。骨灰级别的AI操纵则可能被用于抹黑人物或政权实体,操弄负面舆情,制造恶意,破坏信任,激化社会矛盾。
因此,我们迫切需要重构AI信任。需要探讨的是,如何在技术上和制度上有效对抗AI虚假,如何建立防范AI操纵的防火墙,维护数字经济时代的。
面对AI迭代和算力竞争的新形势,我们必须加快构建高水平的算力基础设施和先进的数据基础制度,激活数据要素潜能,做强做优做大数字经济,增强经济发展新动能,构筑国家竞争新优势,维护国家数字安全。
2023年2月中央、国务院印发的《数字中国建设整体布局规划》提出:系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局。整体提升应用基础设施水平,加强传统基础设施数字化、智能化改造。推动公共数据汇聚利用,建设公共卫生、科技、教育等重要领域国家数据资源库。
长三角、珠三角和京津冀3大经济圈是数据发生、数据计算和数字技术人才的集聚区,西部北部一些地区则具有电价低、气温低的优势。算力基础设施的布局和建设应该锚定全球领先的目标,硬件与软件并重并行,国家级与企业级联动联调,新中心与老中心集约集成,人力资源与运营成本统筹兼顾。
AI模型的价值只有通过市场才能实现,没有市场需求的技术创新是不可能变现的。因此,AI大模型的构建固然要掌握领先的核心技术,也要适应市场的需求。人工智能需求具有多样化、碎片化的特点,AI小模型个性化定制研发的投入产出比偏低。AI大模型提供了一种可行方案,据专家解释,新一代的AI大模型大致分为3层,底层是基础模型,上层是面向用户的应用层,中间层是模型精调、推理迁移学习的工具箱。用海量数据预训练基础模型,再根据不同需求调适差异化的应用,可以有效降低AI模型开发的边际成本,同时扩展模型适用的范围。金融服务和管理的需求大同小异,应用AI大模型,有可能实现高效率、低投入、个性化的创新需求。
建设算力基础设施,需要专业化的企业、专业化的队伍,需要“软硬兼施”、“形神具备”、能打能干、爱拼会赢的市场主体。实践已经证明,在技术创新进程中,民营队与国家队完全可以并驾齐驱。要更多鼓励民营队,重要的是为民营企业创造更加公平、更加宽松的营商环境。要真正激励国家队,重要的是促进国有企业建立符合市场经济和科技规律的激励机制、决策机制和问责机制。在关键领域,应有必要启动举国体制,集中力量办大事,尽快取得突破。
提高数据品质,扩展数据规模,促进数据流通,实现数据共享,发掘数据价值,是数字经济发展的基本动能。中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》对构建数据基础制度、更好发挥数据要素作用制定规范,称为“数据20条”。
数据基础制度涵盖数据产权制度、数据要素流通和交易制度、数据要素收益分配制度、数据要素治理制度等4个方面。数据产权界定为数据资源持有权、数据加工使用权、数据产品经营权,分别建立公共数据、企业数据、个人数据的确权授权机制,保护数据要素各参与方合法权益,完善数据全流程合规与监管规则,构建规范高效的数据交易场所,培育数据要素流通和交易服务生态,构建数据安全合规有序跨境流通机制,健全数据要素由市场评价贡献、按贡献决定报酬机制,更好发挥政府在数据要素收益分配中的引导调节作用,建立政府、企业、社会多方协同的安全可控、弹性包容的数据要素治理制度。
这些规范是我国数字经济基础制度建设的指南,我们要认认真真执行和落实。一是遵循发展规律,创新制度安排,完善数据要素市场体制机制;二是坚持共享共用,释放价值红利,增强数据要素共享性、普惠性;三是强化优质供给,促进合规流通,提高数据要素供给数量和质量;四是完善治理体系,保障安全发展,积极有效防范和化解各种数据风险;五是深化开放合作,实现互利共赢,积极探索数据跨境流动与合作的新途径新模式。
对AI虚假与AI操纵必须高度警惕。重点是提升深度合成内容鉴别技术,及时发现并证明AI虚假,提供对抗AI虚假的公共服务;建立AI信任制度,加强AI监管,在立法和执法层面明确禁止AI造假和AI欺诈,赋予合格企业AI信任标志,在国家层级建立预防AI操纵的防火墙,维护数字经济时代的。
去中心化金融既是未来全球金融监管的热点,也可能是未来国际金融竞争的热点。例如,以太坊的去中心化金融协议涵盖数字资产管理、交易、借贷等金融功能,已经形成去中介、可自洽、可独立的链上金融体系。应有必要深入分析分布式对等架构、去中心化架构等数字化技术已经具备及潜在的颠覆性性能,重点研究去中心化金融工具穿越金融基础设施屏障、穿越货币金融主权边界的可能路径,研究技术对策和政策预案,构建数字金融安全屏障。
软件开源已经渗透越来越多的软件产品,包括AI模型。开源协作的规则包括自由再发布、源代码公开、允许派生作品、维护作者源代码完整性等。
可信的开源能够成为数字技术创新的可行路径,我们不可能拒绝开源。 必须注意的是开源的AI模型与生俱来的系统绑定与技术依赖,一是开源模型技术的天花板难以超越,二是由外国数据预训练的模型未必能够通过微调以适应本土需求,三是开源模型一旦中止开放势必造成技术断桥。
因此,在开源格局中,要建立软件安全技术标准和软件审核认证制度,防止存在安全隐患的开源软件进入我国;要加大投入,加大政策扶持,鼓励我国自己的科研机构、科创企业和数字技术人才开发具有自主产权的软件,实现核心软件基础性能、扩展性能、安全性能的优化和均衡,促进我国软件产业的进步与成长。