AI大模型含义
AI 大模型是人工智能预训练大模型的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了新的人工智能模式,即模型在大规模数据集上完成预训练后,仅需少量数据的微调甚至无需微调,就能直接支撑各类应用。这些模型通常具有多层神经网络结构,并使用高级的优化算法和计算资源进行训练,具有强大的泛化性、通用性和实用性,可以在自然语言处理、计算机视觉、智能语音等多个领域实现突破性性能提升。
AI大模型的内涵与特征
AI 大模型是人工智能迈向通用人工智能
的里程碑技术
AI大模型以ChatGPT为例, ChatGPT的最大贡献在于基本实现了理想 LLM 的接口层,能够使 LLM自主适配人的习惯命令表达方式,由此增加了 LLM 的易用性,提升了用户体验。
AI大模型行业发展驱动因素
在“基础设施支撑 + 顶层设计优化 + 下游需求旺盛”三轮驱动下,AI 大模型迎来了良好的发展契机。
大模型“基础设施 - 底层技术 - 基础通用 - 垂直应用”发展路线逐渐清晰,国内各厂商加速战略布局,加大资金和技术投入,迎头赶上全球大模型产业化浪潮,本土化大模型迎来发展新机遇。整体上,行业驱动因素主要包含三个层面:
01、政策端:政策环境持续优化,赋能AI 大模型市场高速发展。
02供给端:下一代 AI 基础设施等快速发展,助力大模型应用落地。
03需求端:AI 市场高景气,大模型下游行业需求旺盛。
例如,从“十二五”到“十四五”规划,国家从宏观层面上对人工智能新技术、新产业给予巨大支持,顶层设计从方向性引导到强调落地应用与场景创新,进一步细化、深化。
“十二五”至“十四五”期间部分人工智能相关政策
AI大模型技术架构
AI 大模型的技术架构通常涉及多个层次,可以分为基础层、技术层、能力层、应用层、终端层五大板块,其中核心技术层涵盖 AI 技术群和大模型的融合创新,为各行业深度赋能。
AI大模型技术架构
01基础层:AI 大模型的基础层涉及硬件基础设施和数据、算力、算法模型三大核心要素。
02技术层:AI 大模型的技术层主要涉及模型构建。目前, Transformer 架构在 AI大模型领域占据主导地位,如 BERT、GPT 系列等。AI 大模型 包括 NLP 大模型、CV 大模型、多模态大模型等。
03、能力层、应用层及用户层:在基础层和技术层的支持下,AI 大模型拥有了文字、音频、图像、视频、代码、策略、多模态生成能力等,具体应用于金融、电商、传媒、教育、游戏、医疗、工业、政务等多个领域,为企业级用户、政府机构用户、大众消费者用户提供产品和服务。
AI大模型五大价值
AI 大模型具有降低开发门槛、提高模型精度和泛化能力、提高内容生成质量和效率等多种价值,实现了对传统 AI 技术的突破。
AI大模型赛道主要玩家
国内AI大模型介绍
1商汤:日日新SenseNova大模型
基于“大模型+大装置”的技术路径,商汤推进 AGI 为核心的发展战略。商汤发布“日日新 SenseNova”大模型体系,提供自然语言、内容生成、自动化数据标注、自定义模型训练等多种大模型以及能力,结合决策智能大模型,为 AGI 实现提供重要起点。
2百度:文心大模型
百度文心大模型源于产业、服务于产业,是产业级知识增强大模型。百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用门槛。文心大模型一大特色是“知识增强”,百度自研的多源异构知识图谱拥有超过 5500 亿条知识,被融入到文心大模型的预训练中。文心大模型凭借海量数据和大规模知识的融合学习,能实现更高的效率、更好的效果、更强的可解释性。
3、阿里:通义大模型
阿里巴巴通义大模型以统一底座为基础,构建了层次化的模型体系,其中通用模型层覆盖自然语言处理、多模态、计算机视觉,专业模型层深入电商、医疗、法律、金融、娱乐等行业。通用与专业领域大小模型协同,让通义大模型系列可兼顾性能最优化与低成本落地。
通义大模型系列中的语言大模型 AliceMind-PLUG 、 多 模 态 理 解 与 生 成 统 一 模 型AliceMind-mPLUG、多模态统一底座模型M6-OFA、超大模型落地关键技术 S4 框架等核心模型及能力已面向全球开发者开源。
4华为:盘古大模型
华为云发布盘古预训练大模型,强调模型数据、网络结构、泛化能力三大核心设计。华为云规划**“L0 基础大模型-L1 行业大模型-L2 细分场景大模型**”的发展路径。
L0 阶段,盘古大模型由 NLP 大模型,CV 大模型、语音大模型、多模态大模型、科学计算大模型等组成,其中 CV 大模型超 30亿参数,预训练时输入10亿级图像数据,兼顾图像判别与生成能力;NLP大模型具备领先的中文语言理解和模型生成能力。
L1 阶段,基于已有的行业基础,华为云推出盘古气象大模型、盘古矿山大模型、盘古 OCR大模型等行业大模型,能够在 L2 阶段的煤矿场景下的瓦斯浓度的超前预警、气象领域的天气预报等多个细分场景实现落地。
5腾讯:HUNYUAN大模型
腾讯混元 AI 大模型完整覆盖 NLP 大模型、CV 大模型、多模态大模型、文生图大模型及众多行业与领域任务模型 , 先后在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶,实现跨模态领域的大满贯。目前,HunYuan-NLP1T大模型已在腾讯多个核心业务场景落地,并带来了显著的效果提升。近日腾讯正式发布全新的 AI 智能创作助手“腾讯智影”,推出了智影数字人、文本配音、文章转视频等 AI 创作工具。
AI大模型发展趋势
✦
✦
大模型将趋于“通用化”与“专用化”并行。通用化是指模型能够适用于多个领域和任务,而专用化则是指模型被设计用于特定领域或任务。
✦
✦
大模型将趋于“平台化”与“简易化”并进。平台化主要是指提供AI 模型开发和应用的完整解决方案;简易化则指使模型的使用更加简单易懂。
✦
✦
大模型发展路线逐渐清晰,MaaS 将重构商业化生态。*MaaS,即 Model as a Service,能够降低 AI应用开发门槛,重构 AI 产业的商业化结构生态,激发新的产业链分工和商业模式不断涌现。MaaS 将可能成为未来大模型的主流商业模式。
大模型发展应用路线
MaaS 模式在 B/G 端和 C 端的商业化落地有所区别。
B/G 端市场:MaaS 落地的主流商业模式将按照数据请求量和实际计算量计算。
C 端市场:MaaS 落地的主流商业模式为软件订阅费用,以及第三方 App 的推广和订阅分成费用。
Maas产业一体化架构
目前,大模型面临算力需求大、训练和推理成本高、数据质量不佳等挑战。一个可对外商业化输出的大模型的成功,要求其厂商拥有全栈大模型训练与研发能力、业务场景落地经验、AI 安全治理举措、以及生态开放性 4 大核心优势,才能保证其在竞争中突出重围。其中,全栈大模型训练与研发能力还包括数据管理经验,AI 基础设施建设与运营,以及大模型系统和算法设计 3 个关键要素。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。