主页

微信公众号:颠覆式创新

扫以上微信二维码获取更多招聘信息

搜推广 & LBS大数据 & 大模型调优及应用

最新的内容主要和大模型技术&应用相关, 都放到公众号了, 感兴趣请移步公众号。

和自己赛跑的人,专注于互联网流量变现&搜索推荐及LBS大数据以及大模型在业务中的应用

微信公众号:颠覆式创新 (或直接扫左侧二维码)

P.S. 急招推荐,搜索,语音算法,数据挖掘,工程人才,阿里P5~P9,欢迎推荐和自荐,扫码关注左侧二维码了解详细信息,简历请发至 haibo.lihaibo@alibaba-inc.com

大模型相关内容更多会更新到公众号, 以下仅为部分内容:

深入大模型原理

作为我内部公开课的讲义材料, 还没有对外正式发布,先内部小范围记录下(不涉及公司具体项目)。以下内容主要是针对近年来对大模型相关领域的最终,阅读的论文, 以及实际的项目经验进行整理,作为内部公开可的讲义。

P.S. 

  1. 类似于ELMO, GPT, BERT, T5, GPT-3类似的模型介绍网上太多,链接中的文章主要介绍其差异
  2. 模型容量, PEFT, Prompt-Tuning,模型如何进行知识构建, 矫正, Scaling介绍会比较详尽。
  1. 深入大模型原理-极细节
  2. 大模型-ELMo(简略)
  3. 大模型-GPT(简略)
  4. 大模型-Bert(详细)
  5. 大模型-T5(详细)
  6. 大模型 GPT-3(详细)
  7. 大模型 InstructGPT(详细)
  8. 大模型 PEFT(详细)
  9. 大模型 Prompt-Tuning(详细)
  10. 大模型 LLMs进行Knowledge学习(详细)
  11. 大模型 Calibration of Prompting LLMs(详细)
  12. 大模型 Scaling:模型在大&好之间的设计和平衡(详细)
  13. 大模型Fine-Tuning技术简介(详细)
  14. 大模型 Chain-Of-Thought 原理详解(详细)

实例

  1. OpenAI的另一个产品-Point-E
  2. 基于Alpaca 7B,两天搭建mac单机不用联网纯语音交互机器人
  3. 不用联网就可以快速合成任何人的语音, 五一试一试小猪佩奇
  4. MAC单机中英语音识别互翻,任意角色语音合成:你是公司最优秀的
  5. 撕裂时代中大模型的应用的一次尝试:AI全自动化视频号内容生成,一周涨粉一千,一月涨一万?

ChatGPT横空出世让大模型进入所有人的视线。但是从研究的角度,大模型并不是最近才突然火起来的。其实最近4,5年一直都是非常火的方向,ChatGPT只是一个引爆点,把这个方向彻底带火了,一方面是ChatGPT效果的确非常惊人,另外一个主要的原因也是ChatGPT作为一个完整的独立产品,能够让C端的用户直接去进行体验,也产生了非常多的针对大模型的焦点和讨论

当然,为数庞大的C端用户直接参与到大模型的讨论中,也产生了一个比较有意思的现象, 就是人人都在用大模型,人人都在讨论大模型, 人人都认为自己已经参与到大模型的浪潮中,人人都在疯转各种铺天盖地的新闻, 但大部分的人, 对大模型还是一知半解,大模型到底是什么?包含哪些研究方向?其实很多人都说不清楚。

今天我就和大家一起捋一捋大模型的发展,都是根据我过往的项目经验以及最近的学习进行整理,自己也还在持续学习,有错误请大家指正。

多大算大模型?

多大的模型?算是大模型(LLMs), 按照学术界的研究,一般参数量差不多要到1亿左右吧(和王健林一个小目标一样, 不知道谁碰谁的瓷:),学术界一般千亿级别为Very Large Language Models。

当然,这个不是绝对的,因为大不大,它是相对的,很多时候和计算存储能力的发展也是相关的。 比较经典的例子就是搜索引擎:上世纪末,大家整天都在琢磨怎么样将整个搜索引擎放到30M的内存中, 现在自己如果train个model使用的是T4卡的话,都不好意思对外说。

为什么说一亿算是大模型的门槛呢?我感觉是因为之前大家使用非常多的BERT,效果非常好,其参数量就是亿这个量级。当然,现在的模型没有最大,只有更大!学术界也是公认的观点:模型越大,效果越好,而且还没有看到效果的天花板。

现有大模型

以下为过去几年大模型的Size。

一般这些模型里边还会再做细分, 参数上亿就会认为是大模型, 而参数上千亿, 则是Very Large Language Models

具体模型细节参见:

  1. 大模型-ELMo
  2. 大模型-GPT
  3. 大模型-Bert
  4. 大模型-T5
  5. 大模型 GPT-3
  6. 大模型 InstructGPT

大模型的Power Law

而且学术界也是公认的:模型的,容量越大,理论上来说其性能的天花板也就越高。

当然,这里说的大模型的大,包含着几层含义:

  • 第一是说模型的参数量比较大, 理论上来说,模型的参数量就代表着模型的容量,参数量越高,说明模型的容量越大,模型效果的天花板就越高
  • 第二说的是模型用于训练的语料比较大, 有大量的语料才能将模型训练充分
  • 一旦参数量和语料都变大之后,就必然意味着计算资源的消耗也就非常大。

所以大模型包含以下三方面:计算资源大(C), 模型参数大(N), 训练语料大(N)

其中C为计算资源预算,N为模型规模,D为语料大小。而因为一般在训练的时候, 基于transformer结构, 可以粗略的认为,存在以下关系:

C~6ND

  1. 其中的2ND,是在模型前向计算当中, 针对每个参数会有一次加法和一次乘法
  2. 另外4ND,则是在反向传播梯度更新过程中,参数及中间值的更新计算。

具体原理可参见:

  1. 大模型 PEFT
  2. 大模型 Prompt-Tuning

模型结构分类

因为现在的大模型几乎都是基于transformer架构的(Transformer架构被认为是效果最好同时,最容易使用gpu并行计算的模式),无论这个大模型是用于文本生成,还是语音识别或者tts,底层几乎都是去transformer,所以此处仅讨论基于transform的分类。

  • Encoder-only

例如Bert, RoBERTa都是这种类型, 这样模型可以用来产生上下文相关的embedding,但是很难直接用于文本生成。产生的上下文相关的Embedding, 可以用来进行NLP分类的任务,或者我们可以认为它比较适合文本的理解。 

我们可以判断一段ugc的内容,从情感的角度是正向的还是负向的 例如:【[CLS], the, movie, was, great】->positive;

又或者判断两段文本,他们是否从逻辑上是一致的:

【[CLS], all, animals, breathe, [SPE], cats, breathe】->entailment

优点:因为BERT是双向transformer, 所以可以用可以使用左右两边的上下文来对内容进行理解

缺点:没有办法直接用于文本生成的任务, 当然也可以使用MLM来进行生成训练

  • Decode only 

这是GPT-2和GPT-3所使用的模型方式,模型使用了autoregressive language model, 输入第1到i- 1个token, 预测第i个token,例如:

【[CLS], the, movie, was】-> great

缺点:该方式的缺点是,仅能使用左边上下文的内容去进行预测

优点:可以很自然的产生下一个token, 用于文本生成, 同时,训练目标也很明确(max-likelihood), 这也是OpenAI一直坚持用的架构。

当然, 看了那么多论文, 学术界也有一种观点:模型的架构影响偏小, 模型规模,语料规模影响较大

  • Encoder-decoder结构

理论上来说,该结构既可以用作文本生成,又可以用于文本理解,这就是该结构的优点;但该结构的缺点就是需要设计更多的训练优化目标, BART, T5都使用该结构

大模型研究方向

我们也说到大模型,第一反应就是大模型的架构是怎么样的?模型是如何实现的?其实,模型结构只是整个领域研究的一部分,而且像上文所述,学术界也有一种观点:模型的架构影响偏小, 模型规模,语料规模影响较大

整个领域研究比较多的还包括以下内容:

  1. 大模型数据集介绍和使用
  2. 大模型输出结果的偏见分析,以及矫正,例如性别偏见,宗教偏见
  3. 大模型的数据安全问题, Security:会不会将个人企业的隐私数据泄露?是不是会涉及到版权纠纷?例如大模型的学习素材中,有受版权保护的内容,那大模型作为语料学习之后的输出,算不算涉及到侵权呢?
  4. 大模型对环境的影响:训练一次gpt-3,需要3000万,碳排放电费如何考虑?嗯,反正我是不会去考虑这个问题:)
  5. 信息监管问题, Legaility
  6. 如何多快好,省的训练大模型,Scaling
  7. 大模型架构
  8. Fine-tuning, Adaptation
  9. 。。。。。

以上每个方向都有海量的论文和研究报告。。

模型研究趋势

研究趋势,这里就不写了, 大模型一天, 人间一年, 发展太快。但的确,现在AI的发展太快,而且很多方面已经超过了人类, 可能最近大家的关注点主要集中在Large Language Models上,其实在语音识别, TTS, 图像, 以及多模态领域的发展也很快, 听微软前同事说,OpenAI whisper语音识别发不出来之后,因为效果太好, 所以,微软内部裁了很多搞语音识别的团队。NLP的就更不用说了, 一直在颠覆中。

所以大家在这个撕裂所以大家在这个撕裂的时代(一方面各种大厂降本增效,外部找工作形势严峻,AI大模型领域如火如荼,都在重金招兵买马),一定要快速学习,跟上时代的步伐,提升自己的核心竞争力, 无论是将这些技术用在公司的业务中拿到成绩, 还是。。?

以上内容只是进行一个概述, 并没有包含具体的技术细节以及当前项目当中我们的使用方式以及细节。更多内容可以参见链接中的文章及公众号。



如何使用机器学习解决实际问题-以关键词相关性模型为例

本文以百度关键词搜索推荐工具字面相关性模型为基础,介绍一个机器学习任务的具体设计实现。包括目标的设定,训练数据准备,特征选。。。

了解更多


一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

学术界和工业界的一些区别。 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求。。。

了解更多


Mobvista 海外移动变现核心技术

之前受邀在QCON进行了名为海外移动变现核心技术的演讲。正好近期也在总结过去一段时间的工作,所以就直接在这儿总结了。

了解更多

社会分享交流

落地产品&系统

滴滴地图-merge



MORE

更多内容参见博客部分。。。


浏览博客