雷军：小米研发大模型的方向是轻量化和本地部署

2023-08-29 23:08:09 来源：金融界

在上周的年度演讲上，我宣布了小米科技战略升级：深耕底层技术、长期持续投入、软硬深度融合，AI全面赋能，即（软件×硬件）??。同时，也给大家介绍了小米的科技理念：选择对人类文明有长期价值的技术领域，坚持长期持续投入。

【资料图】

AI是未来的生产力，也是小米决定长期持续投入的底层赛道之一。我们在很早就开始组建AI团队，相关团队成员已经超过3000人。这些年的持续投入，为我们的自动驾驶、机器人等业务都取得了非常优秀的成果。

今年，我们迎来了一次重大的技术革命——AI大模型技术，在4月份，我们组建了AI大模型团队，并快速在小爱同学上落地应用。

我们做大模型的思路可能和很多公司不太一样，我们选择主力突破的是轻量化和本地部署。

为什么呢？

首先，大模型需要海量数据，所以很容易涉及到隐私问题，还需要巨大算力，用起来成本也很高。接着，我们是一家手机公司，怎么把自己的优势利用起来？我们想的是，它能不能轻量化？能不能本地部署，在手机端就能用上大模型？

沿着这个思路，我们团队进展非常顺利，小米自研大模型在近日的权威中文评测榜单C-EVAL和CMMLU中，取得同参数量级第一的好成绩；小米自研手机端侧大模型初步跑通，部分场景效果媲美云端。真的特别特别厉害。

很多人还想了解小米大模型研发的更多信息，今天，就和大家好好聊聊。

0 1

解码大模型

ChatGPT出现以来，大模型优异的理解能力和生成能力令人惊艳，关于其用途的探索也越来越多。目前看来，很多传统的自然语言处理任务都可以用它来完成，比如搜索、翻译、问答、摘要、信息抽取和分类以及写作等。在日常生活中，所有基于对话的服务，如客服、教育、咨询、导游等，以ChatGPT为代表的大模型都有一定的用武之地。

大模型指参数数量巨大、层次结构复杂的机器学习模型。这些模型通常具有十亿到千亿甚至万亿个参数，通过大量的数据进行训练，提供更高的理解和生成能力。

在我们看来，大模型不仅是指模型参数多、尺寸大，更重要的是代表了一种新的训练范式。我们将其总结为：大数据、大任务、大参数。

-大数据：指需要用海量的数据去训练，让模型从中自动挖掘出所需的信息。通常采用自监督或者无监督学习方式，无需人工标注就可以提炼规律、学习知识，从而提升模型的眼界。

-大任务：指学习的目标足够复杂、覆盖面广。这样才能“强迫”模型按照模块化、高类聚、低耦合的方式组织知识点，实现举一反三的泛化能力。

-大参数：指模型的知识容量。大模型的参数规模越大，模型的表达能力和学习能力也就越强。

在这个范式中，我们认为大数据和大任务是不可或缺的。如果没有大数据，模型不可能学到丰富的常识；如果没有大任务，知识点和技能点不可能在模型中有机高效地组织起来。

0 2

布局人工智能

全力突破大模型

▍以AI为基石，沉淀技术积累

我们基于未来的思考与理解，选择对人类文明有长期价值的战略方向，并坚持长期持续的投入。我们已经布局了12个技术领域，99个细分赛道，未来五年（2022-2026）至少投入1000亿以上的研发经费！

AI是未来的生产力，也是小米长期持续投入的底层赛道。小米很早就对人工智能进行布局，2016年小米AI实验室成立，并组建了第一支视觉AI团队，今年4月成立专职大模型团队，历经7年6次扩展，小米人工智能团队已经有3000多人，逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力。

成为浪潮之上的角逐者，必须有对技术的沉淀和积累。作为小米AI技术的“试验田”和“弹药库”，小米AI实验室会研发中长期的前沿技术，围绕小米业务做储备，在集团需要的时候输出“弹药”。小米对AI的深刻认识与掌握的技术能力，也有效地赋能了手机、机器人等各个业务板块。

大模型是未来科技的发展趋势，更是下一个人工智能的高地。2021年开始，小米就对大模型的方向特别关注，并开展了对话大模型的预研工作。在闲聊对话场景下，依托于月活超过1.15亿的智能语音助理小爱同学，小米研发了参数规模为28亿的对话模型，达到了当时同等参数规模下业界的较高水平。这为小米积累了多卡分布式训练的经验，为后续开展大规模语言模型训练奠定了基础。

▍小米大模型：轻量化、本地部署

小米拥有品类众多的设备，是全球规模领先的消费级物联网平台。设备多样，使用场景也各不相同，一个大模型难以兼顾。如果把一部分大模型能力下放到端侧，不仅能更好地保护用户隐私、而且有机会在本地实现千人千面的个性化定制。

软硬结合，生态连结，这是大模型技术与小米生态结合的最优方案，让用户既可以拥有数据安全，又可以拥有大模型的先进生产力。因此，“轻量化、本地部署”是小米大模型技术的主力突破方向。

目前，我们自研的13亿参数的端侧模型已经在手机端跑通，部分场景效果媲美60亿模型在云端的运算结果。与早些时候市场上放出的手机端大模型的方案相比，小米会调整模型结构和参数大小，适配各种芯片在内存和算力上的特点，致力于达到功耗、推理速度和生成效果的最佳平衡。

0 3

布局人工智能

全力突破大模型

▍自有数据更懂小米

数据上，我们自己挖掘整理的训练数据占比达到了80%，其中小米自有的产品和业务数据量达到3TB。因此我们的大模型最懂小米的产品，最懂小米的业务。

▍效率和效果的最佳平衡结构上，我们根据对Transformer结构的理解，融合了自身的实践经验进行改良；并且充分考虑设备端芯片的特色要求，合理设置模型的宽度和深度，致力于达到效率和效果的最佳均衡。▍更多策略更少浪费

训练策略上，采用小米提出的ScaledAdam优化器和Eden学习率调度器，显著提升收敛速度的同时减少了优化器中显存的浪费。由于模型的知识容量有限，需要更精巧地安排训练数据的顺序，使得模型尽可能多地掌握知识点和技能，减少参数的浪费，以此实现“轻量化”。

▍为用户隐私安全保驾护航模型部署到端侧后，信息不用上传到云端，所有计算都在本地进行，可以从根本上保证用户隐私不被泄露。即使在端云结合的服务框架下，隐私信息会存储在端侧，涉及它们的计算也尽可能在端侧完成。即使偶尔需要使用云端的能力，信息也会经过处理和加密。

0 4

仰望技术星空

脚踏体验实地

截至2023年8月10日，小米自研的大规模预训练语言模型MiLM-6B，参数规模为64亿，在权威中文评测榜单C-EVAL和CMMLU中位列同等参数规模大模型第一。

在C-Eval评估中，MiLM-6B 的平均分为60.2，总榜单排名第10、同参数量级排名第1。

“C-Eval”是由上海交通大学、清华大学、爱丁堡大学共同构建的一个针对基础模型的综合中文评估套件。它由 13948 道多项选择题组成，涵盖 52 个不同学科和四个难度级别，覆盖人文、社科、理工，及其他专业四个大方向，用以帮助中文社区研发大模型。

在CMMLU评估中，MiLM-6B在Five-shot和Zero-shot 测试中的平均分分别为57.17和60.37，均位列中文向模型第1。

“CMMLU”是一个综合性的中文大模型评估基准，涵盖了从基础学科到高级专业水平的67个主题，涉及自然科学、社会科学、人文、以及常识等，专门用于评估语言模型在中文语境下的知识和推理能力。

通过打榜，验证了我们对特定垂域进行定向增强的技术能够达到怎样的效果，这也是用轻量化模型进行业务定制的必备能力。虽然小米大模型取得了优异的成绩，但我们不会把榜单排名与用户体验画上等号。好成绩的背后，更重要的还是打磨技术、沉淀方法论，将它们运用到产品，提升用户体验才是我们的终极目标。

科技应着眼于解决问题，以需求与应用为落点。小米大模型采用“轻量化、本地部署”的方案，能够更好地解决多场景、个性化的用户需求。一方面，大模型本地运行无需担心“弱网、无网”情况，且响应速度快，使用稳定；另一方面，在提供更加个性化服务的同时，也能够更好地保护用户隐私，让技术真正改善用户体验，让成绩真正落地有效。

0 5

始终坚持小米愿景

始终坚持技术为本铁律

小米作为一家科技公司，将始终坚持我们的愿景、价值观：让所有人都能享受科技带来的美好生活，同时始终坚持技术为本的铁律，持续加大研发投入。2023年，小米研发投入预计会超过200亿。

此外，截至目前，我们的全球专利数已超过32000+件。质量也非常高，在《全球5G标准必要专利及标准提案研究报告（2023）》中，首次进入全球前十，可以说，在榜的企业，小米是最年轻的，速度最快的！

小米还很年轻，但是在技术投入与技术积累上，已经走在前列，取得了巨大的进展。时代在不断变化，小米也在不断成长，这一次小米科技战略升级，代表着我们不仅要对现在的生活有贡献，也要对人类未来的生活进步发展有贡献，构建我们的核心竞争力，成为一家真正伟大的科技公司。

未来，小米将扩大模型规模，不断探索端云结合、多模态融合的大模型解决方案，与小爱同学、MIUI、IoT、机器人、汽车等业务结合，提升小爱同学的理解能力与智能家居指令的识别能力等，给予用户更加个性化的智能体验，按照我们的思路，走出不一样的道路。

雷军：小米研发大模型的方向是轻量化和本地部署

“第三次创业”加码新能源领域！中集车辆上半年净利润大涨4.19倍

8月23日晚间，全球领先的半挂车与专用车高端制造企业中集车辆发布2023

杭州机场开展亚运“赛时一天”集中抵离压力测试

8月29日，模拟境外代表团的人员进入杭州机场。当日，浙江杭州机场开展

淮北矿业股东户数增加2.61%，户均持股80.58万元

淮北矿业2023年8月29日在上证E互动上发布消息称，截至2023年8月18日公

中国首个薄煤层气大规模开发项目全面投产

从中国海油近日获悉，我国首个薄煤层气大规模开发项目——潘河区块薄煤

微信上，女人这么做，就是动心了

即便是在恩爱的情侣，也不可能24小时，每分每秒都待在对方的身边。在爱

谱尼测试：公司具备海水、海洋水产品等放射性监测能力

谱尼测试官微8月29日消息，谱尼测试聚焦核废水关键核素，积极承担福岛

2023珠海长隆十一正常营业吗

2023珠海长隆十一正常营业吗？正常营业。（点击购买珠海长隆海洋王国门

国内期货夜盘开盘涨跌不一 纯碱跌超2%

e公司讯，国内期货夜盘开盘涨跌不一，菜油、玻璃、甲醇、淀粉小幅上涨

外交部副部长邓励同奥地利外交部秘书长举行第八轮中奥副外长级政治磋商

2023年8月28日，外交部副部长邓励同奥地利外交部秘书长劳恩斯基在北京

【8点见】银行通报员工临下班拒办业务

央视网消息：每天8点，央视网为您梳理24小时内发生在咱们身边的大小事

羽毛球世锦赛：“雅思组合”决赛摘银 无缘世锦赛第四冠

在当地时间27日结束的2023年世界羽毛球锦标赛混双决赛中，头号种

港股开盘：恒生指数高开0.72% 恒生科技指数高开1.04%

港股开盘，恒生指数高开0 72%，恒生科技指数高开1 04%。科网股多数上涨

昆仑万维：控股子公司北京绿钒与客户签订设备销售与配套技术服务合同

昆仑万维公告，控股子公司北京绿钒新能源科技有限公司与义达创新股份有

智能制造 面向未来（一线调研）

德意智家的智能模具库。 资料图片 当前，世界正进入数字经济快速

淘宝新增《淘宝网食品提货券资金冻结及解冻规则》

本规则于2023年8月25日公示，将于2023年9月1日生效。

深圳机场(000089)：2Q23实现扭亏；进入产能爬坡周期

深圳机场(000089)：2Q23实现扭亏；进入产能爬坡周期

新希望服务(03658)发布中期业绩 股东应占溢利1.09亿元 同比增长9.6% 中期股息每股0.073港元

智通财经APP讯，新希望(000876)服务(03658)发布截至2023年6月30日止六

警惕！三预警齐发！

这段时间我国南方地区天气的“主题词”又回到了“雨”不仅江南、华南多

李斌透露蔚来手机：省电不发烫，手感“绝对好”

李斌透露蔚来手机：省电不发烫，手感“绝对好”,微博博主@肥威今日上午

海洋也在升温！远海风暴概率增加 如何威胁航运业和全球供应链

陆地上酷热不退，海洋温度也屡破纪录。根据欧盟哥白尼气候变化服务机构

为数字化供需“架桥铺路” 第二届828 B2B企业节启动

深圳新闻网2023年8月29日讯（深圳特区报记者周雨萌）数字化已成企业打

09.01 [星迹]天灾帝狱·但丁，[星迹]权宝商主·埃及特，[星迹]科研行者·华南虎！

1 天灾绝唱，诚化烈阳——异形族领袖，黑金版但丁，[星迹]天灾帝狱·但

京东低价策略再加码：自营商品免邮门槛降至59元，会员可享无限免邮

此次运费门槛的调整无疑也是京东低价策略下的进一步落地。

那一记棒喝，“敲”醒了锣鼓巷

光明日报|作者李晓董城张景华张思琦在北京皇城根，有一处传统街巷——

贵州省委原书记孙志刚接受中央纪委国家监委纪律审查和监察调查

贵州省委原书记孙志刚涉嫌严重违纪违法，目前正接受中央纪委国家监委纪

9月1日起，宁波实施境外旅客购物离境退税政策

人民网北京8月28日电(记者王震)据国家税务总局网站消息，近日，宁波市

萌娃化身“小摊主”，这里的邻里市集开市啦

“儿童绘本便宜卖啦，快来看看呀！”“托马斯的小火车、积木、迪士尼玩

带我走到遥远的以后是什么歌（带我走到遥远的以后带走我）

带我走到遥远的以后是什么歌，带我走到遥远的以后带走我这个很多人还不

788小说网

很多人对788小说网不是很了解那具体是什么情况呢，现在让我们一起来瞧

这种“伤人狂魔”冲上热搜！有人差点被割断血管！几乎家家都有……

拖把、扫帚是家家户户必备的保洁工具，可如果使用的时候不注意，却立马

半场-浙江暂1-0大连人 埃弗拉抽射破门弗兰克中柱

直播吧8月26日讯中超第24轮，浙江vs大连人。上半场，埃弗拉抽射破门，

感谢母亲生养的句子（感谢生母和养母的经典句子）

今天锅盖头来为大家解答以上问题，感谢母亲生养的句子，感谢生母和养母

桂林兴坪古镇游玩攻略（广西兴坪古镇游玩攻略）

本文为大家详细介绍桂林兴坪古镇的景点概况、建议游玩时间、门票价格及

金乡县开展县级抚恤定补优抚对象轮流休养工作

优抚对象轮流休养欢迎仪式大众网见习记者高传顺通讯员王秀秀邵控基济宁

小马windows7激活工具（windows7激活工具）

1、右键单击计算机-属性。2、在弹出窗口的底部，可以看到未激活和需要

糯米烧麦怎么做（烧麦怎么做）

诸多的对于糯米烧麦怎么做，烧麦怎么做这个问题都颇为感兴趣的，为大家

娄底市教育系统师德师风主题宣讲活动双峰县专场在曾国藩学校湘军营举行

ᐃ8月26日上午，“守望道德星空领航师德建设”娄底市教育系统师德师风

秀强股份（300160）：8月28日北向资金增持23.26万股

8月28日北向资金增持23 26万股秀强股份。近5个交易日中，获北向资金减

年度总结怎么写个人总结模板（年度总结怎么写）

1、年度总结要对一年的工作进行总结，找出流程问题和自身不足，并对明

主场1比1平成都蓉城，未参加谢场的吴金贵被喊下课

国内期货夜盘开盘涨跌不一纯碱跌超2%

羽毛球世锦赛：“雅思组合”决赛摘银无缘世锦赛第四冠

智能制造面向未来（一线调研）

德意智家的智能模具库。　　资料图片　　当前，世界正进入数字经济快速

新希望服务(03658)发布中期业绩股东应占溢利1.09亿元同比增长9.6% 中期股息每股0.073港元

海洋也在升温！远海风暴概率增加如何威胁航运业和全球供应链

半场-浙江暂1-0大连人埃弗拉抽射破门弗兰克中柱

私自投喂食物、泼矿泉水多名游客被终身禁入成都熊猫基地

从机器人博览会观察前沿技术和产业发展我国机器人产业迈向中高端

从容不迫的意思和造句从容不迫的意思

香港市建局九龙城项目暂最少收8份意向含新世界发展、华懋等

8月27日，陈清晨（左）贾一凡在颁奖仪式后。新华社记者任鹏飞摄当日，

在手现金1142亿元中国海外发展上半年赚1802亿元

2020年三伏贴敷时间表三伏贴贴敷时间及注意事项）

芯源微：上半年归母净利润1.36亿元同比增95.48%

焕然一新这些变化点亮新学年