李想推出创新方法,从传统的造车转向培养AI司机,他通过独特的教程方式,让AI系统学习驾驶技能,只需动嘴指挥,这一创新举措将极大提高驾驶的智能化水平,为汽车行业带来革命性变革,李想创新汽车领域,不再仅专注于造车,而是培养AI司机,通过动嘴指挥,实现AI系统的驾驶技能学习,为驾驶智能化带来革命性变革。
今晚在《AI Talk第二季》中,理想汽车创始人李想为我们展示了中国AI领域的惊人进步,他深入介绍了理想汽车在模型研发、VLA架构等方面的成果,并分享了创业经历与个人成长思考,智能辅助驾驶系统的进化成为全场焦点,理想汽车从VLM阶段进化到VLA(视觉语言行动模型)阶段,让AI真正成为了驾驶的“大脑”。
李想提到,距离上次AI Talk仅130天,中国AI发展迅猛,像DeepSeek、千问等模型的出现,使中国在基座模型、推理模型及多模态等方面与美国差距显著缩小,这些模型在预训练、训练和推理层面的高效工程改造,彰显了中国人工智能领域的信心。
DeepSeek带来的启发让李想对MoE(混合专家模型)架构印象深刻,在构建能力时,应先搞研究,再搞研发,然后将能力表达出来并变成业务价值,理想汽车在端到端和VLM(视觉语言模型)以及VLA(视觉语言行动模型)的研发中也受益于这种研究为先的方法。
DeepSeek的出现对理想汽车加速做VLA是巨大的帮助,原本计划于2025年9月完成的VLA语言模型部分,因直接采用DeepSeek的开源框架,研发进度提前了九个月,作为回馈,理想汽车开源了自研的整车操作系统理想星环OS。
尽管有DeepSeek等优秀模型,但理想汽车仍坚持做基座模型,这是因为其业务需求具有独特性,车上对话、多模态交互及VLA模型训练都需要特定领域的语义语料,为此,理想汽车加大对基座模型团队投入,针对不同应用场景开发了不同版本模型。
李想将VLA模型视为汽车辅助驾驶领域的“司机大模型”,目标就是让AI像老司机一样干活,它经历从规则算法到端到端+VLM,再迈到VLA的进化过程,比起传统方案,VLA在处理复杂路况和与人沟通等方面更有优势。
理想展示了几个VLA的关键应用场景,包括在高速路收费站用语音控制走ETC/人工,日常行驶在路上用语音控制车辆动作,以及在停车场内漫游找车位,同时能听懂直行、转弯指令,甚至听懂“停在C3区域”这样的指令,整体来看,VLA更接近于真人开车,能根据场景迅速思考作出判断进而执行。
回顾理想汽车的创业历程,李想印象深刻的是产品发布和用户的认可,他认为自己解决问题的思维方式多年未变,只是面对的问题和服务群体规模变大,他强调要关注人,接受自己的优点和不足,用成长替代改变,对于人性与AI的关系,他认为应保留所有人性,好坏特质相互依存。
从MindGPT智能助手到如今VLA模型的深入研发,理想汽车在AI道路上不断探索前进,也许过不了多久,坐在理想汽车里就像有个专属老司机一样方便,这样的未来让人期待!