3月27日下午,中国工程院院士,清华大学计算机系教授郑纬民莅临信息学院,为全院师生做了一场题为《人工智能大模型的几点思考》 的主题报告。

郑院士详细介绍了大模型开发四个阶段:模型开发、模型训练、模型精调和模型推理。在模型开发阶段,需要优化程序以提高效率。模型训练阶段耗时颇长,例如GPT-4使用一万块A100 GPU,训练时间长达11个月。在模型精调阶段则针对特定领域进行专门训练,如医疗或金融,以提升模型在特定领域的表现。模型完成后,在处理用户请求时也需要大量算力。

郑院士指出了大模型软件开发目前面临多方面的挑战,尤其是在框架的构建、AI编译器、并行加速技术、存储系统等方面。他指出大模型基础软件生态系统的建设将成为大模型产业成败的关键因素。他分享了清华大学高性能计算机研究团队在这些方面的研究成果,包括并行加速的“诸葛弩”和基础框架“八卦炉”,在国际上获得了广泛认可,部分实现了产业化。最后他还分享了清华大学研制的在单机上运行满血版DeepSeek的优化方法,引起了在座老师和同学们的浓厚兴趣。

在问答环节,有同学问到未来大模型与类脑计算的关系,大模型的推理能力问题,以及使用大模型的过程中遇到的调参等问题,郑院士都一一做了精彩的答复和交流。
郑纬民,清华大学计算机系教授,中国工程院院士,中国计算机学会第十届理事长。1946年出生于浙江宁波,1965年从横溪中学(今正始中学)毕业考入清华大学计算机系,1970年郑纬民从清华大学自动控制系毕业并留校任教;1982年获得清华大学计算机科学与技术系硕士学位;1985年至1986年在美国纽约州立大学石溪分校进修;1989年至1991年在英国南安普敦大学进修;2016年获得何梁何利基金科学与技术进步奖;2019年当选为中国工程院院士。现任清华大学计算机科学与技术系教授、博士生导师,高性能计算研究所所长,长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作,在存储系统扩展性、可靠性和集约性等科学问题和工程技术方面,取得了国内外同行认可的创新性成果;研制的网络存储系统、容灾系统和自维护存储系统在多个重大工程中发挥了重 要作用。获国家科技进步奖一等奖1项、二等奖2项、国家技术发明二等奖1项,何梁何利科技进步奖,2023年度中国计算机行业发展成就奖终身成就奖。