西湖首届本科生张乐程,论文登陆 AI 顶会

2023-12-13 18:03 来源:微信公众号 - ShengWuXueBa 作者:生物学霸
字体大小
- | +


美国,新奥尔良,Ernest N. Morial 会议中心,为期一周的 2023 年的 NeurIPS 大会,从 12 月 10 日开始在这里举行。


NeurIPS,全称为 Neural Information Processing Systems,即神经信息处理系统大会,聚焦于深度学习、计算机视觉、大规模机器学习、学习理论等方面,是人工智能领域的顶级学术会议之一,在全球包括 Nature、Science 在内的所有科技文献中排名第 9。


今年举行的第 37 届会议,共收到了 12343 篇有效论文投稿,最终 26.1% 的文章被录用;西湖大学有 9 篇论文中选,分别来自工学院人工智能方向的李子青实验室、王东林实验室、张岳实验室。


这本是学术界的常态,但其中一篇题为「理解和克服深度模型在分子属性预测任务上的局限性」的论文,却引起了我们的关注。因为共同一作中,出现了一个叫「张乐程」的名字 —— 这是西湖首届本科生,来自 α 书院。按投稿时间(今年春天)计算,他参与这项科研和写论文的时候还在读大一。


大一学生发 AI 顶会,怎么做到的?


张乐程



01

我们先来看看,张乐程研究了什么。
当前,AI 已经成为辅助新药发现的重要手段,尤其在药物分子的属性预测中(如毒性、溶解度等),起到了至关重要的作用。但实际研发和生产中却发现,高级的深度神经网络AI模型反而不如传统模型有效,这很反常。这篇论文的研究就专注于此。
历时三个多月,他们搜集数据、写代码、设计了一系列实验,终于找到了症结所在:因为分子具有“活性悬崖”的效应,即分子结构上细微的变化会导致很大的属性差异,而先进的深度模型对这种细微的结构变化不敏感。由此,他们提出一种基于分子数据特征编码的方式来解决该问题。

原文链接:

https://neurips.cc/virtual/2023/poster/71867


02

相对于张乐程的论文而言,我们更感兴趣的是他本人。
张乐程成长在一个双教师家庭,数学和物理一直是他的所长。初中毕业保送萧山中学后,他提前半年去高中学习,在那里接触到了编程、算法及其他计算机科学方面的知识,并加入了学校的信息学竞赛队伍,不停地刷题、自学、搜看各种专业博客、电子书,沉浸在这个全新的世界里。
进入西湖大学后,张乐程早早瞄准了「人工智能」方向。按照西湖的培养模式,所有本科生前两年不分专业,但学校会给每一位学生配备一名博导作为学术导师,带领他们「入门」。导师和学生有「双向选择」的权利。作为浙江省信息学竞赛一等奖获得者,张乐程毫不犹豫地选择了西湖人工智能分支的「顶配」—— 讲席教授李子青。


李子青,IEEE Fellow,曾任微软亚洲研究院 Research Lead,中科院自动化所模式识别国家重点实验室资深研究员。


张乐程毛遂自荐,给李子青写了一封自荐信。最终顺利入驻实验室,在一众博士师兄师姐们的座位当中有了「一席之地」。
后面的故事,看起来似乎水到渠成。有导师,有实验室,就不缺上手的机会。张乐程用了大半年的时间,一边学习机器学习的基础理论,一边参加小项目,提高深度学习的实践能力。有一天博士生师兄夏俊和他说,要不要一起来做个项目?他觉得可以,然后就加入了。
初出茅庐即首战告捷,而且是西湖首届本科生中第一个发表论文,我们问张乐程,有什么心得可以和大家分享?他认真思考了一会儿说:「要学会积极地去沟通,而不是等着别人上门来找你。西湖大学是一座『富矿』,能不能用好,就看你会不会主动去搜寻和获取。」

03

同样的故事,在夏俊这里却有不一样的解读。
夏俊是李子青实验室博士四年级学生,也是这篇顶会的共同一作,研究方向是「机器学习方法和其在生物医药领域的应用」。
在一众 AI 分支的学生中,夏俊也算是个小小的 「传奇」。先后拿到了国家奖学金、西湖大学校长奖章、苏武奖学金等荣誉,还手握多篇被 AI 不同顶会收录的论文。
回到 2022 年 8 月 11 日,夏俊收到导师李子青转发张乐程写给他的邮件,「李老师说已经决定接收他了,让我教他一些入门的基础知识。」
第二天,两人就在本科生书院见面了。之后的日子,就是老手带新手,这对「搭子」差不多每周要沟通一次,有线上,也有线下。夏俊住 C11 号楼,张乐程住 C13 号楼,多数时候两人喜欢在 C13 的 α 书院见面,有大电子屏,方便他们写写画画。夏俊会给张乐程带一些专业书,让他边看边提问,也会给他布置一些小项目上手练练。实验室每周一次的组会,只要张乐程没有课,也会来参加,不管能听懂多少。

本科生α书院

当李子青确定启动研究 AI 智药那个令人费解的问题时,夏俊决定推荐实验室里最年轻的面孔作为自己的合作者,李子青也毫无意外地给予支持。
「从经验来讲,乐程肯定不如实验室里其他人,写代码的规范性要差一点,毕竟训练少,之前有很多东西还是靠自学 『野蛮生长』。」
但夏俊发现,张乐程经常会提出一些奇奇怪怪的问题。「他在思考,他有自己的想法。」有些问题甚至让夏俊都感到汗颜,「为什么我没想到呢?」
而提问,正是西湖最看重的「科研潜质」 之一。
「这个课题在别人眼里也许就是一个必须完成的作业,但在张乐程眼里不是,他会钻进去,认真琢磨一些事。」
他相信,这位初生「牛犊」,一定会交出亮眼的成绩。

04

李子青人生中改过的论文无数。他曾任 AI 顶刊 IEEE T-PAMI 等刊物副主编,担任过 100 余个国际学术会议大会主席、程序主席或程序委员,迄今他自己发表的论文就超过 500 篇。
在学院里,他对文章以及文字的「挑剔」,众所周知。可对大一学生张乐程发 AI 顶会这件事,他用了「少见」两个字来评价。
「这是一个很优秀的学生」,李子青对张乐程写给他的那封自荐信印象深刻:


「我是高中信息竞赛的选手,在高中阶段打了100,000+行的代码,最后获得了NOIP省一和NOI冬令营全国银牌成绩。」

「我基本掌握算法导论、组合数学、离散数学,也涉猎了斯坦福大学的具体数学,也对人工智能有些许了解。」



「至于数学,我涉猎了高等数学、线性代数、概率论和数理统计、数学分析等……」


虽然李子青从未带过本科一年级的学生,但数学好、编程好,是他对学生的基本要求,况且,这孩子才高中毕业,那一刻他觉得发现了一块璞玉。
李子青深知学校「200 博导对应 60 学生」的投入和对这批年轻学生的期望。李子青说:「我所做的只不过是发掘学生的特点和潜力,鼓励他们尽早积极参与前沿科研,并创造条件让他们快速成长、成才。」
所以,张乐程的顶会论文对李子青而言,既是意外之喜,又是期待的达成。「 真为他高兴。」
在这样的规划下,才大二的张乐程已经忙到飞起:他要去上海参加资助 AI 领域优秀本科生的奖学金的面试选拔;他去南京和合肥参加美国计算机协会发起组织的国际大学生程序设计竞赛(ICPC)亚洲区域赛;他还要准备托福考试,因为按照西湖的规定,下一个学年他们将出国交换学习, 张乐程希望能去在计算机领域排行「数一数二」的加州大学伯克利分校,见识一下业界最厉害的「大牛」……
当然,少年人爱玩的天性不变。即使在这么忙的情况下,张乐程依然记挂着他的另一重身份:视频博主 「 孙 1 超 」。在夏俊眼里,张乐程是个典型的竞赛生,在数学、计算和编程方面有天赋,但不擅长表达。为此,夏俊曾特意让张乐程和一群高年级的访问学生、硕士生一起看论文、说论文,锻炼他的口头表达能力。岂料,「躲」在视频背后的「孙 1 超」,却玩得「游刃有余」:西湖大学本科生的录取通知书长什么样?想看看本科生的寝室吗?西湖大学超市里 600 ml 的可乐只要 2 块 9,是真的吗 …… 一个个话题时不时掀起一阵小高潮。


张乐程的个人主页

下一个话题是什么?说不好。也许对年轻人的想象,我们永远不能停留在今天。

编辑: 王凯

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。

  • App下载