人工智能是一个很深奥的领域,这个学科充满未知,知识庞大且复杂,又不断自我颠覆;一旦问题稍有深入,对话就变得缠绕,越来越多的术语越讲越复杂,往往只有足够深刻的人,才能将复杂的AI讲得简单,谁都能听懂。这种感受在采访张娅教授的时候,最为强烈。
张娅是民革上海交通大学委员会副主委、上海交通大学人工智能学院特聘教授、数字医学研究院副院长,长期专注于人工智能算法及其在媒体和医疗领域的应用研究。她先后入选上海市青年科技启明星、在中美高校及国际一流企业研究院有近20年的科研经历;担任超高清视音频制播呈现国家实验室首席人工智能科学家,科技部863计划项目首席专家和科技创新2030-“新一代人工智能”重大项目负责人。
从“兴趣”到“志趣”
谈及进入AI行业的契机,张娅说,一切可能是偶然,也可能是命中注定。
张娅从小爱好就非常广泛,并展现出出色的学习能力。1996年,优异的高考成绩,以及当时口口相传的“二十一世纪是生物学的世纪”合力将她带进了清华大学生物科学与技术系。
“当时我们是一个只有33人的小班,但真可谓是卧虎藏龙。”张娅回忆,在一群拔尖人才聚集的班级里,大家都是来自全国各地成绩名列前茅的学生,具备及其出众的自身实力,想要再像以往那样成为佼佼者,对她来说无疑是一个很大的挑战。所幸,兴趣是学习最大的动力,随着课程的深入,特别是进入专业课阶段后,张娅对学科的兴趣与日俱增,甚至可以说有些着迷。
新千年之际,被誉为生命科学“登月计划”的“人类基因组计划”有了突破性进展,参与该项目的六国科学家共同宣布人类基因组草图的绘制工作已经完成,这也意味着,曾作为单一学科独立发展的生命科学迎来了多学科交叉融合,新技术前沿汇聚的“大科学时代”。
同年8月,张娅毕业后,进入宾夕法尼亚州立大学生物化学与分子生物学系攻读博士学位。在实验室轮转期间,因所在实验室与当时参与“人类基因组计划”的Webb Miller教授实验室存在合作关联,让张娅有机会首次接触到“干实验”这一前沿研究范式。所谓“干实验”,就是利用计算机技术对生物数据进行处理与分析;当时,生物信息学作为一门新兴学科,是“干实验”极为重要的发展方向。
当时,恰逢宾夕法尼亚州立大学正式宣布组建信息科学与技术学院,早已对“干实验”心生向往的张娅毫不犹豫申请转专业,并成为学院首位博士生。跨学科的学习困难重重,生物信息学是一门要求融合生物学与计算机、统计等多领域知识的学科,而张娅只是生物背景出身,编程与机器学习等课程对她而言无疑是巨大挑战。
为喜欢的事坚持,为坚持的事努力。张娅开始从基础学习,过程中往往因为代码报错、模型搭建失败而陷入沮丧,但那份对“干实验”的热忱驱使她一路坚持,不知疲倦。
终于,她的第一篇学术论文于2002年发表在美国医学信息学会年会,并荣获最佳论文奖提名。在这个过程中,张娅也逐渐意识到人工智能技术在处理生物信息方面的优势,人工智能能够高效处理海量生物数据,挖掘其中复杂的模式与关联,与生物信息学的需求高度契合。于是,她开始专注于将人工智能技术深度融入生物信息学研究,运用机器学习算法分析基因序列和预测蛋白质相互作用。在她看来,这不单单是一次学术路径的转变,更是一场知识交融与创新迸发的跨学科之旅,让她领略到了跨学科研究的无限魅力,进而转变为对生物信息学与人工智能交叉领域的深刻热爱与坚定追求。
“选择”与“热爱”同行
2005年,张娅博士毕业后任教于美国堪萨斯大学,担任长聘教轨助理教授。彼时,生物技术正处于高速发展的黄金时期,生物信息学在基因组学、蛋白质组学、代谢组学等多个方向都展现出了极高的应用价值,成为备受瞩目的焦点领域。为了支持张娅的研究工作,大学专门帮忙对接了具备高通量特性的生物实验室来支撑她。然而,现实情况却不尽如人意,她很快就面临了窘境。
数据是张娅开展一切研究的核心驱动力,她深知,在当时的条件下,待在高校就好比井底之蛙。“学校里产生数据的能力太有限了,巧妇难为无米之炊,要做好数据分析,首先得找到‘好米’,也就是高质量的数据。”
去哪里采集数据?张娅随即把目光投向了当时正兴起的互联网行业,“要知道,人工智能技术早期正是依托互联网的发展而逐步兴起的,互联网上丰富多样的数据为人工智能技术的成长提供了充足的‘养分’,它有用户,有需求”,张娅说,进入互联网行业来支撑她的专业,在那时无疑成为了张娅的不二之选。一番深思熟虑后,张娅决定入职当时互联网两大搜索巨头企业之一的雅虎,从事搜索排序核心技术研发,pt游戏平台雅虎开拓全球市场。在美国虽然可以按部就班的生活,也拥有了许多人梦寐以求的职位,但张娅始终认为,学成归来,用自己的所学为国家发展贡献力量,这才应该是她多年苦学的担当,亦是她的心之所向。
科研中的专注与坚守
2010年3月,受时任上海交大副校长张文军的感召,已在海外留学工作近十年的张娅启程回国,加入上海交通大学电子信息与电气工程学院图像通信与网络工程研究所。
回国后,张娅将研究重心投入到人工智能与媒体交叉领域,先后参与了与上海电视台和中央广播电视总台的合作项目。融媒体时代,电视台正面临着愈发空心化,只有观众、没有用户的困境。“大家对电视台的刻板印象还是以做内容为王,搞技术的不容易受关注”。但张娅认为,通过技术提升观众的收视体验同样重要。为此,张娅带领团队开始着手建立央视第一套大数据系统,通过构建观众行为分析模型,精准建模观众收视偏好,并在此基础上研发了面向“央视专区”互动电视的个性化推荐系统,团队的专业表现赢得了一致认可,被总台高度评价为“个性化推荐技术在广播电视领域应用的一个重要突破”,这也为后期双方深度合作奠定了基础。
2021年,恰逢庆祝中国共产党成立100周年,张娅团队又承担了中央广播电视总台《开国大典》等珍贵历史资料影像的修复工作,“各种历史影像退化情况不同,有的是条纹噪声,有的是斑块划痕。我们修复《开国大典》原始影像时就遇到颜色通道条纹干扰”张娅说,为了解决这些问题,团队研发了AI视频增强平台,发明了人脸超分辨方法等系列方法,这些技术让视频在细节、层次、色彩和噪声方面都有了明显改善。凭借在该项目中的贡献,张娅作为第一完成人获得了2022年度上海市技术发明一等奖。
就这样,张娅一直沿着自己既定的道路稳步前行。她表示:“高校更适合前沿性探索,我一直希望能以自己的专业所长、经历和积淀,去从事一些有价值、有意义的事情”。近年来,张娅敏锐捕捉到人工智能与医疗交叉领域蕴含的巨大潜力,逐渐将科研重心转向了AI+医疗行业。在国内,AI在医疗领域的应用主要落地在影像诊断、辅助决策、AI制药等方面;目前,从辅助诊断到个性化治疗,“AI+医疗”应用越来越广泛,并进入了发展快车道。
作为学术带头人,张娅牵头组建了一支人工智能与医疗交叉的研究团队。“我主要是做多模态人工智能医学大模型,从传统意义上来讲,医生主要依靠个人经验和知识进行诊断,而在整合了大模型之后,可以帮助医生阅片、进行辅助诊疗,在提高效率的同时,降低错漏、误读的可能性。”张娅介绍,这些模型能够通过大数据分析,深入解析患者的医疗历史、实验室数据、基因标记等多维度信息,形成全面的健康叙述。值得一提的是,张娅作为项目负责人承担了科技部科创 2030-“新一代人工智能”重大项目,其核心便是构建医疗多模态大模型,围绕这一目标,她的团队致力于攻克细粒度自监督学习、多模态数据融合、临床验证与应用等一系列关键难题。
今年,张娅被评为上海市巾帼建功标兵。她感言,作为一名女性科技工作者,我深感女性从事科学工作是不容易的,但并非不适合,因为女性有一些特点:思维严谨、很有韧性,这都是从事科学研究必不可少的。求索之路仍在继续,张娅依然深耕在她所热爱的领域,脚踏实地,精益求精,她有信心,也有耐心。