个人简介

我是一名数学专业本科生,专注于科学智能(AI for Science)与深度学习方向的研究。曾多次主持和参与深度学习与生物信息学交叉、多模态大模型等相关课题。我的学术和科研经历始终围绕着用人工智能方法解决科学领域的挑战展开。 你可以点击此处下载我的中文简历

教育经历

南京师范大学附属中学

2019 - 2022

兰州大学数学与统计学院

2022 - 至今
理学本科生(数学基础理论班)

论文发表

所在课题组为香港城市大学卢天驰博士候选人的ai4sci_bioinfo小组

  • A General Language Model for Peptide Identification
  • Jixiu Zhai, Tianchi Lu, Haitian Zhong, Ziyang Xu, Yuhuan Liu, Shengrui Xu, Jingwan Wang, Dan Huang

    Briefings in Bioinformatics, Submitting

  • PhosF3C:A Feature Fusion Architecture with Fine-Tuned Protein Language Model and Conformer for Prediction of General Phosphorylation Sites
  • Yuhuan Liu, Haitian Zhong, Jixiu Zhai, Xueying Wang, Tianchi Lu

    Briefings in Bioinformatics

  • SCMPPI:Supervised Contrastive Multimodal Framework for Predicting Protein-Protein Interactions
  • Shengrui Xu, Tianchi Lu, Zikun Wang, Jixiu Zhai, Jingwan Wang

    NeurIPS, Submitting

  • PHbinder and PSGM:A Cascaded Framework for Epitope Prediction and HLA-I Allele Identification
  • Zikun Wang, Xueying WANG, Jixiu Zhai, ShengRui Xu, Tianchi LU

    Advanced Science, Submitting

    科研经历

    基于深度学习的蛋白质序列生物学特征预测

    项目负责人
    国家级创新创业训练计划
    2024 - 2025
    • 指导老师:王业娟教授
    • 项目内容:PDeepPP是一个通用的肽段识别深度学习框架,创新性地融合了蛋白质预训练语言模型(如ESM-2)与并行Transformer-CNN架构,实现了对肽功能预测和翻译后修饰(PTM)位点识别的统一建模。该模型同时捕捉序列局部结构与全局特征,并引入TIM损失函数,有效提升在类别不平衡数据集上的识别准确率与泛化能力。实验覆盖37项生物识别任务,PDeepPP在25项任务上AUC平均提升4.2%,部分任务准确率高达0.97,远超现有主流方法。此外,PDeepPP支持超大规模蛋白组数据的快速分析(速度提升218倍),大幅降低了对特征工程和人工标注的依赖。该框架不仅提高了肽段与PTM预测的效率和准确性,也为大规模蛋白功能注释、药物靶点筛选等领域提供了强有力的智能工具,具备广阔的科研和产业应用前景。
    • 主要职责:建模、数据收集、实验设计、可视化、论文撰写与答辩;上述所有流程的python/latex代码实现

    基于SMILES预训练深度学习框架探索蛋白质-有机分子亲和力

    项目负责人
    国家级创新创业训练计划
    2025 - 2026
    • 指导老师:王业娟教授
    • 项目内容:本项目聚焦于基于SMILES预训练的深度学习框架,提升蛋白质-有机分子结合亲和力的预测精度。创新性地引入主值概念,将分子与蛋白质多维特征整合为单一决策量,显著优化特征融合与计算效率;同时,通过高斯噪声建模,模拟分子-蛋白质结合过程中的不确定性,增强模型对实际生物环境的适应性。此外,将分子及蛋白质特征交互转化为二维矩阵输入CNN,充分提取复杂交互信息并提升模型可解释性。项目已完成PubChem数据集处理和模型初步开发,具备跨学科团队和高性能计算资源保障,成果有望在药物研发、靶点预测等领域实现高效落地,推动智能计算在生物医药行业的应用创新。
    • 主要职责:指导组员进行数据对齐,实验设计,并帮助撰写和修改论文

    以监督对比学习多模态框架预测蛋白质-蛋白质相互作用

    核心成员
    兰州大学萃英基金
    2025 - 2026
    • 指导老师:赵学靖教授
    • 项目内容:本项目针对蛋白质-蛋白质相互作用(PPI)预测的准确性与泛化能力问题,提出了一种创新性的有监督对比学习多模态深度学习框架SCMPPI。项目创新性地设计了动态加权对比损失函数,并开发了多模态特征投影头,实现蛋白质序列、结构和网络三类异源特征的深度融合。利用Node2vec算法提取蛋白质网络特征,结合基于ESMC的序列编码器,获得多尺度、多模态嵌入向量,显著提升了模型的判别能力。对比学习模块中引入TM-score作为样本相似性度量,动态调整负样本权重,有效降低假阴性率,优化了模型性能和可解释性。
    • 主要职责:提出了融合CKSAAP的ESMC预训练技术,相比传统ESMC提取特征的效果更出色

    视觉大语言模型知识编辑

    组员
    兰州大学萃英基金
    2024 - 2025
    • 指导老师:黄玉梅教授
    • 项目内容:本项目旨在解决大语言模型(LLM)在知识编辑时容易过拟合的问题。传统方法往往一旦修改模型某个知识点,就可能影响模型对其它相关内容的理解,导致泛化能力下降。为此,我们提出了REACT框架,通过“表征提取”和“选择性扰动”两个阶段,精准定位并有针对性地调整模型内部的知识表示。这样做不仅可以高效更新或修正模型中的知识,还能有效避免因编辑带来的副作用与知识混淆。该方法结构清晰、可控性强,有助于新手理解大模型知识编辑的关键技术和实际意义。
    • 主要职责: 初步了解视觉大语言模型,复现 Easyedit 上的大模型知识编辑方法

    基于深度学习的蛋白质-RNA 结合亲和力预测

    核心成员
    兰州大学萃英基金
    2025 - 2026
    • 指导老师:赵学靖教授
    • 项目内容:本项目聚焦于蛋白质-RNA结合亲和力的精准预测,致力于为基因调控机制解析及RNA靶向药物开发提供技术支撑。创新点在于提出多模态深度学习框架,融合序列、结构与动态特征,联合采用最新的蛋白质语言模型(ESM-2)、RNA语言模型(RNA-BERT)及动态k-mer特征提取,并引入分子动力学模拟与图神经网络,实现从静态到动态、从序列到空间的全方位特征表达。模型使用加权Focal Loss与对比损失函数,兼顾难分样本与全局特征分布,显著提升预测准确性和泛化能力。项目已整合多源高质量数据集,预期产出高水平论文及开源工具,为生物信息学领域的跨学科研究和产业化应用提供新范式。
    • 主要职责: 指导组员进行数据收集、处理,实验设计,并帮助撰写和修改论文

    学术奖项

    • 国家奖学金 (2023 - 2024)

      专业排名3/50

    • 兰州大学学习标兵 (2023 - 2024)

      1

    • 全国大学生数学竞赛 (2023)

      甘肃赛区二等奖

    • 全国大学生数学建模竞赛 (2024)

      甘肃赛区特等奖

    • 挑战杯创业计划竞赛 (2024)

      吉林赛区银奖

    技能与能力

    Python

    C++

    PyTorch

    Linux

    Latex