EN | 中文

刘恺楠

人工智能研究员 & 工程师

刘恺楠

教育经历

香港科技大学(广州)
硕士 · 数据驱动人工智能
中南财经政法大学
学士 · 数据科学与大数据技术

发表论文

Astra: Activation-Space Tail-Eigenvector Low-Rank Adaptation of Large Language Models
ACL 2026 Findings
刘恺楠*, 张镛*, 程宁, 朱运, 王燕蒙, 王少军, 肖京
提出一种新颖的参数高效微调方法,通过任务特定校准数据(仅需64个样本)估计模型输出激活的协方差矩阵,经特征分解提取尾特征向量子空间,将低秩适配器更新约束在该弱激活子空间内,避免干扰预训练模型的 dominant 表征。在 GLUE、数学推理、代码生成和常识推理等 16 个基准上,Astra 显著优于 LoRA、DoRA、PiSSA、LoRA-GA 等现有 PEFT 方法,在 CoLA 和 MRPC 等任务上实现压倒性提升,并在部分场景下超越全参数微调。代码已开源。
GRASP: Replace Redundant Layers with Adaptive Singular Parameters for Efficient Model Compression
EMNLP 2025 主会
刘恺楠*, 张镛*, 程宁, 李志韬, 王少军, 肖京
一种梯度引导的混合模型压缩框架,结合冗余层识别与自适应奇异参数选择。通过计算相邻层隐藏状态的余弦相似度定位功能冗余的 Transformer 层,利用梯度归因的重要性评分(而非传统的大小阈值)从奇异值分解中自适应保留关键奇异分量,以轻量参数替代完整冗余层。在 20% 压缩率下保持约 90% 的原始模型性能,在 LLaMA、LLaMA 2/3、Mistral-7B 等 5 个模型家族的 19 个数据集上优于 SliceGPT、LaCo、LLM-Pruner 等方法;压缩过程无需训练,单张 A100 GPU 上约 0.16 小时即可完成。
Detecting and dissecting anomalous anatomic regions in spatial transcriptomics with STANDS
Nature Communications
徐恺辰, 鲁岩, 侯苏阳, 刘恺楠, 杜艺航, 黄梦倩, 吴浩, 孙晓波*
一种基于生成对抗网络的多任务深度学习框架,联合建模基因表达与组织学图像信息,实现空间转录组数据中异常组织区域的检测、跨样本对齐与亚型分类。通过图注意力网络和 Transformer 融合模块整合多模态特征,在 10x Visium、Slide-seqV2、Stereo-seq 等多个平台得到验证。STANDS 能够探测组织学图像上肉眼无法分辨的早期癌变区域,且是唯一能够在多样本设定下准确完成跨样本对齐和异常区域亚型分类的方法。

* 共同第一作者    通讯作者

工作经历

平安科技(深圳)有限公司
人工智能研究员 & 算法工程师
  • 负责金融风控和企业银行分析领域的大语言模型训练与优化,包括领域自适应微调、指令微调和提示优化,提升模型在金融 NLP 任务上的表现
  • 提出 Astra(ACL 2026 Findings):基于激活协方差矩阵尾特征子空间的低秩适配方法,仅需 64 个校准样本即可构建任务自适应适配器,在 16 个 NLU/NLG 基准上超越现有 PEFT 方法
  • 搭建评估与监控流水线,追踪模型在金融 NLP 基准上的表现
平安科技(深圳)有限公司
研究实习生
  • 从事模型压缩技术研究,专注于识别冗余 Transformer 层并以参数高效的替代方案进行替换
  • 提出 GRASP(EMNLP 2025 主会):结合余弦相似度冗余层识别与梯度引导奇异值选择的混合压缩框架,在 20% 压缩率下保持约 90% 原始性能,在 LLaMA-7B 至 LLaMA 3.1-8B 等模型上优于 SliceGPT 等基线
  • 在 LLaMA 2-7B/13B、LLaMA 3.1-8B-Instruct、Mistral-7B 等模型上实现并系统性评估多种剪枝与压缩方法,覆盖 19 个基准数据集
唯品会(中国)
推荐算法实习生
  • 处理和分析大规模用户-商品交互数据及行为序列,用于推荐系统优化
  • 部署 XGBoost 模型进行推荐排序优化,提升关键用户参与指标
  • 开发特征工程流水线,从历史交互数据中提取用户行为模式

专业技能

编程语言 Python 开发框架 PyTorch, PEFT, Transformers, vLLM 研究领域 参数高效微调PEFT, 模型压缩, 智能体 语言能力 中文(母语), 英语(雅思7分)