第57章 策略(1/2)
蓝策是第一个开始阅读手册的,却是最后一个放下的。
“怎么样有头绪了吗?”
“差不多了,先听你说吧,毕竟你经验多一些。”
蓝策和卫临风並没有因为决策人的位置爭吵起来,反而蓝策愿意主动给卫临风打下手。
有时候摆正自己的位置才能让事情推动得顺利一些。
“那我就先说说我的理解。”
卫临风一边对照著赛事手册,一边讲解著自己的比赛策略。
作答区虽然只有一台计算机,並且最后提交算法也是以此为结果,但是每个参赛队伍的选手都可以向赛事组申请领取一台开发用的笔记本。
笔记本经过赛事组的全面安检,无线、蓝牙模块全部被物理拆除,外部的接口只能接入封闭区域网的网线,以此来杜绝作弊的可能性。
赛事手册里虽然白纸黑字的写著禁止外部数据与设备导入,但却可以通过赛事组笔记本调用赛场封闭机房內的机架式伺服器阵列,也就是离线算力集群,以完成数据的处理。
所以卫临风的思路十分简单清晰。
先是根据题目设计出算法的结构和数据处理的策略。
然后由他先一步去到作答区搭建模型架构,毕竟这一步是无论如何也节省不了时间的。
而蓝策则是用笔记本先完成数据处理的算法,然后再到作答区接入赛事组给定的离线数据集进行数据处理同时帮助卫临风一同完善架构和进行训练。
至於王东和苏瑜然则是需要在赛事组提供的资料下完成算法的可解释性设计、临床合规校验、伦理说明。
由於是基於大夏的临床合规性,所以赛事组特定在酒店的某个会议室里临时搭建了一座小型图书馆。
里面存放了有关大夏临床要求等一系列资料,从中找到自己需要的东西也是一项消耗巨大的工作。
当然,这也是比赛的一部分。
听完卫临风的策略讲述,其他几人都没有异议,不愧是比赛经验丰富的前辈,虽然是新型赛制,却在极短的时间里就想到了目前能想到的最佳方案。
接下来几人重点討论了题目算法。
这次比赛重点聚焦的是早期胰腺导管腺癌(pdac)的精准筛查ai算法,目的是根据患者的临床数据排除其他隱患。
赛事组准备了中日韩7家顶级医院近十年的回顾性队列数据集,共包含12万例受试者,涵盖三大模態全量数据:影像、检验和文本病例。
评审要求有三点:
1.在独立测试集阳性样本占比1.8%、fpr(假阳性率)小於5%的前提下,筛查灵敏度要大於90%。
2.单例全流程推理在单张消费级显卡上耗时小於10秒。
3.可解释性模块必须符合《大夏胰腺癌早筛早诊指南》最新版循证医学规范,禁止黑箱模型输出。
对此蓝策提出了自己的看法。
“1.8%的阳性率,如果堆千亿参数的多模態大模型暴力擬合,很容易因为过擬合崩溃,而且十分浪费时间。”
“我觉得算法设计要以临床先验为核心约束,先锁死指南明確的胰腺癌高维特徵空间,再谈模型训练。”
本章未完,点击下一页继续阅读。