7.6
深览指数
科技腾讯新闻·脑放电波··AI 生成

把我的74G基因数据塞进Mac,AI发现了什么?

一位中国极客(段誉)花不到一万元完成高通量全基因组测序(WGS),并通过本地 Mac mini 搭配 Claude/Codex 跑完全部分析,最终拿到 172MB 的 VCF 文件(461 万处个人变异)。文章罕见地记录了从华大索要原始数据的维权过程(抄送董秘)、在非专业电脑上用 AI 完成生物信息学管线的实操细节,以及将 AI 预测(AlphaGenome)与自身健康指标(脂肪肝、糖耐受)交叉验证的新奇用法。适合想了解个人基因组测序落地成本、非 NVIDIA 平台基因分析的爱好者阅读。原文 ↗

核心观点
  • 个人全基因组测序(WGS)结合本地 AI 分析,不再是实验室专属:段誉以 <1 万元成本完成 74GB 原始数据的获取与分析,展示了个人基因数据资产化的可行性。
  • 拥有原始数据比一次性报告价值更高——随着科学进展,可自行利用 AI 对新研究进行二次解读,实现数据复用。
  1. 01华大 WGS 官方价格为 6999 元,包含 300+ 页报告(药物敏感性等),但索要原始数据需要专门维权:段誉通过 Claude 写律师函语气邮件并抄送董秘,第二天即获响应。
  2. 02数据获取过程:华大通过专用软件传输,Mac 端需用命令行,74GB FASTQ 文件下载耗时 2-3 小时;最终测序深度为 46×(每个点位测约 46 次投票表决)。
  3. 03本地分析管线:Mac mini + 两台风扇,Claude 做规划生成 sh 文件,Codex 执行;比对 47GB dbNSFP 基因词典,压缩得到 172MB VCF 文件,从中发现 461 万处个人变异。
  4. 04段誉利用 AlphaGenome(类似 AlphaFold 的非编码区预测工具)对个人数据做深入挖掘,发现其胰腺表达变异集中度最高,脂肪肝高风险基因纯合——与其实际存在的轻度脂肪肝和糖耐受受损相符。
  5. 05酒精耐受与酒精成瘾基因表现:段誉的基因表达显示耐受能力高、成瘾倾向高,但其 WHOOP 手环数据表明每次饮酒后 HRV 均大幅下降——基因与生理反应不同维度。
反方 / 局限
  • 文章未主动讨论个人基因数据的安全风险(如数据泄露、被第三方滥用),也未提及 WGS 在一般人群中临床指导价值的争议(绝大多数变异意义不明确,可能引发不必要的焦虑)。
段誉华大基因ClaudeCodexAlphaGenome全基因组测序(WGS)FASTQVCFdbNSFPMac mini微基因23魔方
8 分钟 · 4 卡片 · 7 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问