• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
大脑可以成为下一个喂给丹炉的训练集吗?

大脑可以成为下一个喂给丹炉的训练集吗?

2025 年 5 月 30 日
生成式AI应用破解跨境电商本地化翻译难题:1个月上线,翻译成本减少40% | 创新场景

聚焦有色产业 共探期货服务实体新路径

2025 年 9 月 11 日
供给端压力再度回升 纯碱价格上行驱动或不足

AI Godfather Reveals ChatGPT's Involvement in his Breakup With Ex-girlfriend

2025 年 9 月 11 日
28家上市券商「发红包」:拟中期分红188亿元;投研老将徐志敏告别中泰资管 | 券商基金早参

半导体、CRO 概念股走强,科创成长 50ETF(588020)、科创板 50ETF(588080) 等助力布局优质科创企业

2025 年 9 月 11 日
黄金9995价格多少钱一克(2025年09月01日)

收评:沪指涨 0.13% 创业板指涨 1.27% 通信设备及油气开采板块涨幅靠前

2025 年 9 月 11 日
【商务部新闻发言人就对原产于美国的进口相关光纤产品反规避调查裁决答记者问】2025年3月4日,应中国国内企业申请,商务部对原产于美国的进口相关截止波长位移单模光纤产品发起反规避调查。该案是中国首起反规避调查。立案后,商务部依法依规开展了调查,调查程序公开透明,充分保障了各利害关系方的权利。经过调查,证据显示,美国出口商通过对华出口相关截止波长位移单模光纤,规避了中国对美非色散位移单模光纤产品的反倾销措施。根据调查结果,商务部发布公告,决定自2025年9月4日起实施反规避措施。

特朗普称愿意对中印大幅加征关税,外交部回应

2025 年 9 月 11 日
在上游高供给压力下 碳酸锂短期或震荡偏弱运行

在上游高供给压力下 碳酸锂短期或震荡偏弱运行

2025 年 9 月 11 日
生成式AI应用破解跨境电商本地化翻译难题:1个月上线,翻译成本减少40% | 创新场景

金至尊铂金多少钱一克 (2025 年 09 月 05 日) 参考价格

2025 年 9 月 11 日
科创板收盘播报:科创50指数跌1.64% 电气设备股表现活跃

91 万就业数据一夜蒸发!美财长、白宫逼宫美联储:必须立刻降息

2025 年 9 月 11 日
隆基绿能:主业盈亏平衡时间点推迟到Q4  提高BC二代产品是主要目标|直击业绩会

我国海洋生产总值去年突破 10 万亿元

2025 年 9 月 11 日
「400万辆是生死线」,零跑出海给中国车企指了一条新路|钛度车库

「400 万辆是生死线」,零跑出海给中国车企指了一条新路|钛度车库

2025 年 9 月 11 日
放下身段,拥抱主流:方程豹钛7的「务实」转型

放下身段,拥抱主流:方程豹钛 7 的 「务实」 转型

2025 年 9 月 11 日
市场实际成交不活跃 尿素短期低位整理

港股券商板块交投活跃,香港证券 ETF(513090) 昨日 「吸金」 超 10 亿元,净流入额居全市场 ETF 首位

2025 年 9 月 11 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 11 日 星期四
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 行业新闻

大脑可以成为下一个喂给丹炉的训练集吗?

3 月 之前
在 行业新闻
阅读时间: 2 mins read
0 0
A A
大脑可以成为下一个喂给丹炉的训练集吗?

猜您喜欢

6月27日星光达珠宝996元/克 铂金470元/克

泡泡玛特,业绩又 「爆了」

2 月 之前
0
钛媒体科股早知道:集成电路产业的战略基础支柱之一,这个上游核心领域重要性愈发凸显

钛媒体科股早知道:集成电路产业的战略基础支柱之一,这个上游核心领域重要性愈发凸显

5 月 之前
0


文 | 追问 nextquestion

大模型 (Foundation Models) 是通过自监督或半监督学习,在大规模、多样化的未标注数据训练的深度神经网络模型。这些模型具备广泛的通用性,能够适应自然语言处理、计算机视觉、语音识别等多种下游任务。大模型的提出标志着人工智能系统构建方式的重大革新。

有趣的是,合成生物学的研究方法和大模型的思路不谋而合。在大模型得到完善后,合成生物学学者利用这个优势,解决了很多以往传统研究方法无法高效解决的难题,比如对于蛋白质结构的研究。然而,在神经科学领域,类似的进展尚未实现。那么,合成生物学中的经验是否可以被应用到神经科学的领域?大模型是否能够帮助神经科学突破过往的界限,大放异彩?

或许你对大模型的机制并不熟悉。那么让我们来举一个大模型中最广为人知的例子:语言模型 (Language Model, LM)。语言模型就是专门处理自然语言任务的大模型。但是这一框架可以拓展到除了自然语言之外的其他范式 (paradigms) 中,在语言模型的语境中,任何可被离散化为 「词元 (token)」 的数据类型均可纳入框架之中。

比如,ESM(Evolutionary Scale Modeling) 是一种研究蛋白质的语言模型,通过将氨基酸残基视为词元,然后学习序列规律来建模蛋白质的功能。此外,像 HyenaDNA 这样的基因组语言模型,能够处理百万级别碱基长度的 DNA,并从中提取复杂信息;还有如 Evo 2 这样的多模态模型,能够同时理解 DNA、RNA 和蛋白质的跨模态关系。

这种可迁移性来源于蛋白质结构和语言结构的高度相似性。语言的特征有很多,但是其中最相关的几种有:任意性 (Arbitrariness)、可交替性 (Interchangeablility)、创新性 (Productivity)、离散性 (Discreteness)。具体来说,我们说的每一句话都是单个要素 (比如音素,语素) 根据人为制定的规则形成的有限组合。而蛋白质的形成也十分类似。

然而,这种思维模式或许并不完全适用于将基础模型用于神经科学的情境——它过于聚焦于某一个庞大、单一的模型本体 (如语言模型范式),而忽略了支撑其运作的整个生态系统 (如标准化的数据平台)。我们不妨来深入剖析一下这个问题。

▷大模型机制的简略示意图。 @ Patrick Mineault

01 大模型与合成生物学

蛋白质对大部分人来说都是一个相当日常的概念,比如现在常说的 「高蛋白低碳水饮食」。但科学界对蛋白质的理解仍然不足,就算在 21 世纪的今天,蛋白质仍是合成生物学和计算生物学的核心研究对象。

蛋白质的研究挑战主要源于其序列和空间结构都包含着巨大的不确定性。蛋白质由 20 种氨基酸组成,而即使是一条长度为 100 的肽链,其理论上可能的序列组合数就达到 20^100,远远大于宇宙中原子的总数。除了序列排列组合的多样性,每一条氨基酸序列,都有可能折叠成不同的三维结构。所以,科学家们不仅要关注蛋白质的氨基酸序列,还要关注它们的三维结构、生物活性以及与其他分子的相互作用。

获得诺贝尔奖的 AlphaFold 项目的重要之处就在于,它可以根据蛋白质的序列精准预测其三维结构。这项技术的突破,得益于过去几十年科学家通过冷冻电镜 (cryo-EM)、X 射线晶体学等技术对蛋白质结构的细致研究,并将这些研究成果汇集于如 PDB(蛋白质数据库) 等的大型数据库中,使这些数据成为训练机器学习模型的基础。

但蛋白质折叠预测仅是当前生物大模型应用的冰山一角。如今该领域已扩展至更多维度。这些模型正在让我们以前所未有的方式理解生命分子,推动合成生物学进入一个由大模型驱动的新阶段。

▷合成生物学中一种以生态系统为中心的大模型视角:模型只是更大生态系统中的一部分。@ Patrick Mineault

在大模型的支持下,我们不仅可以预测单个蛋白质的结构。一些模型,比如 AlphaFold Multimer,能模拟多个蛋白质之间的相互作用;还有 RFDiffusion,可以根据功能需求 「定制」 蛋白质;又比如 ProteinMPNN,它则实现了 「逆向折叠」,从结构反推最有可能的氨基酸序列。此外,还有许多在 ESM 等大模型基础上微调而来的新模型,能跨多个生物领域预测蛋白质活性。

这些技术进步依赖于长期积累的生态系统支持。数十年来积累的大量开源工具和数据库,使我们能够轻松浏览蛋白质及其序列,比对相似结构,查看三维结构……这些数据库中收录了无数蛋白质的结构、序列、生物实验数据与预测结果。

而传统的物理建模工具如 Rosetta、分子动力学模拟等并没有被取代,它们仍是对机器学习方法的重要补充。更重要的是,物理模型有时还能反过来为机器学习模型提供训练数据,实现 「摊销式推理」(amortized inference),即提前习得对新任务快速做出判断的能力。

在这些数十年积累的基础上,我们已突破单纯理解蛋白质的阶段,实现了对生物分子的主动改造。我们可以合成新的蛋白质序列、将其装入质粒中复制、打包进腺相关病毒 (AAV) 进行递送、使用 CRISPR 进行基因编辑、再通过测序验证编辑结果。这些技术链条的整合,大大加速了合成生物学和计算生物学的研究进程。

当然,现有的模型并非完美,但它们能通过计算筛选潜在候选方案,显著减少传统实验中耗时费力的物理优化步骤。生物学中早就习惯使用 「替代终点」(surrogate endpoints),比如用小鼠模型模拟人类疾病;只是这些替代物往往存在偏差,难以直接转化为人体应用。理想的替代指标需同时满足快速和准确的要求。

举个最新的例子:Science 期刊最近报道的 EVOLVEPro 系统展示了蛋白质设计的创新路径。蛋白质设计面临一个组合爆炸问题——对于一条有 100 个残基的肽链,其可能序列组合数量高达 20 的 100 次方,远超宇宙中原子的总数,因此穷举搜索完全不可行。

▷Kaiyi Jiang et al. ,Rapid in silico directed evolution by a protein language model with EVOLVEpro.Science387,eadr6006(2025).DOI:10.1126/science.adr6006。图源:Science

EVOLVEPro 提供了一种高效的解决方案。它在 12 个深度突变扫描数据集的基准测试中 (涵盖抗原结合、核酸结合、酶催化等任务) 超越零样本 (zero-shot) 方法,并成功改造六类蛋白质,包括将单克隆抗体结合亲和力提升 40 倍、CRISPR 核酸酶活性提高五倍。

听起来非常惊人,对吧?其实它的原理并不复杂:首先在蛋白质大模型上附加 「预测头」,用已有突变数据训练其预测目标指标;随后预测出一批最有潜力的蛋白质序列,并进行合成、实验验证;再将实验结果反馈到模型中进行迭代更新,进入下一轮预测与实验。如此反复几轮,便能逐步迭代出性能更优的蛋白质。

▷EvolvePro 系统示意图,摘自论文图 1。PLM:蛋白质语言模型,此处为 ESM2。Domain Expert Top Layer 为随机森林模型

该模型基于一种蛋白质语言领域的大模型 ESM2。ESM2 是一种类似 BERT 的 「掩码语言模型」(masked language model),它将蛋白质序列中的每一个残基 (氨基酸) 编码为一个高维向量,并通过在 UniProt 上的训练获得了广泛的通用性。

一旦获得蛋白质序列的向量表示 (embedding),就可以被用于多种任务,比如结构预测 (如 ESMFold),或者可以通过对所有残基表示进行平均,得到一个固定长度的 「摘要向量」。熟悉大语言模型的读者们可能会敏锐地意识到,这些摘要向量实际上就等同于 LLM 中的词语向量 (Word Vector)。一旦实现了对这些看似无序且无限的粒子的向量化,就可以较为轻易地在此基础上进行进一步的学习和数据处理,比如进行检索增强生成 (RAG)、推荐系统、聚类分析和性质预测等任务。

在这个平均表示的基础上,研究人员还添加了一个非常简单的 「预测起始站 (prediction head)」——一个随机森林模型。为了获得初始数据,研究者合成了一批随机突变的蛋白质,然后进入了一个主动设计过程。他们使用模型预测下一个最值得尝试的突变,选择过程很直接:他们模拟所有可能的单残基突变,然后挑选出模型预测得分最高的前 N 个候选序列。

听起来很简单?的确如此。一旦拥有一个功能强大的大模型,再配合一个基础的回归器模型和一个可以快速完成 「实验反馈闭环」 的设计流程,优化蛋白质结构就不再遥不可及。

所有这一切的实现,要依赖一个工具与资源高度集成的生态系统:我们不仅能够随时读取和写入序列,拥有开放的数据共享平台来支持再训练和微调模型框架,还有高效的实验室自动化流程,让蛋白质活性检测变得前所未有地高效。

这标志着蛋白质优化速度发生了质的飞跃,而驱动力来自整个生态系统的协同:除了大模型,还包括数据集、数据库、结构图谱、计算工具,甚至是经典的物理建模方法。

▷用于优化 GECIs 的闭环系统。Wait et al.,2023 年

这种技术革新对神经科学领域的影响也不容小觑。神经科学研究中对蛋白质的需求极高,从测量神经活动到精确干预神经功能,几乎每一个关键工具都依赖于蛋白质设计。比如:遗传编码的钙/电压指示器 (GECIs、GEVIs),光遗传学 (optogenetics),化学遗传学工具 (如 DREADDs 等),又或者是用于神经环路映射的条形码技术 (如 MAP-seq、BRIC-seq、Connectome-seq) 等。

更不用说当下最热门的脑部药物也是改造后的肽类分子:比如 GLP-1 受体激动剂,它们不仅能调节血糖、控制体重,还展现出治疗上瘾、阿尔茨海默病 (AD) 和帕金森病 (PD) 等神经退行性疾病方面的巨大潜力。

02 从合成生物学到神经科学?

那么,合成生物学中的经验能否迁移到神经科学领域呢?现阶段人类对于大脑的认知是否足以支持这种举一反三?

(1) 数据是否足够?结构是否合理?

合成生物学的技术进步很大程度上是有像 PDB(蛋白质数据库) 和 UniProt 这样的高质量数据库为大模型的训练提供了坚实基础。这些数据库不仅覆盖全面,而且具有高度的注释和标准化格式,使得大规模学习变得可行。

尽管对于神经科学而言,也有一些主流的数据平台,例如 DANDI、OpenNeuro,以及 Allen Institute、IBL、HCP 等机构提供的高质量大脑活动数据。这些数据涵盖了大量的神经记录形式 (spikes、LFP、sEEG、fMRI、EEG),总量可能超过了 10000 小时,凝聚了无数研究者的努力。

但问题在于,这些数据能否构成一个真正的 「脑图谱」?目前我们仍很难同时获得具有高空间覆盖 (全脑记录)、高空间分辨率、以及高任务多样性的完整数据集。这是因为现有的神经记录形式都各有侧重。比如临床常用的 fMRI 和 EEG,只能保证空间分辨率 (fMRI) 和时间分辨率 (EEG) 其中之一。而有些技术虽然可以同时保证高空间覆盖,空间分辨率和时间分辨率 (如 MEG),但是成本太高,并且可移动性差。就算我们拥有了高维度记录,它们也只能覆盖神经活动空间中的极小一部分。类比来说,这就像只从酵母菌的一条染色体中采样序列来训练 DNA 语言模型,其通用性显然受限。

细胞类型图谱、FlyWire(果蝇全脑连接组) 等更 「生物本位」 的神经科学图谱,或许在覆盖性上更为完善,但它们仍缺少关键的跨尺度数据桥梁。例如,FlyWire 提供了果蝇脑的完整连接组,但还需要每个神经元的转录组背景、受体分布以及电生理特征来可靠地模拟神经活动。

这类桥梁就像神经科学领域的 「PDB+UniProt」,是将结构数据如连接组转化为功能机制 (activity dynamics) 所必需的。神经科学要构建大模型驱动的生态系统,未来十年最关键的任务之一,就是为与人类亲缘关系近的物种,甚至是人类本身,构建类似的全层次整合图谱,这包括遗传背景信息,细胞图谱与转录组数据,分子注释的中尺度与微尺度连接组,神经活动图谱,不同模态之间的 「校准数据集」(即跨模态桥梁) 等。

(2)我们能否主动干预大脑系统?

相比可以随意合成的蛋白质,当前神经系统的可操作性远低于蛋白质合成技术。当前带宽与维度最高的干预方式主要集中在感官外围,例如视网膜植入,或屏幕、耳机提供的视听输入。

Science Corp 的生物混合器件(biohybrid devices) 则采用新策略:将神经元培养在微电极与微型 LED 上,主动与设备形成交互界面,并逐步生长入脑组织。这些技术将为更精细、维度更高的调控提供可能。

除了技术上的可操作性,对于神经系统进行人为改造的伦理问题也有待考量。毕竟,我们并不希望身不由己地成为 《爱,死亡与机器人》 中的齐马,变成一个彻头彻尾的机械人。

▷https://science.xyz/technologies/biohybrid/

(3)能否闭环?

合成生物学中最重要的能力之一是 「闭环优化」,也就是从模型预测到实验验证,再到再训练模型,最后再次优化的过程。神经科学是否实现类似流程?目前已有一些案例展现了闭环可能性的雏形,比如视觉神经元刺激中出现的 「Inception loop」 实验,能够寻找激活特定视觉神经元的最强刺激;以及全息光遗传学干预实验,也展示了对神经活动的主动微调。

这些实验目前仍属先驱者,但它们揭示了大模型在闭环控制中的潜力。特别是其可微特性,意味着我们可以用梯度下降等方法直接搜索最优输入刺激;但该路径依赖配套硬件的发展,仍需同步突破高精度神经记录与干预技术瓶颈。

▷V4 区神经元响应的最大化刺激由 Inception 环路确定。 Willeke et al. (2023)

03 未来该做什么?

读到这里,亲爱的读者,您或许也已察觉:我们在神经科学中抱有的雄心——治愈所有神经类疾病、彻底理解智能与意识等——与我们目前所拥有的工具和数据,仍存在巨大落差。

大模型为我们提供了一个突破口:它们能够利用已有和未来的大规模神经数据,学习有效的神经表征,做出预测,并在闭环系统中进行优化,借助深度学习模型的可微特性实现自动调整与反馈。

但这一切不能在真空中发生。技术突破依赖数据与工具的协同发展,我们所收集的数据,以及用于 「读写」 神经活动、细胞类型、突触和连接的工具生态,必须彼此协同、互为促进,形成一个良性循环。要实现这一点,几乎可以肯定的是,我们需要开展大规模、非假设驱动的神经科学研究,聚焦于工具与数据本身的建设。这种研究可能会以 「聚焦型研究组织」(Focused Research Organizations, FROs) 或跨机构协同项目的形式展开。

非假设驱动的科学有时会被视为 「无头苍蝇」,但我认为它最有力的辩护来自 「认识论上的谦逊」:面对数十亿神经元、万亿级突触连接、成千上万的细胞类型、数百个脑区和受体——也许我们首先该做的,就是完成全面系统的数据采集,然后再考虑如何对其进行精准干预,从而建立真正具备因果解释力的神经模型。

未来十年,我们将拥有更多类型的神经图谱和数据库,它们将进一步支撑专用大模型与生物物理仿真模型的发展。这些知识架构将通过下一代神经技术实现互证性校准,形成动态互联的认知网络。

原文链接:

https://www.neuroai.science/p/what-are-foundation-models-for-lessons

相关 文章

生成式AI应用破解跨境电商本地化翻译难题:1个月上线,翻译成本减少40% | 创新场景
24 小时

聚焦有色产业 共探期货服务实体新路径

4 分 之前

【文章来源:期货日报】2025 有色金属期现货市场产融结合在线研讨会开启 为进一步推动有色金属期现货市场产融深度结合,中期协联合中国有色金属工业协会、上期所、广...

供给端压力再度回升 纯碱价格上行驱动或不足
期货市场

AI Godfather Reveals ChatGPT's Involvement in his Breakup With Ex-girlfriend

6 分 之前

TMTPOST -- Geoffrey Hinton, the pioneering computer scientist often dubbed the 「...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

生成式AI应用破解跨境电商本地化翻译难题:1个月上线,翻译成本减少40% | 创新场景

聚焦有色产业 共探期货服务实体新路径

2025 年 9 月 11 日
供给端压力再度回升 纯碱价格上行驱动或不足

AI Godfather Reveals ChatGPT's Involvement in his Breakup With Ex-girlfriend

2025 年 9 月 11 日
28家上市券商「发红包」:拟中期分红188亿元;投研老将徐志敏告别中泰资管 | 券商基金早参

半导体、CRO 概念股走强,科创成长 50ETF(588020)、科创板 50ETF(588080) 等助力布局优质科创企业

2025 年 9 月 11 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录