重生之我是一颗“蛋”模拟器

重生之我是一颗“蛋”模拟器

提示:你可以用左右键翻页!

如果你不喜欢蛋蛋我a,就请点击这个可爱的蜗牛回到主页吧,(其实你随时都可以点)哭哭

清晨,我从床上醒来

啊!!!

我怎么变成了一颗蛋蛋?

我好想念我美丽的容貌

可惜我现在只是一颗卑微的蛋。。

但是蛋也有自己的人生,

既来之,则安之,我还是尽快适应这里的生活吧!!!

我要好好研究我是如何变成蛋的!

幼年蛋————————————

1岁:我是由什么构成?

我是一颗蛋,那我一定是由蛋白质构成的!

我开始学习蛋白质一级结构,认识不同的氨基酸以及他们的连接方式.

蛋白质的一级结构包括:

1、组成蛋白质的多肽链的数目

多肽是α-氨基酸以肽键连接在一起而形成的化合物,是蛋白质水解的中间产物。由两个氨基酸分子脱水缩合而成的化合物叫做二肽,同理类推还有三肽、四肽、五肽等。由三个或三个以上氨基酸分子组成的肽叫多肽。

(图为α-氨基酸)

2、多肽链的氨基酸顺序

氨基酸是一类两性有机化合物,是蛋白质的基本组成单位,组成人体的氨基酸共22种,包括20种常见氨基酸以及2种不常见氨基酸。

(图为肽链,小圆点代表氨基酸)

3、多肽链内或链间二硫键的数目和位置

二硫键是连接不同肽链或同一肽链中两个半胱氨酸的化学键。二硫键是比较稳定的共价键,在蛋白质分子中,起着稳定肽链空间结构的作用。


(蛋白质二硫键示意:R-S-S-R,其中S是硫原子,R代表氨基酸R基)

2岁:我发现肽链可以折叠

我开始学习蛋白质的二级结构。

蛋白质二级结构是多肽主链盘曲折叠形成的特定构象,基本类型有α螺旋、β折叠、β转角、Ω环和无规卷曲。

主要作用力:二级结构是通过(骨架上的羰基和酰胺基团之间形成的)氢键维持的,氢键是稳定二级结构的主要作用力。

3岁:我为什么是球状?

我学习蛋白质分子处于它的天然折叠状态的三维构象

蛋白质分子处于它的天然折叠状态的三维构象。三级结构是在二级结构的基础上进一步盘绕,折叠形成的。 三级结构主要是靠氨基酸侧链之间的疏水相互作用、氢键、范德华力和静电作用维持的。(在二级结构的基础上借助各种次级键卷曲折叠成特定的球状分子结构的构象)

程工:你只要知道有二级、三级结构这回事,以及它们之间的区别就行了。

二级、三级结构的区别:

1.范围:二级结构是局部的,只涉及蛋白质链中的一小部分氨基酸残基;而三级结构是全局的,涉及整条蛋白质链。

2.作用力:二级结构主要依靠氢键形成;三级结构则涉及到多种相互作用力。

3.功能相关性:二级结构是蛋白质功能的基础,但三级结构才是决定蛋白质最终功能的关键因素。(你再大一岁就知道了,见下一页“亚基”)

4岁:我只有一条多肽链吗?

我学习含有多条多肽链的蛋白质的结构。

在生物体内有许多蛋白质含有2条或2条以上多肽链,才能全面地执行功能。每一条多肽链都有其完整的三级结构,称为亚基(subunit), 亚基与亚基之间呈特定的三维空间分布,并以非共价键相链接,这种蛋白质分子中各亚基的空间排布 ,及亚基接触部位的布局和相互作用,称为蛋白质的四级结构。

亚基是具有四级结构的蛋白质中最小的共价单位。亚基间主要作用力有:疏水作用,氢键,离子键

青年蛋————————————

5岁:我已经五岁了,却发现蛋白质没有五级结构

现在我们并不知道每一种蛋白质的结构,

因此我开始自力更生,尝试学习如何得出准确蛋白质结构!

6岁:我逐渐掌握了人工蛋白质序列鉴定方法:

**X射线晶体学**:

将蛋白质结晶后,用X射线照射,分析衍射图案,推算出三维结构。这是最常用的实验方法

**冷冻电镜(Cryo-EM)**:

对非晶体样品进行成像,可以观察到大分子复合物的结构,适用于较大和复杂的蛋白质。

**核磁共振(NMR)**:

在溶液中测量蛋白质的原子间相互作用,推断其结构,适合较小的蛋白质。

**小角X射线散射(SAXS)**:

通过测量溶液中蛋白质的散射,得到有关其形状和大小的信息。

**质谱(Mass Spectrometry)**:

可以用于蛋白质的结构分析,尤其是修饰和相互作用的研究。

** **

此外,还有一种新兴的“纳米孔测序”,属于“第三代测序技术”之一。其特点是可以对单分子DNA测序, 原理是让DNA单链通过一个直径约1nm大小、长度也在nm级的孔,由孔的电阻变化推测正在通过孔的脱氧核糖核苷酸是什么。

DNA只有AGCT这4种脱氧核糖核苷酸,对孔电阻的影响大小不同,所以理论上很好区分。

考虑到生物中只有21种氨基酸,部分研究人员在尝试用类似的办法来给肽链测序。

BTW,南京大学有教授在从事相关研究哦,欢迎报考南京大学()

7岁:我对蛋白质折叠过程理解越来越深

然而,人工方法往往耗时且成本高。为了更快地了解蛋白质结构,

我想到了飞速进步的计算机技术,于是我开始尝试利用计算机进行模拟预测。

计算机模拟可以通过以下几个方面帮助预测蛋白质结构:

**物理模型**:

基于物理和化学原理,构建蛋白质的能量模型,模拟其折叠过程。

**计算能力的提高**:

随着计算机技术的发展,模拟复杂分子系统的能力大幅提升,使得大规模的计算变得可行。

**算法创新**:

新算法的出现(如机器学习和分子动力学模拟)使得结构预测的准确性和效率都有了显著提升。

8岁:我发现预测的精度总是不能让我满意,

我要改进我的算法!

我是人机(X)

我是人工智能

人工智能(Artificial Intelligence,简称AI)是计算机科学的一个分支,它企图了解智能的实质, 并生产出一种新的能以人类智能相似方式做出反应的智能机器。人工智能的研究包括机器人、 语言识别、图像识别、自然语言处理和专家系统等。简单来说,就是让机器通过学习来模拟 人类的思维和行为。

运用人工智能,能大大提高你预测的精度!

为什么人工智能可以搅生物科学的活?

中年蛋————————————

9岁:我开始尝试用人工智能预测蛋白质结构。

AI预测蛋白质结构的流程:原文链接

1、蛋白质骨架设计:

早期的Rosetta等工具奠定了基础,尽管它们并不完全属于人工智能范畴。 近期的研究包括Hallucination、Inpating以及更新的RFDiffusion等。

通过这些方法,研究人员能够精确设计蛋白质的骨架结构。

图1 Hallucination(幻觉,意思就是让计算机展开“想象”)、Inpainting模型思路

2、序列生成:

涉及ProGen、ProteinMPNN等技术,通过模型骨架来指导蛋白质序列的设计,以实现能够折叠成目标骨架的序列生成。

图2 ProteinMPNN模型思路。MPNN是一种图神经网络模型。 ProteinMPNN把蛋白质视为图,氨基酸视为节点,相互作用视为边,然后交给MPNN模型处理。

3、模拟、筛选:

利用工具预测生成序列的三维结构,通过与目标结构比较,筛选获得合理的序列。

这些方法能够以极快的速度进行蛋白质结构预测,并在很大程度上准确地模拟蛋白质的三维结构。

图3 结构预测

4、实验验证

使用X-光衍射核磁共振以及冷冻电镜等技术(蛋蛋我的老朋友了), 以确认通过计算和模拟获得的设计蛋白质结构是否与设想一致。

我先做个AlphaFold1.0版本试试水

1.0努力参加比赛中

在2018年的第13届全球蛋白质结构预测竞赛(CASP)上,AlphaFold获得了预测43种蛋白中的25种蛋白结构的最高分,在98名参赛者中排名第一 。

虽然。。。。我赢了比赛,但是!!!!!

成功率居然只有60%左右!!!

10岁:(梅开二度)预测的精度总是不能让我满意,

我!要!改!进!我!的!算!法!

我收集了大量数据:从各种不同的数据库,飞速地(让机器)学习各种蛋白质结构,

所谓“腹有诗书气自华”,富有不同蛋蛋蛋蛋蛋蛋蛋蛋(此处是作者@S&N在发疯,不要在意) 蛋白质结构的机器自然也能预测出不同的蛋蛋结构

我收集了好多数据

心动嘉宾1:蛋白质结构数据集PDB

PDB是一个专门收录蛋白质及核酸的三维结构资料的数据集,拥有悠久的历史,可以追溯到1971年。AlphaFold的训练数据中, PDB提供了大量的蛋白质结构信息,这些数据对于深度学习神经网络能够探索蛋白质序列和结构之间的各种依赖关系至关重要

心动嘉宾2:UniProt数据库:

UniProt是一个包含未知结构蛋白质序列的大型数据库。DeepMind团队在公开数据上训练AlphaFold系统,这些数据来自PDB和UniProt, 共包括约170,000个蛋白质结构

其他重要的男3,4,5,6

AlphaFold2采用的数据还来源于Uniref90、Uniclust30、MGnify和Big Fantastic Database等高质量的蛋白质序列数据库。

11岁,成功了!我研究出了AlphaFold2.0!

AlphaFold是DeepMind公司开发的人工智能程序。截至该网页制作时,AlphaFold已经更新到3.0。

他对于蛋白质结构的预测居然可以达到90%以上的正确率,这真是一项巨大的突破!

实现原理:(以AlphaFold2为例)

1.多序列比对(MSA):AlphaFold2 首先通过搜索蛋白质数据库,找到与目标蛋白质序列相似的序列,构建多序列比对。 这一步骤捕获了蛋白质序列的进化信息,为模型提供了关于蛋白质结构的线索.

说人话:抄现有蛋白质的作业,然后照猫画虎

2.特征构造:将 MSA 和其他蛋白质序列特征转换成深度学习模型可以处理的数值形式。 这些特征包括氨基酸的 one-hot 编码、残基间的相互作用信息等。

说人话:用AI模型能懂的方式来表示序列信息

以下是技术细节,有兴趣的自行探究---(忙着中翻中累到猝死的)@程工

3.编码器(Encoder)模块:使用自注意力机制来处理序列数据,捕获序列内以及序列间的依赖关系。 AlphaFold2 的编码器不仅处理目标蛋白质序列,还处理 MSA 中的序列,以及通过同源搜索得到的模板信息.

4.解码器(Decoder)模块:AlphaFold2 使用了一个称为不变点注意力(Invariant Point Attention,IPA)的解码器, 它能够迭代地细化蛋白质结构的预测。IPA 模块使用三维空间中的几何信息来指导结构的预测.

5.损失函数和训练:AlphaFold2 的训练涉及到多种损失函数,包括基于蛋白质结构的几何损失和基于序列的损失。 模型使用自监督学习和自蒸馏学习的方法来提高预测的准确性。

6.迭代预测:AlphaFold2 的预测过程是迭代的,通过多次应用编码器和解码器来逐步改进蛋白质结构的预测.

7.SE(3)-等变推理:AlphaFold2 的一个关键特点是其使用了等变注意力机制,这允许模型在三维空间中直接推理蛋白质残基之间的距离和角度关系, 而不需要显式的三维坐标映射.

8.结构细化:在预测过程中,AlphaFold2 不断地对初步预测的结构进行细化,以生成更准确的蛋白质模型

想看更多技术细节?点击这里

我还引入了很多新的算法,希望能更加准确的预测蛋白质的三级结构

结构模块的变化:

AlphaFold2中的结构模块被AlphaFold3中的扩散模块所取代,这种改进在不引入不变或等变约束的情况下提高了预测效果。

词汇表的扩展:

AlphaFold3将词汇表从仅代表蛋白质的氨基酸扩展到代表RNA和DNA的核苷酸以及代表所有化学分子(包括配体)的重原子。

说人话:预测的范围从仅限蛋白质 变为多种大分子,泛用性更强。

MSA模块的变化:

AlphaFold3中的MSA(Multiple Sequence Alignment,多序列比对)模块比AlphaFold2小得多,仅有四个块,并且已从新的Pairformer模块中删除。

Pairformer模块的引入:

AlphaFold3中的Pairformer模块取代了AlphaFold2中的Evoformer模块。虽然两个模块的结构相似,但Pairformer模块有一些内部的变化,例如信息从对表示到单表示的流动,但反之则不然。

激活函数的更新:

大多数但不是所有的ReLU激活函数在AlphaFold2中被SwiGLU激活函数所替换,以提高性能。

12岁:我要开始尝试做一颗属于我的蛋了。

《Cell》长篇综述:AI加持下,蛋白质从头设计迎来新时代

一个应用Alphafold进行药物研发的例子

AlphaFold 意义重大,但 并非完美,有几个地方值得进一步开发。

其一,AlphaFold 得出的是预测性结果,和实际存在偏差,需要用人工实验方法验证结果。

其二,AlphaFold 帮助设计药物的效果,依然有待观察。

其三,不能进行大型复合物的结构预测。目前做结构生物学而言,还是以生化手段为主。

---摘自知乎

我:凭什么不行?!说好的蛋白质折叠的规律都是可计算的呢!!

老年蛋————————————

13岁:我的蛋白质快要变性了。

一颗蛋白质会随着时间推移而老化、受损、失去活性,并在细胞中被溶酶体或蛋白酶体等降解。

在生命的终点,我回首蛋生,我的研究不仅让我明白了我的来历,更为人类带来了福祉。我的蛋生无憾了!

蛋白质结构预测的意义:

生物学研究,大大加快人类解析蛋白质结构与功能的速度,为从分子水平深入研究生命活动创造可能。

蛋白质工程。设计并合成满足人类需求的蛋白质,如工业酶等。

药物研发。如研制特异性抗体,可以与受体高度特异性结合,起到靶向治疗的效果,减小副作用。

... ...

蛋白质结构预测的更广阔前景,等待你来发掘。

我的成果被世人认可了

14岁:我获得了诺贝尔奖

(据说这是人类世界科学的最高奖之一?)

点击即看我的获奖风采! 他们都是蛋蛋我啊,派出的实验室中的高手(不是【手动狗头】)

蛋蛋想说?

(也是作者想说)

我作为一颗蛋,用尽了毕生的心血研究我的结构,探索我诞生的过程

幸运的是,我研究出来了,我做出了一些成果,为蛋蛋,为人类造福

数以万计的科学家,他们埋头于实验室,醉心于研究,鞠躬尽瘁一生,他们或许有所成就,但有更多的一部分一辈子都隐姓埋名,不被世人所知,他们值得我们敬佩!!

希望你们:国家创新的新兴力量,可以沿袭前辈们的科研精神,走入科研道路,像前辈们一样,为中华民族伟大复兴做出贡献!!

作者