风也温柔

计算机科学知识库

数据库里索引常用的数据结构 纳米抗体常用数据库

  前 言

  本期小编和各位分享3个常用关于纳米抗体数据库INDI数据库里索引常用的数据结构,sdAb-DB,-nano,方便研究人员进行检索与分析数据库里索引常用的数据结构 纳米抗体常用数据库,快来收藏、分享和点赞吧。

  1、INDI数据库介绍INDI()数据库是由名为 的公司创建的,该公司专注于收集、生成和分析抗体数据,以实现新型生物治疗的端到端计算发现[1]。INDI整理了来自所有生物序列的主要公共渠道的纳米抗体:专利、基因库、新一代测序存储库、结构和科学出版物,并配备了强大的纳米抗体特异性序列和文本搜索,可访问超过1100万个纳米抗体序列。

  数据采集

  目前为止,数据库中包含来自687项专利的14376条独特的纳米抗体专利序列,来自979个PDBs的638条独特的纳米抗体结构序列,来自NCBI 中2070份材料的1858条独特(非专利)纳米抗体序列,来自7个生物项目的条下一代测序独特纳米抗体序列,以及从109个出版物中手工整理的1268个序列。 该数据库的搜素方法分为可变区序列搜索、CDR-3区序列搜索和文本搜索,序列检索方法是抗体/纳米抗体特异性的,与BLAST等基本的生物序列检索相比,提供了改进的检索方法。文本检索功能旨在提供一个简单的入口点,而不必考虑异类源及其关联的元数据。 可变区序列搜索 输入:要求用户提供纳米抗体的可变区域序列。单击后,系统将imgt-将查询序列与INDI中的查询序列对齐,并返回按最高序列标识排序的最高结果。输出:结果给出了匹配序列标识的细分以及特定于我们五个数据源之一的相关文本元数据(图 1)。序列相似性结果被分解为整个可变区和单个CDR的相似性,以反映搜索的纳米抗体特异性。该表格是交互式的,因此用户可以通过单击表格标题或使用下拉列表并指定精确的身份值来按序列身份对结果进行排序。返回的文本字段是特定于数据库的,并且可以使用提供的文本搜索字段来约束结果。

  图1 INDI数据库搜索纳米抗体可变区的输出结果

  CDR-3搜索

  CDR-H3是CDR中变化最大的,通常携带与抗原介导的所有原子接触的最大比例。因此,希望发现与查询序列相似的CDR-H3 序列,而不管序列其余部分的身份(例如特定的种系或CDR1/CDR2)。CDR-H3 搜索功能允许用户检索相似CDR-H3的纳米抗体序列。

  数据库表索引是什么_数据库里索引常用的数据结构_数据表中索引是什么意思

  输入:要求用户提供IMGT CDR-H3的序列(还提供了一个示例)。单击“搜索”后,系统会将输入CDR-H3序列与INDI中的IMGT CDR-H3序列对齐(不一定长度相同)。返回由序列标识给出的最高结果。

  输出:结果给出了对齐的CDR-H3的序列身份以及它们起源的完整序列的信息(图 2)。该表是交互式的,因此可以按CDR-H3身份对结果进行排序。还提供了查询和结果CDR-H3之间的精确对齐。每个结果都附有与给定序列相关联且特定于特定数据库的元数据条目。通过在结果表上方的文本搜索字段中输入匹配的关键字,可以根据元数据限制结果。

  图2 INDI数据库搜索纳米抗体CDR-3的输出结果

  文本搜索

  纳米抗体序列根据其来源存放在不同的存储库中。它们都与特定于源的丰富文本注释相关联。文本注释异质性不仅存在于源数据库中,而且存在于它们内部——没有严格的沉积规则和传达文本信息的准则数据库里索引常用的数据结构,这取决于作者在哪里包含关键信息。例如,在结构条目中,可以在整个PDB条目的标题或特定链的fasta标头中找到关键字“”。因此,为了解决文本元数据搜索的异构性问题,我们实现了在所有数据库中的所有元数据字段上创建的文本索引。以这种方式,搜索特定关键字(例如可能的目标)有一个单一且简单的入口点,而不是被冗长的特定字段表单所累。

  输入:要求用户提供关键字,可以是靶点(例如VEGF)、商业组织(例如)或疾病(例如COVID),但是搜索不限于这些类别,而是在所有文本字段上执行。

  输出:结果显示在一个交互式表格中,显示了识别关键字的条目的代表性文本。表格上方的搜索字段可用于进一步约束结果。可以通过单击文档标识符来浏览各个条目。这会将用户带到显示匹配文档信息及其相关纳米体序列的页面。

  数据库里索引常用的数据结构_数据库表索引是什么_数据表中索引是什么意思

  96971655967453413

  图3 INDI数据库文本搜索的输出结果

  2、sdAb-DB数据库介绍

  sdAb-DB()是一个免费的单域抗体数据库,由大学的团队开发的[2]。它的数据主要来源于

  1)在线数据库,包括 Data Bank和NCBI,

  2)公开发表的研究出版物,

  3)用户的分享数据。目前,此数据库包含总氨基酸序列条数1452条,来自公开出版物788条,来自PDB数据库195条,来自NCBI数据库489条。

  74471655967501149

  数据库里索引常用的数据结构_数据表中索引是什么意思_数据库表索引是什么

  图4 sdAb-DB的工作流程(序列从NCBI或PDB下载,由管理员从报告的数据中输入,或由sdAb-DB用户输入。然后对这些序列进行整理和注释,并上传到数据库中。用户可以通过搜索或浏览来访问这些数据)

  数据库中的每个sdAb都被分配了一个唯一的登录号,格式为。中心编号是随机生成的,最后的两个字母编码按属和种识别抗体源(即Lg=Lama glama)。数据库中一个sdAb包含三部分:(1)名称(不必是唯一的),(2)氨基酸序列和(3)数据来源。除了这些必需的字段外,数据库中的大多数抗体序列还将有至少一个已识别的目标抗原。对于每个抗体序列,如果存在相关的结合亲和力(如解离常数,KD)的信息也会被记录,还尽可能包括相关用途的信息,以及序列的任何参考资料(例如,登录号、DOI)。数据库还会对氨基酸序进行注释,标注CDR区和框架区。为了方便DNA合成,该数据库使用大肠杆菌K12的密码子表,提供了sdAb氨基酸序列的反向翻译。此外,还允许用户使用不同生物体的121个密码子使用表中的任何一个来反向翻译氨基酸序列。最后,为了便于数据共享,用户可以通过搜索结果页面从数据库中下载FASTA格式的单个或多个氨基酸序列。

  以检索识别抗原CTLA-4的纳米抗体为例,我们首先打开高级检索页面(图5),在抗原一栏输入“CTLA-4”,点击 Query,可以得到4条序列结果(图6),再分别点击各条序列可得到详细信息,包括:, , Data, Tools, )(图7)。

  74211655967541214

  图5 sdAb-DB数据库高级检索界面

  89651655967562642

  图6 sdAb-DB数据库搜索抗原CTLA-4的纳米抗体结果

  图7 sdAb-DB数据库搜索抗原CTLA-4的纳米抗体结果

  -nano简介

  由 Group(OPIG)根据一项开放创新协议建立的一个公开的实验确定的抗体结构数据库,-nano是的一个纳米体(仅重链抗体)的子数据库[3],它们每周更新一次,可在opig.stats.ox.ac.uk///上免费访问。 -nano的特点是提供不断的更新和全面的结构注释。研究人员通过搜索可以快速为他们的研究创建自定义数据集,以确定治疗性和抗原特异性抗体的目录。-nano为研究纳米抗体生物疗法的结构特性的研究人员提供了额外的资源。 和-nano可以分别在opig.stats.ox.ac.uk///或opig.stats.ox.ac.uk///nano上通过CC-BY4.0许可进行免费在线访问。两者都可以在学术或商业许可下作为的虚拟机的一部分,它允许访问应用程序编程接口(API)以创建更强大的数据集。

  -nano数据库可以通过多种方式进行检索:

  1)查找已登录在PDB中的所有纳米抗体(或VHH)结构,浏览中的所有纳米抗体的列表。

  2)您可以使用其PDB代码搜索特定条目。

  3)按属性搜索纳米体的子集,例如物种、实验方法、分辨率、特定位置的残留物等。

  4)所有这些纳米体结构也都包含于的主数据库中,在主库中可以浏览所有已经登录的CDR序列,或通过PDB编号进行序列查找,或通过CDR区的序列及长度进行检索。此数据库网站还提供抗体建模工具[4]能够对纳米抗体进行建模()。

  以检索包含字符串新冠病毒“spike”的纳米抗体为例(使用CoV-AbDab中的数据),“Is in CoV AbDab”选择“Trueb”,并在栏填入“spike”,点击“Get ”(图8),共得到69个结果(图9),点击第一条序列“7b18”打开结构查看器界面,它显示了对纳米体结构的注释和下载选项,并提供了结构的交互式三维可视化图谱。

  74891655967651073

  图8 -nano数据库检索界面(检索包含字符串“spike”的纳米抗体)

  1921655967678593

  图9 -nano数据库检索结果列表(部分截图)

  62331655967709109

  图10 -nano数据库结构查看器界面

  小 结

  将纳米抗体序列、结构及其相关元数据整合到公共领域的数据库非常重要。研究人员能够准确了解纳米抗体序列、结构和功能的关系,可以加速分析框架、结构建模以及从头纳米抗体药物设计的开发,并为解决纳米抗体设计的深度学习模型提供基础。总之正如开发者期待的,数据库将形成坚实的数据基础,以开发纳米抗体特定的计算方法或者模型,从而加速基于纳米抗体的开发。

  文章来源:http://www.cn-healthcare.com/articlewm/20220623/wap-content-1388478.html