|
说个生物信息学的,用于富集分析。
2019年4月国际知名期刊Nature Communications发表了一个持续更新的免费富集分析数据库——Metascape(http://metascape.org)【1】,其优点有:
1. 内容丰富,整合了40多种生物信息学知识库;2. 操作简单,分析快速;3. 持续更新,结果可靠;4. 可输出高质量图表;5. 可进行基因相关的蛋白质网络分析和涉及到的药物分析。
为了解决频繁上传、下载、合并操作等问题,Metascape官方推出了一个实用的Excel插件——Metascape for excel(M4X),从此Excel高效搞定富集分析不是梦。
Metascape for excel插件下载与安装
1. Metascape for excel插件下载
进入Metascape官网(http://metascape.org),右上角Tools -> Metascape for Excel进入Metascape for Excel (M4X)界面,点击Ddownload M4X 1.0.0下载插件。值得注意的是目前M4X仅支持PC,没有Mac版本。
2. 插件安装
解压下载文件,点击setup.exe安装,安装完成后Excel加载项选单中会出现M4X。
3. 疑难解答
如出现加载项加载异常情况,解决办法为:点击文件 -> 选项 -> 加载项加载插件。如果M4X在非活动应用程序加载项/禁用应用程序加载项中,则点击下方管理 -> COM加载项/禁用应用程序加载项中 -> 转到,选中Metascape Addin,点击确定即可。
Metascape for excel插件的使用
M4X功能强大可满足常见分析需求,可以实现Custom Analysis中的所有功能:C (ID Conversion);A (Annotation) ;M (Membership) ;E (Enrichment)。
1. ID Conversion
目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,转换起来实在是一个很大的工作。
Metascape支持Gene Symbol、RefSeq、Ensembl ID、UniProt ID等多种格式的数据输入,但其分析都是以Entrez ID进行。
DAVID(https://david.ncifcrf.gov/ )数据库下Shortcut to DAVID Tools可进行Gene ID Conversion:
Uniprot(https://www.uniprot.org/ )数据库下Retrieve/ID mapping也可以进行Gene ID转换:
上述Gene ID转换方法都需要进行数据上传与下载而M4X插件可以在Excel中快速实现ID转换。
步骤如下:
(1) Excel打开文件,选中待分析的基因或蛋白,这一步相当于网页版Metascape的数据上传:
(2) 在M4X插件中打开Custom Analysis,选择ID Conversion:
打开From current ID type下拉菜单,选择Best guess可以让M4X自动识别输入格式和物种;为求精确也可以手动选择选择。
在Location of the Result可以选择结果的输出位置,如选择Insert to Current Sheet可以直接将结果插入到当前表格中,节省了Metascape for web下载后的表格合并的时间。
不管选择哪一种输出位置,原始Excel文件中所有已存在的数据、格式、图表和公式都将保留,不会被覆盖。
(3) 点击Apply,快速输出结果:
扩展:
值得一提的是,平时我们在使用Excel输入gene symbol时,经常会遇到gene symbol被错误地转换成日期或数字的情况,例如:
在后续地分析如基因筛选或富集分析中,这样的gene symbol是不能被识别的,因此会造成许多麻烦。
那么如何避免这种转换? 2017年Plos One上发表了Escape Excel工具可以避免这种转换【2】,下载地址:https://github.com/pstew/escape_excel 。此外还可以在基因前输入一个单引号
(单引号在结果中不会显示
)来解决这一问题,但当基因数量很多时,这样的做法显然不可行。
使用M4X插件可以非常方便的将Gene symbol转换为RefSeq或gene ID,以便后续分析:
2. Annotation
选中Entrez Gene ID格式的基因或蛋白,点击Custom Analysis中的Annotation选项卡,可以看到Annotation界面操作与Metascape for web完全一致。
选择想要注释的条目,点击Apply, Location of the Result选择结果的输出位置,注释结果就可以快速添加到当前Excel表中。
3. Membership
Membership的操作界面也与Metascape for web一致,很好上手。
4. Enrichment
Enrichment选项卡同样与Metascape for web一致,可以方便地进行KEGG Pathway、GO Molecular Functions、GO biological Processes、GO Cellular Components等分析。在左侧Pathway&Process Enrichment中设置富集分析相关参数,如Min Overlap和P值;右侧设置PPI相关参数。
以KEGG pathway为例。点击Enrichment Analysis,可以看到,结果与Metascape for web完全一致。
同样,可以选择结果的输出位置:
所有生成的结果图都可以保存PDF等。
点击Apply,输出的结果可以直接用于R语言或Cytoscape作图。
5. 辅助功能
Metascape不支持Office撤回快捷键Ctrl+Z,如需返回上一步,可以使用加载项选单中的
。选中基因后,可以使用
和
快速转到对应链接,比如选中gene list中的ZEB2,点击Gene Page,即可打开ZEB2基因的Entrez搜索结果界面。
小结
GO或KEGG富集分析时,有了Metascape for Excel插件,我们不再需要上传或下载文件,也不需要使用VLOOKUP等将结果与原始数据表合并,自此一个Excel走遍天下。
今天有关使用Excel高效进行富集分析就到此为止了,希望对大家有所帮助,祝大家早日发文章!
参考文献:
1. Zhou Y, Zhou B, Pache L, Chang M, Khodabakhshi AH, Tanaseichuk O, Benner C, Chanda SK. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nat Commun. 2019 Apr 3;10(1):1523. doi: 10.1038/s41467-019-09234-6. PMID: 30944313; PMCID: PMC6447622.
2. Welsh EA, Stewart PA, Kuenzi BM, Eschrich JA. Escape Excel: A tool for preventing gene symbol and accession conversion errors. PLoS One. 2017 Sep 27;12(9):e0185207. doi: 10.1371/journal.pone.0185207. PMID: 28953918; PMCID: PMC5617173. |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|