题目:基于GraphPad、Photoshop与R语言的作图与图片编辑会议纪要
作者:闫佳萍
审读:王金磊
发布:马若昱
时间:2019-09-17
基于GraphPad、Photoshop与R语言的作图与图片编辑会议纪要
2019年7月20日至21日,基于GraphPad Prism、Photoshop和R语言的作图与图片编辑培训班在北京东直门医院举办,旨在帮助科研人员在完成课题的基础上,对实验数据进行分析,制作出精美的图片。不论是基础研究,还是临床研究,研究人员在完成课题的基础上,都会面临如何作图与图片编辑的过程。我有幸由百世登出版集团支持,参与了本次作图与图片编辑培训班的学习。
1 培训内容简记
本次培训班邀请来自国内著名三甲医院的周老师为主讲。周老师精通多种统计与制图软件,具有丰富的医学统计与作图实战经验。周老师目前以第一作者或通讯作者发表Science Citation Index(SCI)论文30多篇,担任多本SCI杂志的审稿人。本次培训课程以系统讲解统计制图为主,基于真实的案例,带领学员运用工具解决实际作图问题。周老师主要结合GraphPad、Photoshop和R语言这三个软件的基本功能介绍,及案例演示进行授课。虽说一图胜万言,实际上正确图胜万言,错误图万劫不复。图表的关键在于合适和规范,不是所有的数据都可以用图形来表示,也不需要将所有结果都用图形表示。因此,可以看出,图表在科技论文中举足轻重的地位。
GraphPad是一款集数据分析和作图于一体的数据处理软件,它可以直接输入原始数据,也可以输入初步统计数据,然后进行基本的生物统计。GraphPad拥有基本的生物统计、曲线拟合、和科研制图功能,并能将三者紧密结合。虽然其数据分析统计功能没有SAS、SPSS等专业软件强大,但其所具有的功能实用精炼,操作简单,图表绘制颇具特色,深受生命科学研究领域的研究者喜爱。GraphPad的统计图类型有XY图、Column graphs、Grouped graphs、Contingency tables和Survival plots几种。XY主要进行线性回归、非线性回归和相关分析;Column主要用于t检验、秩和检验和单因素方差分析等;Grouped用于多因素的方差分析和重复测量的方差分析等;Contingency用于卡方检验和Fisher精确检验;而Survival主要用于生存分析及生存曲线的绘制。老师先从基础理论开始,介绍一些统计学基本概念及统计方法的选择(图1,周老师制作),然后采用真实案例,带着我们进行实践操作(图2)。
图1 常用统计方法选择。
图2 GraphPad图表制作。
图片格式有位图和矢量图两种。位图记录的是像素的位置和颜色,放大后会变得不清晰,图片会失真;位图由像素组成,每个像素为一个单色点,分辨率为单位英寸内的像素点个数;位图文件的存储格式有bmp(Windows系统标准图像文件格式,存储简单,无压缩,占用空间大),jpg(压缩图片,品质高,节省空间,兼顾大小与质量,电子版照片经常使用,tif(压缩图片:LZW无损压缩,体积大大减少,并且还能保证质量;也可存储图层信息,是期刊投稿常用的格式),png(可存储透明区域,幻灯片制作、示意图绘制时经常使用),和gif(可存储动画,网页中使用较多)等。而矢量图是记录形状的描边和填充,图片无限放大不失真;矢量图的存储文件类型有PDF、EPS、EMF、WMF等;PDF和EPS等矢量图格式能保存矢量特性,但不是说PDF、EPS格式都有矢量特性,矢量图转换为位图会丢失矢量特性,并且照片图一般无法保存成矢量图。Photoshop是一款处理位图的图片处理软件,使用其众多的编修与绘图工具,可以有效地进行图片编辑工作。Photoshop的专长在于图像处理,从功能上看,该软件可分为图像编辑、图像合成、校色调色及功能色效制作部分等。针对不同的需求,可以选择不同的工具进行处理,使图片变得美观。老师简单介绍了Photoshop的基本功能,采用实际案例带着我们进行一些基本的图像处理(图3)。
图3 Photoshop图像处理练习。
最后一堂课,老师主要讲解了R语言的入门和基础知识。统计制图软件有很多,如Excel、SAS、SPSS和Stata等,那人们为什么还要选择R语言呢?Stata是一款办开源软件,功能齐全,是医学统计分析的全才,但是需要付费,并且统计图有时不够美观;SPSS简单易学,适合初学者,可满足医学统计的基本需求,但要需要付费,并且功能有限,一些高级方法无法实现;SAS统计功能强大,绘图功能也很强大,是食品药品监督管理局的指定软件,但也需要付费,命令操作,需要SAS编程基础;而R语言是一款完全开源的软件,可以免费使用,功能强大,是统计分析的全才,但也需要一定的R语言基础。典型的数据分析步骤都是从导入数据开始,然后准备数据,进行数据清理,之后拟合一个基本的统计模型,评估模型拟合的结果,再进行模型的交叉验证,最后在数据上评估模型预测结果,形成报告,R语言的统计分析亦是如此。从近十多年的医学文献来看,使用R语言进行统计分析和绘图的文献越来越多,这说明R语言在医学科研应用中的优质性。由于R语言需要一定的编程基础,所以老师就从基本的软件安装,数据集的建立,以及数据的管理开始讲解,然后介绍了一些简单的命令,根据老师已写好的程序,绘制出一些简单的统计图表(图4),包括常见的亚组分析森林图、环形图、生存曲线、火山图、列线图和瀑布图等。
图4 R语言绘图练习。
3 心得体会
本次培训班老师主要讲了了GraphPad、Photoshop和R语言在图片制作中的应用,不论是基础性研究,还是临床研究,科研人员在完成课题研究的基础上,都会面临如何作图与图片编辑的过程。统计数据的结果如何分析?分析后的数据如何制图?如何才能让数据结果以赏心悦目的面貌展示在论文中?这些都是科研人员时常遇到,又需要仔细考虑的问题。图片在一篇论文中占有重要的地位,那么一篇SCI论文到底需要多少图片呢?其实,并不是图片越多越好,一般来说,图片的数量不要超过6张,作者投稿时不应该将图片插入在稿件中,应该以单独的图片文件上传。不同的杂志社对图片有不同的要求,但大致的要求都是一样的。作者投稿时需要保证原始照片要清晰(至少300dpi),仪器抓取的图像要清晰,最好以矢量图记录图片。一图胜万言是指正确的图片胜万言,统计图的关键在于合适和规范,不是所有的数据都可以用图形来表达,不需要将所有的结果都用图形表达。
通过老师讲解的一些SCI论文图片规范,使我对图片有了更深刻的了解。SCI论文中常见的数据统计图形有组间比较、双纵坐标、曲线拟合、ROC曲线、生存曲线、森林图、热图、火山图和Western条带灰度分析等,这些基本的数据分析可以通过GraphPad完成,灰度分析可以用Photoshop进行,森林图、热图和火山图等可以用R语言来完成。通过各种图标案例的学习,让我对图片类型有了更好的认识。不同的文章类型会涉及不同的图片,不同的图片就会涉及不同的统计学分析,不同的统计学分析方法可以大概判断作者稿件里的研究方法,这些内容都是紧密相连,一环扣一环的。GraphPad可以满足一些基本的统计需求,像医学研究里的ROC曲线、生存曲线和IC50曲线等都可以制作。但一些复杂的图表,如热图和火山图就需要用R语言来完成。由于R语言需要一定的编程基础,短暂的课程上,只能对R语言有一个初步的了解,根据老师已写好的程序,绘制图片。虽然时间很短,但我深刻的认识到R语言强大,一些复杂的图片多半是R语言生成。作为一名科学编辑,知道作者图片的潜在含义是一个科学编辑必须掌握的基本技能。通过图片可以对作者的研究方法进行合理性判断,进而对稿件质量进行初步评审。感谢公司给予我这次学习的机会,使我收获颇多,希望以后可以参加更多这样的培训学习,以提升自我的工作能力。
图5 闫佳萍编辑部主任参加培训。