Scikit-learn Feature selection

机器学习(周志华):有用的属性称为“相关特征”(relevant feature),没用的属性称为“无关特征”(irrelevant feature)。从给定特征值集合中选择出相关特征子集的过程,称为“特征选择”(feature selection)

之前对于数据的处理一直比较喜欢用R,但是Python的scikit-learn库对于机器学习又比较的友好,因此打算多学点scikit-learn库;其实个人觉得很多方法R或者Python都能实现,原理都是一样的,只是在于哪个实现的更快更熟练罢了

sklearn.feature_selection是用于feature筛选(增加模型的精确度)或者降维(提高在高维数据中的性能)的模块

文献阅读-Identification of trunk mutations in gastric carcinoma

文章:Identification of trunk mutations in gastric carcinoma: a case study

这个不知道啥时候写的一篇文献总结。。。怀念下以前看文献的时光~

文章背景

这是一篇proof-of-concept研究,通过最近几年的大规模测序研究,大家发现对于癌症是一个heterogeneous disease,肿瘤内异质性(Intratumor heterogeneity (ITH))使得肿瘤内存在着许多不同肿瘤突变的细胞,这对于精准医疗、靶向治疗以及免疫治疗是一个急迫需要解决的问题。因此作者想从肿瘤细胞的主干突变(trunk mutations)入手,来研究ITH;主干突变的理论依据在于广泛认知肿瘤是一个进化过程产物,不断的通过细胞克隆、自然选择,从而产生一个具有多样性的复杂体,因此被认为是从一个单细胞微进化而来的

Wordpress迁移到hexo(ECS)

从开始写博客至今已经2年有余;最开始选择博客系统的时候,由于wordpress操作比较简单,并且云虚拟机也比较便宜(其实这个才是重点。。。那时还不知道有Github。。。),所以就选择wordPress来搭建我第一个博客~

后来接触的事物多了,逐渐也了解到了多个博客系统,如:

  • Hexo,基于node.js的静态博客生成系统,使用markdown来写作,有多种丰富的插件和主题可供选择,文档完善,可以搭建在Github上(这个是重点,省钱省事。。。)
  • Hugo,基于Go的静态网站生成器,操作上跟Hexo比较类似,也可以搭建在Github上;网页生成速度上比Hexo快上很多(这个是很多人选择Hugo的原因之一)
  • Halo,基于Java的博客系统,这个跟wordpress比较类似,有完善的后台系统,上手管理容易,可搭建在各个服务器上
  • Wordpress,操作简单,插件丰富,主题可选度较高,搭建方便(一般虚拟机都已预安装好),我曾经戏说wordpress的操作就类似小时候的QQ空间。。点点点就好了。。。

R包-创建统计汇总表

统计汇总表是一个非常有用的数据展示方法,比如临床分析中,临床三线表就是一个典型的例子

一般在处理数据时,如果想对数据集做点简单统计,Hmisc包的describe函数会比较好用;如果想将统计汇总结果以html形式作为最终展示,这是可以参照这篇博文(写得非常的帮!!!)– How to Easily Create Descriptive Summary Statistics Tables in R Studio – By Group,因此分享一下,该文章总共归纳了9个用于创建汇总表的R包:

Python-Numpy笔记

Python用了有一段时间了,平时用到Numpy的时候,都是随用随查,这次抽时间整理下常用的用法

NumPy(Numerical Python)是 Python 中的一个线性代数库,在数组矩阵运算、逻辑运算以及Scikit-learn、pandas和tensorflow等包中被大量使用

Windows server搭梯子

之前在AWS上的梯子过期了,最近想给博客挪个窝(现在有时总是宕机);在网上看看云服务器是否有做活动时,刚好看到腾讯云有个299/年香港服务器的活动,果断买了作为一台国外服务器,其中一个功能当然可以用来撘梯子咯,而且网速也更加稳定点

|