(3)一起用python之准备篇——ipython

Last update: 2015-01-18 16:12

Posted on: 2014-02-25 22:16

Posted in : Ipython,

img2

update

发现ipython notebook 灰常方便,主要是写一些代码片段的时候,debug起来甚至跟pycharm有的一拼。配置好服务器版本后,打开浏览器就能用,一定程度上提升了效率。具体如何配置ipython notebook的service可以看官网,值得注意的一点是,如果不配置直接本地运行的化,只能通过localhost:[port]打开,无法远程访问。

写在前面

从本文开始,以后都用markdown写作,向大家学习~(另,本文是一个多月前写的,当时只对终端的命令截图了的,没有保存文本,现在也懒得在重新敲了,第一个还是文本,其余的都是图片。以后代码部分都采用该主题)

ipython现在几乎是自己使用python过程中最常用的工具。其中的一些特性很是好用,所以在这里专门用一篇来简单介绍下。方便后面的学习和调试过程。照例,这里给出一本值得推荐的参考书。Learning IPython for Interactive ...

--- Read More ---

About This Site

Last update: 2015-01-06 15:50

Posted on: 2014-12-22 10:09

Posted in : Django,

site.png_d2006a2a0cf19cc0de218e331d0ebf2b

写在前面

之前网站一直放在SAE上,除了每月扣点豆子,用着也没啥问题,除了扩展性不太好之外。不过,间歇性的出了几次意外,后台往sql中写入数据的时候,不知道是啥原因,提交后页面卡死了,然后再去sae后台一看,哗啦啦几百豆子没了......我总共才送了1.5k,无语了。想了半天也没找出时什么原因,只知道是全都扣在sql的读写上了。也罢,懒得在上面折腾了,写的东西暂时都放在印象笔记里。前些天忽然想起来github送的DigitalOcean优惠券还没用,最近有点闲时间,再折腾了一把。之前的后台是刚熟悉python的时候写的,现在再看看,真是渣渣......然后动手重新写了一遍部署到DO上(回头看了一下,其实还是渣渣......忧桑)。这段时间用印象笔记用着很爽,主要是方便,所以,这次后台的改动主要就一个,利用Evernote的api把网站后台跟印象笔记打通了,这样便于随时积累,持续更新 ...

--- Read More ---

Data Science London + Scikit-learn

Last update: 2015-01-02 16:48

Posted on: 2014-12-24 15:05

Posted in : Competition, Kaggle,

trainX_boxplot.png_1e40bdfe4c91adf0be46f972ddced4a8

先感受一下这40维特征的分布情况:

从这个图可以得到几个信息,一是特征都分布在0附近,特征之间没有很大的差异性,比较均衡;二是每一维特征的盒子分布的长度大概是1:3,有点接近高斯分布。事实上,针对每一维画一个直方图(其实这里画KDE的图更合适)可以粗略看出其分布情况:

上图中蓝绿色分别表示label分别为0,1对应到第5维特征时候的特征分布。 图1是把label为0和1的所有训练集同时表示在了一张图上,那么将二者分开来看看呢?

这样稍微可以看出点差别了,比较明显的是,有几维特征(比如第5,13维)在左右两边的分布出现明显的偏差。因此,可以断定,对于该数据集而言,少量的特征占有主要地位,而其他大多数特征只有较低的权重。当然,这样不够精确,下面对其量化下。

分别尝试用相关性衡量,逻辑回归,Lasso, svc,以及决策树模型,对初始特征的权值进行衡量,min-max归一化后的图如下

可以看到,权值较大的特征大概是15维左右。下图是根据pca得到的特征权重 ...

--- Read More ---

一个微博爬虫的设计原型

Last update: 2014-10-28 15:01

Posted on: 2014-10-28 15:01

Posted in : Spider,

梳理下

上个月去了趟南京,回来后再加上个国庆假期,整个人就闲下来了.每天,也没太多事情可做,有时候,很享受这样的日子,呵.闲下来的时候,总想找点事做来打发打发时间.

目前的兴趣点在网络和图论这块,再加上之前接触了一下图数据库neo4j,感觉得这货以后很有潜力,于是乎,希望能够找个实际点的东西来练练手,然后,很短视地想到适合用图数据库的地方--社交网络.其实也没多想,就敲定了新浪微博这个平台(别问我为啥偏偏是微博).

在这里完整记录下自己考虑问题的整个过程(虽然暂时搁置下来了),希望以后考虑其他问题的时候,能从中有所借鉴吧.

目的

一开始希望做的事情是,能够用图数据库neo4j来存储一些社交网络上的数据,这样以后分析起来效率会高很多,也算是搭建个平台起来吧.

设计

做爬虫这种事,必然有很多人已经做过了,所以,最重要的是前期调研,然后,找到了知乎上点赞最多的这个回答,总的来说 ...

--- Read More ---

阿里数据挖掘竞赛之自我总结——秋田君

Last update: 2014-08-04 16:53

Posted on: 2014-08-04 16:53

Posted in : Competition,

我是怎么开始做这个比赛的

忘了具体是哪天,反正三月的某个傍晚,我正在往github上传MLAPP中python部分的代码,邱泽宇打电话问我,阿里有个数据挖掘的比赛,有兴趣参加不?思考了3秒钟,我答应说,行。随后看了下比赛细则,感觉进个前五十应该不是太大的问题(要知道我们报名的时候才一百多队,这点自信还是有滴哈)。所以一开始的目的,不过是希望能够借助比赛这个形式,在第一季熟悉下scikit-learn机器学习的包,然后将上学期学过的一些机器学习算法在这个数据集上实践一下,把基础打扎实。至于第二季,就是希望能借助阿里的分布式平台,进一步熟悉下用怎么用mapreduce写一些常见算法,由于第一学期云计算的课只是在虚拟机下跑了跑,感觉不够尽兴,一想到有这么个免费平台跑大数据,这感觉应该很爽~

得承认,之前毫无做这类比赛的经验,我低估了比赛的实际难度。抱着打基础的目的而去,结果比赛的整个过程异常激烈,所需要的知识也远不止基础算法,而是涵盖了模型、特征等等更多外围的东西。而且进入第二季后才发现,自己动手在odps上写算法是一个异常艰巨的过程,很大程度上只能依赖odps上已有的几个算法。以至于做到后面有种骑虎难下的感觉,接着做下去吧,感觉花大量时间在上面收获不是特别大 ...

--- Read More ---

1 / 5 Next