Throwing Eggs from a Building

Last update: 2015-02-04 00:08

Posted on: 2015-02-03 15:27

Posted in : Algorithms,

graphl.png_184fd5a153422104b0054be061ec2a80

下午做练习题时碰到的问题,Algorithms, 4th中的1.4.241.4.25。思考了之后发现是个挺有意思的问题。下面结合题目和网上的一些资料做个简单的分析。

1. 问题描述

原文的问题是这样的:

1.4.24 Throwing eggs from a building. Suppose that you have an N-story building and plenty of eggs. Suppose also that an egg ...

--- Read More ---

Data Visualization and Analysis in Recsys Challenge

Last update: 2015-02-03 15:23

Posted on: 2015-01-21 08:51

Posted in : DataVisualization,

a.png_a9b6f1920752df9ac5ec07ab83a06369

本来想写点关于pandas的,写了点后感觉,毕竟只是个工具,怎么写都只会变成技术文档。还是来点实际的In Acion之类的东西,所以本文就结合pandas和Recsys Challenge 2015的数据来做一些简单分析。侧重点在如何理解和分析数据。

  • 数据的下载和描述见这里

  • 下文中绘图代码在这里,(不建议在低于16G内存的机器上直接跑该脚本,中间变量很吃内存。某些不需要的中间变量可以del后释放掉。)

  • 原始网页的Leaderboard 太丑了...我做了个更Fancy的,有兴趣看看这里

  • 另外本文参考了以下内容:

  1. http://aloneindecember.com/words/recsys-challenge-part-i/

  2. http://aloneindecember.com/words/recsys-challenge-part-ii/

  3. Can we approximate ...

--- Read More ---

(3)一起用python之准备篇——ipython

Last update: 2015-01-18 16:12

Posted on: 2014-02-25 22:16

Posted in : Ipython,

img2

update

发现ipython notebook 灰常方便,主要是写一些代码片段的时候,debug起来甚至跟pycharm有的一拼。配置好服务器版本后,打开浏览器就能用,一定程度上提升了效率。具体如何配置ipython notebook的service可以看官网,值得注意的一点是,如果不配置直接本地运行的化,只能通过localhost:[port]打开,无法远程访问。

写在前面

从本文开始,以后都用markdown写作,向大家学习~(另,本文是一个多月前写的,当时只对终端的命令截图了的,没有保存文本,现在也懒得在重新敲了,第一个还是文本,其余的都是图片。以后代码部分都采用该主题)

ipython现在几乎是自己使用python过程中最常用的工具。其中的一些特性很是好用,所以在这里专门用一篇来简单介绍下。方便后面的学习和调试过程。照例,这里给出一本值得推荐的参考书。Learning IPython for Interactive ...

--- Read More ---

About This Site

Last update: 2015-01-06 15:50

Posted on: 2014-12-22 10:09

Posted in : Django,

site.png_d2006a2a0cf19cc0de218e331d0ebf2b

写在前面

之前网站一直放在SAE上,除了每月扣点豆子,用着也没啥问题,除了扩展性不太好之外。不过,间歇性的出了几次意外,后台往sql中写入数据的时候,不知道是啥原因,提交后页面卡死了,然后再去sae后台一看,哗啦啦几百豆子没了......我总共才送了1.5k,无语了。想了半天也没找出时什么原因,只知道是全都扣在sql的读写上了。也罢,懒得在上面折腾了,写的东西暂时都放在印象笔记里。前些天忽然想起来github送的DigitalOcean优惠券还没用,最近有点闲时间,再折腾了一把。之前的后台是刚熟悉python的时候写的,现在再看看,真是渣渣......然后动手重新写了一遍部署到DO上(回头看了一下,其实还是渣渣......忧桑)。这段时间用印象笔记用着很爽,主要是方便,所以,这次后台的改动主要就一个,利用Evernote的api把网站后台跟印象笔记打通了,这样便于随时积累,持续更新 ...

--- Read More ---

Data Science London + Scikit-learn

Last update: 2015-01-02 16:48

Posted on: 2014-12-24 15:05

Posted in : Competition, Kaggle,

trainX_boxplot.png_1e40bdfe4c91adf0be46f972ddced4a8

先感受一下这40维特征的分布情况:

从这个图可以得到几个信息,一是特征都分布在0附近,特征之间没有很大的差异性,比较均衡;二是每一维特征的盒子分布的长度大概是1:3,有点接近高斯分布。事实上,针对每一维画一个直方图(其实这里画KDE的图更合适)可以粗略看出其分布情况:

上图中蓝绿色分别表示label分别为0,1对应到第5维特征时候的特征分布。 图1是把label为0和1的所有训练集同时表示在了一张图上,那么将二者分开来看看呢?

这样稍微可以看出点差别了,比较明显的是,有几维特征(比如第5,13维)在左右两边的分布出现明显的偏差。因此,可以断定,对于该数据集而言,少量的特征占有主要地位,而其他大多数特征只有较低的权重。当然,这样不够精确,下面对其量化下。

分别尝试用相关性衡量,逻辑回归,Lasso, svc,以及决策树模型,对初始特征的权值进行衡量,min-max归一化后的图如下

可以看到,权值较大的特征大概是15维左右。下图是根据pca得到的特征权重 ...

--- Read More ---

1 / 5 Next