设置

关灯

第114章 进组(第一更) (2 / 8)

《关闭小说畅读模式体验更好》


        “如果是特征重复的,就要用corr方法计算特征相似度,用method参数指定肯德尔或斯皮尔曼相关系数。”

        听到方豫的回答,程风不由得一愣,这完全出乎他的意料。

        虽然程风问的只是一些基础的内容,但能获得如此清晰的回答,也是完全出乎程风自己的意料。

        程风仍旧不太敢看方豫,盯着屏幕:“那离群值你又是怎么识别的?我看到你用Winsorizing方法调整了离群值,为什么用winsorizing而不是用众数替代或删除?”

        方豫又思考了一下:“对于数值型数据,用箱线图和直方图进行识别,当然也可以用describe函数生成的描述信息识别,分类数据,用条形图识别,还有一部分正态分布数据用3σ准则进行识别。”

        “至于说处理,因为删除离群值会让样本数显著减少,我又不了解后续算法对离群值是否敏感,用众数替代如果掩盖了数据的变异性可能会对结果产生影响,所以采用Winsorizing方法调整了离群值。”

        程风看了看方豫,半天没说话。

        至少在大二的时候,他肯定是没这个水平的。

        别说方豫只是金融学专业,就算是数学专业的,大二时也不过刚刚开始接触一些初级的数据结构和基础编程。最多也就是刚刚开始接触数据清洗和数据操纵的相关内容。

        很多人直到大四,甚至到了研究生进组,还没搞明白到底如何评估离群值,说不准估着估着,把正常值都当成离群值清洗了。

        而方豫刚刚对这两个基础问题的回答,虽然简练,但很明显已经熟练掌握了清洗数据的相关技能。

        内容未完,下一页继续阅读