实习收获
- 认真:
- 上线的东西,和给客户的东西,一点都不能错;表格等样式不能像给自己看的一样随意,要精益求精,不能那么随便。
- 交流的时候随时准备好纸笔,没有人会把话跟你说第二遍。
- 关系:从所有细节都要维护好与客户和合作方的关系:
- 给别人的东西一定要检查保证绝对无误,要让对方充分信任我们。
- 不要当面指出对方的错误,伤害别人的面子。
- 在客户场地驻场的时候不要来太晚,否则太难看。
- 编码:写代码之前先把要做的事情理清楚和讨论清楚;如果事情比较复杂很容易弄错(比如涉及到混淆矩阵或一些地方在讨论的时候不容易理解的时候)进行结对编程。
- 结果分析:上线测试结果不够好,分析原因。
- 数据分布发生了变化,使用t-test, u-test, kl-divergence;连续值算mean, var, median,离散值计数(比例)。
- 将数据归一化之后计算欧式距离,计算同类样本之间的距离中位数(即半径)。模型通常会把相似的样本归为一类,所以看看在半径内与分错样本(分别看FP与FN)最接近的N个样本的业务意义,是不是漏掉了什么特征。
- 看模型以极高置信度判断错误的样本的业务意义,判断原因。
- 测试:
- 上线之前固定随机数种子。
- 每个中间结果都要导出表格,所有的数据必须保留一个唯一识别号,确保每个结果都能反查回原始数据,每条数据都能一一对应上。特征工程中删除的每条数据的删除原因都要能找到,每个理由删掉了多少数据都要统计出来。
- 预处理结果、最终输出结果要与SDK、客户输出的结果要一一对应,保证完全一致。
- 结果展现:弄清楚客户关心什么,设计最合理的评价指标,不能一味地使用AUC,而是深入理解业务流程,提出最适于业务流程的评价指标(Precision与STCurve)
- 交接:走之前要列一个接手清单,交接人和接手人一人列一个清单,最后取并集。如果列出来了交接人没给就是交接人的责任;没有列出来就是接手人的责任。