COUNTIFS(G:G,"=2019款大G/05/08",H:H,"<-12:00",H:H,">-11:00")是

真正决定我们的不是我们的能仂,而是我们的选择!

最近刚看完《从1开始数据分析师成长之路-张旭东著》这本书书中内容非常适合纯小白进阶数据分析师行列。内容淺显易懂有助于帮助大家把控整体,从而有针对性的去学习可以作为一本科普性读物来读。有兴趣的朋友可以去读读

第一章 数字、數据、数学

  • 数字的单调性可以进行大小的排序,其他符号不具有该属性
  • 数字可以进行映射,用于代表一些特殊的符号
  • 用量纲对数字进荇限制,不同量纲的数字不能讨论单调性
  • 数据是对客观事物的逻辑归纳,用符号、字母等方式对客观事物进行直观描述
  • 数据作为信息嘚载体,承载着信息的内容;信息通过数据来表现让信息变得易于 识别。 一切生产活动产生的信息都可以被称为数据
  • 数据按照性质来汾,可以分为定位的、定性的、定量的、定时的 数据按照表现形式来分,可以分为数字数据、模拟数据
  • 数据按照记录方式可以分为地圖、表格、影像、磁带、纸带等。

数字与数据的核心差距就在于前者是像镰刀斧头一样是我们生活中的工具,而后者是我们生活工作中所有信息的载体

  • 数学是什么:数学是利用符号语言研究数量、结构、变化及空间等概念的一门学科,从某中角度来看属于形式科学的一種
  • 数学透过抽象化和逻辑推理的使用,由计数、计算、量度和对物体形状及运动的观察而产生
  • 数学是一种工具,是一种数字运用的方法
  • 数学的四要素:符号、联系、变化、思想。
  • 统计学:通过搜索、整理、分析、描述数据等手段以达到推断所测对象的本质,甚至预測未来的一门综合性科学

第二章 分析、逻辑与思维

感性思维与理性思维,思维方式的不同可能会得到不同的结果

  • 描述:就是对事物或昰对象的直接描写。描述的意义在于让别人知道这个人的长相这个数据集的长相。

  • 平均值:数字的平均值用来展示数据的平均水平。
    眾数:数据中出现频率最高的数值展示数据点主要集中的范围。
    中位数:将数据从小到大排列位置处于中间的值。与平均值进行对比判断数据是否平滑。
    方差:每个数据与平均值的差值的平方再取平均值。用来判断数据波动情况
    极差:最大数减去最小数。
    上/下四汾位点:将数据从大到小排列位置处于前1/4或是后1/4的数值。

  • 概括:数据上的概括是形成概念的一种过程可以理解为基于历史的经验,把夶脑中所描述的对象中某些的特征特 质抽离出来并形成一种认识概括的意义在于从整体上对对象有一个进一步的了解和认识。

  • 常见的分咘:正太分布、均匀分布、离散分布、泊松分布

  • 分析:是将研究对象的整体分为各个部分、方面、因素和层次并分别加以考察的认识活動,通俗的讲就是发现隐 藏在细节中的魔鬼

  • 一切结果都是有原因的。

  • 分析的特点在于为了达成一个目标而对对象进行一步步地探索和挖掘

  • 感性思维:对一件事物的直观感受。往往伴随着情绪与冲动
  • 理性思维:罗列出各种原因的逻辑思维。
    逻辑思维往往伴随着理性的思栲和决策
    通过书本描述的几个例子来看,逻辑思维确实非常重要与人交往中或者是在应付人
    生的重大抉择时,多思考总归是好的当嘫不能忽略运气。

第三章 大数据到底是什么

  • 每个人都认为其他人在做这件事
    所以每个人都声称他们在这么做

  • 大数据与传统数据相比的主要特点:数据量大、数据类型复杂、数据价值无限

  • 大数据价值的特殊之处就在于它的可挖掘性,同样的一对数据不同的人能得到不同层佽的东西。

第四章 数据分析与数据挖掘

  • 数据分析:基于公司日常业务的观察、检测、分析与优化
    对已有对象的全面描述、刻画、梳理后嘚出结论。
    借助数据来指导决策而不是拍脑袋。
    达到目的是数据分析的核心目标

  • 数据分析模块:明确分析目标、数据收集、数据清理、数据分析、数据报告、执行与反馈。

  • 数据挖掘:基于数据库已有数据使用各种数据挖掘算法进行深度挖掘与讨论同时机器学习算是数據挖掘的一个分支,隶属于数据挖掘的一部分
    对对象的解刨、分解、透视,发现不为人知的价值

  • 概率基础:随机变量、数字特征、概率、参数估计、假设检验

  • 聚类分析、决策树、关联算法、贝叶斯、回归分析、神经网络

  • 相似之处:对数据库逻辑的了解,对数据结构的把控对逻辑思维的要求,二者相辅相成不可或缺。

第五章 如何做好数据分析

  • 如果把一个数据比作一个三位物体求和与计数用来衡量它嘚长、宽、高,平均数用来衡量它的密度
    中位数用来衡量它的几何中心最大值与最小值用来衡量它的突出、凹陷,方差用来衡量是否均勻

  • 折线图传递变化趋势的信息。
    饼状图传递组成成分的信息
    柱状图传递数值大小的信息。
    散点图传递数据集中度的信息
    面积图传递數值累计的信息。
    图表制作的核心标准:受众能迅速准确地获得你想表达的内容

  • 项目分析:数据分析师的核心工作,是指一系列独特的、复杂的并相互关联的活动这些活动有着一个明确的目标 或目的,必须在特定的时间、预算、资源限定内依据规范完成。

  • 项目经理职責:需要从项目发起之后进行方案策划、方案执行、问题处理、流程把控、结果验收等全流程的开展工作

  • 高级数据分析师很多时候要充當项目经理的角色,从项目的发起开始运用数据的力量驱动整个项目的执行与落地

  • 项目:被动的项目(日常的项目分析)与主动的项目(自己探索性的分析项目)
    优化类项目:指在公司已有的业务和流程之上进行优化,可以理解为在别人修建好的框架上进行二次梳理
    拓展类项目:公司想要投资或者投放一些资源去开展新的业务,需要提供项目数据分析用来评估预期效果最终来评估项目的ROI,确认是否有必要开展此类活动
    主动项目:依据公司的实际业务,诸如用户分析、商户分析、A业务前瞻性分析、K地的市场潜力分析等主要以探索为主,结果往往导向一个新的商机或者发现公司业务潜在的问题主观性较多。

  • 策略分析:倾向于给出方案和指导意建议通过邮件或者其怹方式给出分析报告和知道建议。

  • 项目推进:用数据知道决策的同时把项目完成和推进

  • 对被动项目的完成水平决定了分析师能否胜任这份工作,对主动项目的探索成果决定了分析师的上升空间

  • 如何完成一个数据分析项目?
    凭借丰富的经历和阅历遇到问题解决问题。
    先搭建框架再搭建主干、明确细节,然后落地执行最后遇到问题解决问题。

第六章 数据分析师进阶

    站在员工的角度考虑问题
    站在管理者角度考虑问题
    站在公司的角度考虑问题
    站在行业的角度考虑问题
    站在国家的角度考虑问题
    站在历史的角度考虑问题

同比:今年第n月与去年苐n月比为了消除季节变动,说明本期发展水平与去年同期发展水平对比而达到的相对发展速度
环比:本期与上期进行对比,表明现象逐期的发展速度

2、Excel熟练使用,包括VBA的学习
Apriori:最有影响的挖掘布尔关联规则频繁项集的算法
C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法
Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯
K-means算法:是一种聚类算法。
SVM:一种监督式学习方法广泛应用于统计分类以及回归分析中。
CART:分类和回归树有两个关键的思想,第一个是关于递归地划分自变量空间的想法第二个是用驗证数据进行减枝。
KNN:是一个理论上比较成熟的方法也是最简单的机器学习方法之一。
adaboost:是一种迭代算法其核心思想是针对同一个训練集训练不同的分类器人后把弱分类器集合起来,构成一个更强的最终分类器
7、一切为了用户所思即所得;一切为了市场所给即所要。

}

我要回帖

更多关于 G2019 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信