搜档网
当前位置:搜档网 › 数据分析经典测试题含答案

数据分析经典测试题含答案

数据分析经典测试题含答案
数据分析经典测试题含答案

数据分析经典测试题含答案

一、选择题

1.样本数据3,a,4,b,8的平均数是5,众数是3,则这组数据的中位数是()A.2 B.3 C.4 D.8

【答案】C

【解析】

【分析】

先根据平均数为5得出a b10

+=,由众数是3知a、b中一个数据为3、另一个数据为7,再根据中位数的定义求解可得.

【详解】

解:Q数据3,a,4,b,8的平均数是5,

3a4b825

∴++++=,即a b10

+=,

又众数是3,

a

∴、b中一个数据为3、另一个数据为7,

则数据从小到大为3、3、4、7、8,

∴这组数据的中位数为4,

故选C.

【点睛】

此题考查了平均数、众数和中位数,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,众数是一组数据中出现次数最多的数.

2.一组数据3、2、1、2、2的众数,中位数,方差分别是:()

A.2,1,2 B.3,2,0.2 C.2,1,0.4 D.2,2,0.4

【答案】D

【解析】

【分析】

根据众数,中位数,方差的定义计算即可.

【详解】

将这组数据重新由小到大排列为:12223

、、、、

平均数为:12223

2

5

++++

=

2出现的次数最多,众数为:2中位数为:2

方差为:

()()()()()

22222

2

1222222232

0.4

5

s

-+-+-+-

=

+

-

=

故选:D 【点睛】

本题考查了确定数据众数,中位数,方差的能力,解题的关键是熟悉它们的定义和计算方法.

3.某校组织“国学经典”诵读比赛,参赛10名选手的得分情况如表所示:

分数/分80859095

人数/人3421

那么,这10名选手得分的中位数和众数分别是()

A.85.5和80 B.85.5和85 C.85和82.5 D.85和85

【答案】D

【解析】

【分析】

众数是一组数据中出现次数最多的数据,注意众数可以不只一个;

找中位数要把数据按从小到大的顺序排列,位于最中间的一个数(或两个数的平均数)为中位数.

【详解】

数据85出现了4次,最多,故为众数;

按大小排列第5和第6个数均是85,所以中位数是85.

故选:D.

【点睛】

本题主要考查了确定一组数据的中位数和众数的能力.一些学生往往对这个概念掌握不清楚,计算方法不明确而误选其它选项.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数字即为所求.如果是偶数个则找中间两位数的平均数.

4.多多班长统计去年1~8月“书香校园”活动中全班同学的课外阅读数量(单位:本),绘制了如图折线统计图,下列说法正确的是()

A.极差是47 B.众数是42

C.中位数是58 D.每月阅读数量超过40的有4个月

【答案】C

【解析】

【分析】

根据统计图可得出最大值和最小值,即可求得极差;出现次数最多的数据是众数;将这8个数按大小顺序排列,中间两个数的平均数为中位数;每月阅读数量超过40的有2、3、4、5、7、8,共六个月.

【详解】

A、极差为:83-28=55,故本选项错误;

B、∵58出现的次数最多,是2次,

∴众数为:58,故本选项错误;

C、中位数为:(58+58)÷2=58,故本选项正确;

D、每月阅读数量超过40本的有2月、3月、4月、5月、7月、8月,共六个月,故本选项错误;

故选C.

5.某单位招考技术人员,考试分笔试和面试两部分,笔试成绩与面试成绩按6:4记入总成绩,若小李笔试成绩为80分,面试成绩为90分,则他的总成绩为()

A.84分B.85分C.86分D.87分

【答案】A

【解析】

【分析】

按照笔试与面试所占比例求出总成绩即可.

【详解】

根据题意,按照笔试与面试所占比例求出总成绩:

64

?+?=(分)

809084

1010

故选A

【点睛】

本题主要考查了加权平均数的计算,解题关键是正确理解题目含义.

6.2022年将在北京﹣﹣张家口举办冬季奥运会,很多学校为此开设了相关的课程,下表记录了某校4名同学短道速滑成绩的平均数x和方差S2,根据表中数据,要选一名成绩好又发挥稳定的运动员参加比赛,应选择()

A .队员1

B .队员2

C .队员3

D .队员4

【答案】B 【解析】 【分析】

根据方差的意义先比较出4名同学短道速滑成绩的稳定性,再根据平均数的意义即可求出答案. 【详解】

解:因为队员1和2的方差最小,所以这俩人的成绩较稳定, 但队员2平均数最小,所以成绩好,即队员2成绩好又发挥稳定. 故选B . 【点睛】

本题考查方差的意义.方差是用来衡量一组数据波动大小的量,方差越大,表明这组数据偏离平均数越大,即波动越大,数据越不稳定;反之,方差越小,表明这组数据分布比较集中,各数据偏离平均数越小,即波动越小,数据越稳定.

7.某校九年级模拟考试中,1班的六名学生的数学成绩如下:96,108,102,110,108,82.下列关于这组数据的描述不正确的是( ) A .众数是108 B .中位数是105 C .平均数是101 D .方差是93

【答案】D 【解析】 【分析】

把六名学生的数学成绩从小到大排列为:82,96,102,108,108,110,求出众数、中位数、平均数和方差,即可得出结论. 【详解】

解:把六名学生的数学成绩从小到大排列为:82,96,102,108,108,110, ∴众数是108,中位数为

102108

1052

+=,平均数为8296102108108110

1016

+++++=,

方差为

()()()()()()222222

182101961011021011081011081011101016??-+-+-+-+-+-?

? 94.393≈≠;故选:D . 【点睛】

考核知识点:众数、中位数、平均数和方差;理解定义,记住公式是关键.

8.某班40名同学一周参加体育锻炼时间统计如表所示:

那么该班40名同学一周参加体育锻炼时间的众数、中位数分别是()A.17,8.5 B.17,9 C.8,9 D.8,8.5【答案】D

【解析】

【分析】

根据中位数、众数的概念分别求得这组数据的中位数、众数.

【详解】

解:众数是一组数据中出现次数最多的数,即8;

由统计表可知,处于20,21两个数的平均数就是中位数,

∴这组数据的中位数为89

8.5 2

+

=;

故选:D.

【点睛】

考查了中位数、众数的概念.本题为统计题,考查众数与中位数的意义,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数.

9.一组数据5,4,2,5,6的中位数是()

A.5 B.4 C.2 D.6

【答案】A

【解析】

试题分析:将题目中数据按照从小到大排列是: 2,4,5,5,6,故这组数据的中位数是5,故选A.

考点:中位数;统计与概率.

10.某鞋店一天中卖出运动鞋11双,其中各种尺码的鞋的销售量如下表:

则这11双鞋的尺码组成的一组数据中,众数和中位数分别是( ) A .25,25 B .24.5,25

C .25,24.5

D .24.5,24.5

【答案】A 【解析】 【分析】 【详解】

解:从小到大排列此数据为:23.5、24、24、24.5、24.5、25、25、25、25、25、26, 数据25出现了五次最多为众数.

25处在第6位为中位数.所以中位数是25,众数是25. 故选:A .

11.为了迎接2022年的冬奥会,中小学都积极开展冰上运动,小乙和小丁进行500米短道速滑比赛,他们的五次成绩(单位:秒)如表所示:

设两人的五次成绩的平均数依次为x 乙,x 丁,成绩的方差一次为2

S 乙,2

S 丁,则下列判断中

正确的是( )

A .x x =乙丁,22S S <乙丁

B .x x =乙丁,22

S S >乙丁 C .x x >乙丁,22

S S >乙丁

D .x x <乙丁,22

S S <乙丁

【答案】B 【解析】 【分析】

根据平均数的计算公式先求出甲和乙的平均数,再根据方差的意义即可得出答案. 【详解】

4563555260

555

x ++++=

=乙,

则()()()()()22222

2

1455563555555525560555S ??=

?-+-+-+-+-?

?乙39.6=,

5153585657

555

x ++++=

=丁,

则()()()()()22222

2

1515553555855565557555S ??=

?-+-+-+-+-?

?丁 6.8=,

所以x x =乙丁,22

S S >乙丁,

故选B . 【点睛】

本题考查方差的定义与意义:一般地设n 个数据,1x ,2x ,…n x 的平均数为x ,则方差

()()()

2222

121n S x x x x x x n ?

?=-+-+???+-?

???,它反映了一组数据的波动大小,方差越

大,波动性越大,反之也成立.

12.在5轮“中国汉字听写大赛”选拔赛中,甲、乙两位同学的平均分都是90分,甲的成绩方差是15,乙的成绩的方差是3,下列说法正确的是( ) A .甲的成绩比乙的成绩稳定 B .乙的成绩比甲的成绩稳定 C .甲、乙两人的成绩一样稳定 D .无法确定甲、乙的成绩谁更稳定

【答案】B 【解析】 【分析】

根据方差的意义求解可得. 【详解】

∵乙的成绩方差<甲成绩的方差, ∴乙的成绩比甲的成绩稳定, 故选B. 【点睛】

本题主要考查方差,方差是反映一组数据的波动大小的一个量.方差越大,则平均值的离散程度越大,稳定性也越小;反之,则它与其平均值的离散程度越小,稳定性越好.

13.已知一组数据2a -,42a +,6,83a -,9,其中a 为任意实数,若增加一个数据5,则该组数据的方差一定() A .减小 B .不变

C .增大

D .不确定

【答案】A 【解析】 【分析】

先把原来数据的平均数算出来,再把方差算出来,接着把增加数据5以后的平均数算出来,从而可以算出方差,再把两数进行比较可得到答案. 【详解】

解:原来数据的平均数=

242683925

555

a a a -++++-+==,

原来数据的方差=22222

2

(25)(45)(265)(835)(95)5

a a a S --+-++-+--+-=,

增加数据5后的平均数=2426839530

565

a a a -++++-++==(平均数没变化),

增加数据5后的方差=

222222

21

(25)(45)(265)(835)(95)(55)6

a a a S --+-++-+--+-+-=

, 比较2S ,21S 发现两式子分子相同,因此2S >2

1S (两个正数分子相同,分母大的反而小), 故答案为A. 【点睛】

本题主要考查了方差的基本概念,熟记方差的公式是解本题的关键,要比较增加数据后的方差的变化,可分别求出原来的方差和改变数据后的方差,再进行比较.

14.郑州某中学在备考2018河南中考体育的过程中抽取该校九年级20名男生进行立定跳远测试,以便知道下一阶段的体育训练,成绩如下所示:

则下列叙述正确的是( ) A .这些运动员成绩的众数是 5 B .这些运动员成绩的中位数是 2.30 C .这些运动员的平均成绩是 2.25 D .这些运动员成绩的方差是 0.0725 【答案】B 【解析】 【分析】

根据方差、平均数、中位数和众数的计算公式和定义分别对每一项进行分析,即可得出答案. 【详解】

由表格中数据可得:

A 、这些运动员成绩的众数是2.35,错误;

B 、这些运动员成绩的中位数是2.30,正确;

C 、这些运动员的平均成绩是 2.30,错误;

D 、这些运动员成绩的方差不是0.0725,错误; 故选B . 【点睛】

考查了方差、平均数、中位数和众数,熟练掌握定义和计算公式是本题的关键,平均数平

均数表示一组数据的平均程度.中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(或最中间两个数的平均数);方差是用来衡量一组数据波动大小的量.

15.5、2.4、2.4、2.4、2.3的中位数是2.4,选项C不符合题意.

1

5

×[(2.3﹣2.4)2+(2.4﹣2.4)2+(2.5﹣2.4)2+(2.4﹣2.4)2+(2.4﹣2.4)2]

=1

5

×(0.01+0+0.01+0+0)

=1

5

×0.02

=0.004

∴这组数据的方差是0.004,

∴选项D不符合题意.

故选B.

【点睛】

此题主要考查了中位数、众数、算术平均数、方差的含义和求法,要熟练掌握.16.甲、乙两班举行电脑汉字输入比赛,参赛学生每分输入汉字的个数统计结果如下表:

某同学分析上表后得到如下结论:

①甲、乙两班学生平均成绩相同;

②乙班优秀的人数多于甲班优秀的人数(每分输入汉字个数150

为优秀)

③甲班成绩的波动比乙班大.

上述结论中正确的是()

A.①②③B.①②C.①③D.②③

【答案】A

【解析】

【分析】

平均水平的判断主要分析平均数;优秀人数的判断从中位数不同可以得到;波动大小比较方差的大小.

【详解】

从表中可知,平均字数都是135,①正确;

甲班的中位数是149,乙班的中位数是151,比甲的多,而平均数都要为135,说明乙的优秀人数多于甲班的,②正确;

甲班的方差大于乙班的,又说明甲班的波动情况大,所以③也正确.

①②③都正确.

故选:A.

【点睛】

此题考查平均数,中位数,方差的意义.解题关键在于掌握平均数表示一组数据的平均程度.中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(或最中间两个数的平均数);方差是用来衡量一组数据波动大小的量.

17.数据2、5、6、0、6、1、8的中位数是()

A.8 B.6 C.5 D.0

【答案】C

【解析】

【分析】

将一组数据按照从小到大(或从大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数.

【详解】

将数据从小到大排列为:0,1,2,5,6,6,8

∵这组数据的个数是奇数

∴最中间的那个数是中位数

即中位数为5

故选C.

【点睛】

此题考查了平均数与中位数的意义,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数.

18.在光明中学组织的全校师生迎“五四”诗词大赛中,来自不同年级的25名参赛同学的得分情况如图所示.这些成绩的中位数和众数分别是()

A.96分,98分B.97分,98分C.98分,96分D.97分,96分

【答案】A

【解析】

【分析】

利用众数和中位数的定义求解.

【详解】

98出现了9次,出现次数最多,所以数据的众数为98分;

共有25个数,最中间的数为第13个数,是96,所以数据的中位数为96分.

故选A.

【点睛】

本题考查了众数:一组数据中出现次数最多的数据叫做众数.也考查了中位数.19.有一组数据如下:3,a,4,6,7,它们的平均数是5,那么这组数据的方差是()

A.10 B C D.2

【答案】D

【解析】

【分析】

【详解】

∵3、a、4、6、7,它们的平均数是5,

∴1

5

(3+a+4+6+7)=5,

解得,a=5

S2=1

5

[(3-5)2+(5-5)2+(4-5)2+(6-5)2+(7-5)2]

=2,

故选D.

20.分析题中数据,将15名运动员的成绩按从小到大的顺序依次排列,处在中间位置的一个数即为运动员跳高成绩的中位数;

【分析】数据的分析单元测试题含答案供参考

【关键字】分析 第二十章《数据的分析》单元测试题 一、选择题) 1.为了了解参加某运动会的200名运动员的年龄情况,从中抽查了20名运动员的年龄,就这个问题来说,下面说法正确的是() A.200名运动员是总体B.每个运动员是总体 C.20名运动员是所抽取的一个样本D.样本容量是20 2.一城市准备选购一千株高度大约为的某种风景树来进行街道绿化,?有四个苗圃生产基地投标(单株树的价格都一样).?采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下: A.甲苗圃的树苗B.乙苗圃的树苗; C.丙苗圃的树苗D.丁苗圃的树苗3.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,?则原来那组数据的平均数是() A.50 B..48 D.2 4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为() A.8,9 B.8,.8.5,8 D.8.5,9 5.为鼓励市民珍惜每一滴水,某居委会表扬了100个节约用水模范户,8月份节约用水的情况如下表: 那么,8月份这100() A.1.5t B.1.20t C.1.05t D.1t 6.已知一组数据-2,-2,3,-2,-x,-1的平均数是-0.5,?那么这组数据的众数与中位数分别是() A.-2和3 B.-2和.-2和-1 D.-2和-1.5 7.方差为2的是() A.1,2,3,4,5 B.0,1,2,3,5 C.2,2,2,2,2 D.2,2,2,3,3 8.甲、乙两班举行电脑汉字输入速度比赛,?参赛学生每分钟输入汉字的个数经统计计算后结果如下表: (1)甲、乙两班学生成绩的平均水平相同; (2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀) (3)甲班成绩的波动情况比乙班成绩的波动小

数据分析笔试题

数据分析笔试题 一、编程题(每小题20分)(四道题任意选择其中三道) 有一个计费表表名jifei 字段如下:phone(8位的电话号码),month(月份),expenses (月消费,费用为0表明该月没有产生费用) 下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。 按照要求写出满足下列条件的sql语句: 1、查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来(截止到10月31日)所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。(A、B 分别代表1—9中任意的一个数字) 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码(结果不能出现重复) 二、逻辑思维题(每小题10分)须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡,均是60元的价格成交的。其中一张赚了20%, 另一张赔了20%,问他总体是盈利还是亏损,盈/亏多少? 2、有个农场主雇了两个小工为他种小麦,其中A是一个耕地能手,但不擅长播种;而B 耕地很不熟练,但却是播种的能手。农场主决定种10亩地的小麦,让他俩各包一半,于是A从东头开始耕地,B从西头开始耕。A耕地一亩用20分钟,B却用40分钟,可是B播种的速度却比A快3倍。耕播结束后,庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么? 4、烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?(绳子分别为A 、B、C、D、E、F 。。。。。来代替)

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧 重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把 整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日 志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也 就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一 个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000 个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到 分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把

数据分析基础测试题含答案

数据分析基础测试题含答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.甲、乙、丙三个不同品种的苹果树在同一地区进行对比试验,从每个品种的苹果树中随机各抽取10棵,对它们的产量进行统计,绘制统计表如下: 品种甲乙丙 平均产量/(千克/棵)9090 方差10.224.88.5 若从这三个品种中选择一个在该地区推广,则应选择的品种是() A.甲B.乙C.丙D.甲、乙中任选一个【答案】A 【解析】 【分析】 根据平均数、方差等数据的进行判断即可. 【详解】 根据平均数、方差等数据的比较可以得出甲品种更适在该地区推广. 故选:A 【点睛】 本题考查了平均数、方差,掌握平均数、方差的定义是解题的关键. 3.某射击俱乐部将11名成员在某次射击训练中取得的成绩制成如图所示的条形统计图,由图可知,11名成员射击成绩的众数和中位数分别是()

A.8,9 B.8,8 C.8,10 D.9,8 【答案】B 【解析】 分析:中位数,因图中是按从小到大的顺序排列的,所以只要找出最中间的一个数(或最中间的两个数)即可,本题是最中间的那个数;对于众数可由条形统计图中出现频数最大或条形最高的数据写出. 详解:由条形统计图知8环的人数最多, 所以众数为8环, 由于共有11个数据, 所以中位数为第6个数据,即中位数为8环, 故选B. 点睛:本题主要考查了确定一组数据的中位数和众数的能力.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数字即为所求.如果是偶数个,则找中间两个数的平均数. 4.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,

深圳市高级中学二年级数学下册第一单元《数据收集整理》单元测试题(含答案解析)

深圳市高级中学二年级数学下册第一单元《数据收集整理》单元测试题(含答 案解析) 一、选择题 1.李兵和王芳做“石头、剪刀、布”的游戏。下面是李兵画“正”字记录的自己游戏的结果。那么王芳赢了()次。 A. 14 B. 6 C. 8 2.下面是三(1)班男生1分钟跳绳测试的成绩统计图。男生达标成绩是110个,达标的人数是()人。 A. 25 B. 20 C. 18 3.选一选 种类连环画故事书科技书其他 人数(人)181284 A.连环画 B.故事书 C.科技书 D.其他 (2)喜欢()的人数最少。 A.连环画 B.故事书 C.科技书 D.其他 (3)喜欢故事书的比喜欢连环画的少()人。 A.10 B.6 C.4 D.8 (4)喜欢连环画的和喜欢科技书的一共()人。 A.30 B.20

C.26 D.12 4.心心幼儿园新进了一批玩具。 玩具 个数(个)812610 心心幼儿园新进的玩具一共有()个。 A. 20 B. 36 C. 18 D. 26 5.某班24名男生参加50米跑测试成绩如下图: 从上图中可以看出,得()的人最多。 A. 优秀 B. 良好 C. 合格 D. 不合格6.学校有8个班参加了回收废报纸活动。第一天回收废报纸43千克;第二天回收废报纸38千克;第三天回收废报纸39千克。平均每天回收废报纸()千克。 A. 39 B. 40 C. 41 D. 42 7.要反映长沙市一周内每天的最高气温的数据情况,宜采用()。 A. 条形统计图 B. 扇形统计图 C. 统计表 D. 频数分布直方图 8.下图中三角形有几个?() A. 5个 B. 3个 C. 4个 9.2012年伦敦奥运会金牌情况统计表。 国家中国英国美国巴西 数量(块)38294612 A. 中国 B. 英国 C. 美国 D. 巴西10.喜欢( )小组的人数最少。

数据分析笔试题全解

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求 以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度

招行-DW-BI-数据面试题及答案

DW/BI 数据库面试题 一、基础题 1. 2.描述Tablespace和Datafile之间的关系. 3.描述日志的作用. 4. 5.

7. 8. 9.FACT Table上需要建立何种索引? 二、SQL试题

1.有一张表T(F1,F2,F3,F4),要根据字段F2排序后取第8-16条记录显示,请写 出SQL。 2.指出下面SQL语句的执行顺序: select a.column1 , COUNT(*) AS CountValue, SUM(b.column3) AS SumValue from TableAainnerjoinTableB b on a.column1 = b.column1 and a.column2 = 1 where b.column3 = 10 group by a.column1 having COUNT(*)> 10 order by a.column1 1. From 2. ON 3. INNER JOIN 4. WHERE 5. GROUP BY 6. having 7. SELECT8. ORDER BY 三、DW/BI 试题 1.描述ROLAP、MOLAP、HOLAP的区别与优势。

2.

3.描述一下DW设计架构,及ETL设计方法。 4.描述你所熟悉的数据模型,如一些行业的模型,实际参与的设计及主题。 财务数据模型, 主要是凭证,会计科目,供应商,客户,等 主事实表就是会计分录、凭证等。因为凭证有表头和表体。所以事实表由两个表组成,一个是存储表头一个是表体。会计科目、供应商、客户是作为单独维度表。其他维度作为辅助维度存储在在一张表中。

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

2020-2021八年级数学数据的分析单元测试题

一、选择题(每小题4分,共36分) 1、为了解我校八年级800名学生期中数学考试情况,从中抽取了200名学生的数学成绩进行统计.下列判断:①这种调查方式是抽样调查;②800名学生是总体;③每名学生的期中考试数学成绩是个体;④200名学生是总体的一个样本;⑤200名学生是样本容量.其中正确的判断有 ( ) A.1个 B.2个 C.3个 D.4个 2、人数相同的八年级甲、乙两班学生在同一次数学单元测试,班级平均分和方差如下:80==乙甲x x ,2402=甲 s ,1802=乙s ,则成绩较为稳定的班级是( ) A.甲班 B.乙班 C.两班成绩一样稳定 D.无法确定 3 这组数据的中位数和众数别是( ) A.24,25 B.24.5,25 C.25,24 D.23.5,24 4、在学校对学生进行的晨检体温测量中,学生甲连续10天的体温与36℃的上下波动数据为0.2,0.3,0.1,0.1,0,0.2,0.1,0.1,0, 0.1,则在这10天中该学生的体温波动数据中不正确的是( )

A.平均数为0.12 B.众数为0.1 C.中位数为 0.1 D. 方差为0.02 5、甲、乙、丙、丁四人的数学测验成绩分别为90分、90 分、x分、80分,若这组数据的众数与平均数恰好相等,则这组数据的中位数是() A.100分 B.95分 C.90分 D.85分 6、已知三年四班全班35人身高的算术平均数与中位数都是 150厘米,但后来发现其中有一位同学的身高登记错误,误将160厘米写成166厘米,正确的平均数为a厘米,中位数为b厘米关于平均数a的叙述,下列何者正确() A.大于158 B.小于158 C.等于158 D.无法确定 7、在上题中关于中位数b的叙述。下列何者正确() A.大于158 B.小于158 C.等于158 D.无法确定 8、已知一组数据1、2、y的平均数为4,那么() A.y=7 B.y=8 C.y=9 D.y=10 9、若一组数据a1,a2,…,a n的方差是5,则一组新数据2a1,2a2,…,2a n的方差是() A.5 B.10 C.20 D.50 二、填空题(每空3分,共45分) 10、数学期末总评成绩由作业分数,课堂参与分数,期考 分数三部分组成,并按3:3:4的比例确定。已知小明的期考80分,作业90分,课堂参与85分,则他的总评成绩为________

2016年数据分析面试常见问题

1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是:

第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N)+ N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map 等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。 4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个

数据分析专项训练及解析答案

数据分析专项训练及解析答案 一、选择题 1.分析题中数据,将15名运动员的成绩按从小到大的顺序依次排列,处在中间位置的一个数即为运动员跳高成绩的中位数; 2.对于一组统计数据:1,1,4,1,3,下列说法中错误的是() A.中位数是1 B.众数是1 C.平均数是1.5 D.方差是1.6 【答案】C 【解析】 【分析】 将数据从小到大排列,再根据中位数、众数、平均数及方差的定义依次计算可得答案.【详解】 解:将数据重新排列为:1、1、1、3、4, 则这组数据的中位数1,A选项正确; 众数是1,B选项正确; 平均数为11134 5 ++++ =2,C选项错误; 方差为1 5 ×[(1﹣2)2×3+(3﹣2)2+(4﹣2)2]=1.6,D选项正确; 故选:C. 【点睛】 本题主要考查中位数、众数、平均数及方差,解题的关键是掌握中位数、众数、平均数及方差的定义与计算公式. 3.有甲、乙两种糖果,原价分别为每千克a元和b元.根据调查,将两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合,取得了较好的销售效果.现在糖果价格有了调整:甲种糖果单价下降15%,乙种糖果单价上涨20%,但按原比例混合的糖果单价恰好不 变,则x y 等于() A.3 4 a b B. 4 3 a b C. 3 4 b a D. 4 3 b a 【答案】D 【解析】 【分析】 根据已知条件表示出价格变化前后两种糖果的平均价格,进而得出等式求出即可.【详解】 解:∵甲、乙两种糖果,原价分别为每千克a元和b元, 两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合,

∴两种糖果的平均价格为:ax by x y + + , ∵甲种糖果单价下降15%,乙种糖果单价上涨20%, ∴两种糖果的平均价格为: 1520 (1)(1) 100100 a x b y x y -?++ + , ∵按原比例混合的糖果单价恰好不变, ∴ax by x y + + = 1520 (1)(1) 100100 a x b y x y -?++ + , 整理,得15ax=20by ∴ 4 3 x b y a =, 故选:D. 【点睛】 本题考查了加权平均数,解决本题的关键是表示出价格变化前后两种糖果的平均价格.4.某青年排球队12名队员的年龄情况如下: 则12名队员的年龄() A.众数是20岁,中位数是19岁B.众数是19岁,中位数是19岁 C.众数是19岁,中位数是20.5岁D.众数是19岁,中位数是20岁 【答案】D 【解析】 【分析】 中位数是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数;众数是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个). 【详解】 解:在这一组数据中19岁是出现次数最多的,故众数是19岁;将这组数据从小到大的顺序排列后,处于中间位置的数是20岁,那么由中位数的定义可知,这组数据中的中位数是20岁.故选:D. 【点睛】 理解中位数和众数的定义是解题的关键.

20、第二十章《数据的分析》单元测试题(含答案)-

第二十章《数据的分析》单元测试题 一、选择题) 1.为了了解参加某运动会的200名运动员的年龄情况,从中抽查了20名运动员的年龄,就这个问题来说,下面说法正确的是() A.200名运动员是总体B.每个运动员是总体 C.20名运动员是所抽取的一个样本D.样本容量是20 2.一城市准备选购一千株高度大约为2m的某种风景树来进行街道绿化,?有四个苗圃生产基地投标(单株树的价格都一样).?采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下: 请你帮采购小组出谋划策,应选购() A.甲苗圃的树苗B.乙苗圃的树苗; C.丙苗圃的树苗D.丁苗圃的树苗 3.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,?则原来那组数据的平均数是()A.50 B.52 C.48 D.2 4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为() A.8,9 B.8,8 C.8.5,8 D.8.5,9 5 那么,8月份这100 A.1.5t B.1.20t C.1.05t D.1t 6.已知一组数据-2,-2,3,-2,-x,-1的平均数是-0.5,?那么这组数据的众数与中位数分别是() A.-2和3 B.-2和0.5 C.-2和-1 D.-2和-1.5 7.方差为2的是() A.1,2,3,4,5 B.0,1,2,3,5 C.2,2,2,2,2 D.2,2,2,3,3 8 某同学根据上表分析得出如下结论: (1)甲、乙两班学生成绩的平均水平相同; (2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀) (3)甲班成绩的波动情况比乙班成绩的波动小 上述结论中正确的是() A.(1)(2)(3)B.(1)(2)C.(1)(3)D.(2)(3) 9.某校把学生的纸笔测试、实践能力、成长纪录三项成绩分别按50%、20%?、?30%的比例计入学期总评成绩,90分以上为优秀.甲、乙、?丙三人的各项成绩如下表(单位:分),学期总评成绩优秀的是()

21个必知数据科学面试题和答案

21个必知数据科学题和答案 2016-03-10分类:其他 最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。 下面是答案。 Q1.解释什么是正则化,以及它为什么有用。 回答者:Matthew Mayo 正则化是添加一个调优参数的过程模型来引导平滑以防止过拟合。(参加KDnuggets文章《过拟合》) 这通常是通过添加一个常数到现有的权向量。这个常数通常要么是L1(Lasso)要么是L2(ridge),但实际上可以是任何标准。该模型的测算结果的下一步应该是将正则化训练集计算的损失函数的均值最小化。 Xavier Amatriain在这里向那些感兴趣的人清楚的展示了L1和L2正则化之间的比较。 图1.Lp球:p的值减少,相应的L-p空间的大小也会减少。 Q2.你最崇拜哪些数据科学家和创业公司? 回答者:Gregory Piatetsky 这个问题没有标准答案,下面是我个人最崇拜的12名数据科学家,排名不分先后。 Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他们对神经网络的坚持不懈的研究,和开启了当前深度学习的革命。 Demis Hassabis,因他在DeepMind的杰出表现——在Atari游戏中实现了人或超人的表现和最近Go的表现。来自datakind的Jake Porway和芝加哥大学DSSG的Rayid Ghani因他们让数据科学对社会产生贡献。 DJ Patil,美国第一首席数据科学家,利用数据科学使美国政府工作效率更高。 Kirk D. Borne,因其在大众传媒中的影响力和领导力。

(专题精选)初中数学数据分析真题汇编及答案

(专题精选)初中数学数据分析真题汇编及答案 一、选择题 1.校团委组织开展“医助武汉捐款”活动,小慧所在的九年级(1)班共40名同学进行了捐款,已知该班同学捐款的平均金额为10元,二小慧捐款11元,下列说法错误的是( ) A.10元是该班同学捐款金额的平均水平B.班上比小慧捐款金额多的人数可能超过20人 C.班上捐款金额的中位数一定是10元D.班上捐款金额数据的众数不一定是10元【答案】C 【解析】 【分析】 根据平均数,中位数及众数的定义依次判断. 【详解】 ∵该班同学捐款的平均金额为10元, ∴10元是该班同学捐款金额的平均水平,故A正确; ∵九年级(1)班共40名同学进行了捐款,捐款的平均金额为10元, ∴班上比小慧捐款金额多的人数可能超过20人,故B正确; 班上捐款金额的中位数不一定是10元,故C错误; 班上捐款金额数据的众数不一定是10元,故D正确, 故选:C. 【点睛】 此题考查数据统计中的平均数,中位数及众数的定义,正确理解定义是解题的关键. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析 随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库? 6、如何设计一个解决抄袭的方案? 7、如何检验一个个人支付账户都多个人使用? 8、点击流数据应该是实时处理?为什么?哪部分应该实时处理? 9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在

所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好? 10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言? 11、你是如何处理缺少数据的?你推荐使用什么样的处理技术? 12、你最喜欢的编程语言是什么?为什么? 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是? 15、什么是大数据的诅咒? 16、你参与过数据库与数据模型的设计吗? 17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法? 18、你喜欢TD数据库的什么特征? 19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗? 20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出? 21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好? 22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少? 23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡? 24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些? 25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价? 26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法? 27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下) 28、什么是星型模型?什么是查询表?

数据分析岗面试题

数据分析岗面试题 It was last revised on January 2, 2021

数据分析岗面试题1、表:table1(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列表,显 示班级,成绩两个字段。 2、有一个表table1有两个字段FID,Fno,字都非空,写一个SQL语句列出该表 中一个FID对应多个不同的Fno的纪录。 Fid Fno 101 a1001 101 a1001 102 a1002 102 a1003 103 a1004 104 a1005 104 a1006 105 a1007 105 a1007 105 a1007 3、有员工表empinfo ( Fempno varchar2(10) not null pk, Fempname varchar2(20) not null, Fage number not null, Fsalary number not null ); 假如数据量很大约1000万条; 写一个你认为最高效的SQL,用一个SQL计算以下四种人: fsalary>9999 and fage > 35 fsalary>9999 and fage < 35 fsalary <9999 and fage > 35 fsalary <9999 and fage < 35 每种员工的数量; 4、 Sheet1: sheet2: Sheet1、sheet2是Excel中两个表,sheet2中 记录了各产品类别下面对应的产品编码,现 要在sheet1 C列中对应A列产品编码所对应 的产品类别,请写出公式。

毕业生笔试题:阿里巴巴数据分析笔试题

《毕业生:阿里巴巴数据分析师笔试题》 最近,网上放出了IT大佬们的一些考题出来,让人竞相争看,倒地这些大牛公司的择贤条件是如何的呢?大圣众包(https://www.sodocs.net/doc/e010682877.html,)威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题,让大家提前试试水。答案在最后,可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 三、根据要求写出SQL 表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致) 四、销售数据分析 根据某一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师, a)从数据中,你看到了什么问题?你觉得背后的原因是什么? b)如果你的老板要求你提出一个运营改进计划,你会怎么做? 五、用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题: a)试验需要为决策提供什么样的信息? b)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

———————————————答案分割线——————————————— 一、 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以FrankE.Grubbs命名的),又叫maximumnormedresidualtest,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 【点评】考察的内容是统计学基础功底。 二、 聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchicalmethod)、划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后

最新初中数学数据分析经典测试题附答案

最新初中数学数据分析经典测试题附答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4, ∴a-2,b-2,c-2的方差=1 3 [(a-2-3)2+(b-2-3)2+(c--2-3)2] = 1 3 [(a-5)2+(b-5)2+(c-5)2]=4, 故选B.【点睛】

本题考查了平均数、方差,熟练掌握平均数以及方差的计算公式是解题的关键. 3.对于一组统计数据:1,1,4,1,3,下列说法中错误的是() A.中位数是1 B.众数是1 C.平均数是1.5 D.方差是1.6 【答案】C 【解析】 【分析】 将数据从小到大排列,再根据中位数、众数、平均数及方差的定义依次计算可得答案.【详解】 解:将数据重新排列为:1、1、1、3、4, 则这组数据的中位数1,A选项正确; 众数是1,B选项正确; 平均数为11134 5 ++++ =2,C选项错误; 方差为1 5 ×[(1﹣2)2×3+(3﹣2)2+(4﹣2)2]=1.6,D选项正确; 故选:C. 【点睛】 本题主要考查中位数、众数、平均数及方差,解题的关键是掌握中位数、众数、平均数及方差的定义与计算公式. 4.2022年将在北京﹣﹣张家口举办冬季奥运会,很多学校为此开设了相关的课程,下表记录了某校4名同学短道速滑成绩的平均数x和方差S2,根据表中数据,要选一名成绩好又发挥稳定的运动员参加比赛,应选择() A.队员1 B.队员2 C.队员3 D.队员4 【答案】B 【解析】 【分析】 根据方差的意义先比较出4名同学短道速滑成绩的稳定性,再根据平均数的意义即可求出答案.

相关主题