搜档网
当前位置:搜档网 › 阿里巴巴笔试题+解析(完整)

阿里巴巴笔试题+解析(完整)

阿里巴巴笔试题+解析(完整)
阿里巴巴笔试题+解析(完整)

阿里巴巴面试题

1、 20个阿里巴巴B2B技术部的员工被安排为4排,每排5个人,我们任意选其中4人送给他们一人一本《effective c++》,那么我们选出的4人都在不同排的概率为:

A、 5^4*5!*15!/20!

B、 4^5*5!*15!/20!

C、 5^4*4!*16!/20!

D、 4^5*4!*16!/20!

2、若有序表的关键字序列为(b,c,d,e,f,g,q,r,s,t),则在二分查找关键字b的过程中,先后进行的关键字依次为:

A、f,c,b

B、f,d,b

C、g,c,b

D、g,d,b

3、 perl里面声明:open(FILE,mode,file); 操作的描述,下列哪项不正确?

A、 FILE可以用变量$file来代替

B、 mode可以和file写在一起,例如:open(FILE, ‘>file’)

C、 mode为+<的时候,只可以读文件,不能写文件(既可以读也可以写)

D、 mode可以省略不写

4、有一个虚拟存储系统,若进程在内存中占3页(开始时内存为空),若采用先进先出(FIFO)页面淘汰算法,当执行如下访问页号序列后1,2,3,4,5,1,2,5,1,2,3,4,5,会发生多少缺页?

A、7

B、8

C、9

D、10

5、设有一个顺序栈S,元素s1、s2、s3、s4、s5、s6依次进栈,如果6个元素的出栈顺序为s2、s3、s4、s

6、s5、s1,则顺序栈的容量至少应为多少?

A、2

B、3

C、4

D、5

6、下列关于文件索引结构的叙述中,哪一个是错误的?

A、采用索引结构,逻辑上连续的文件存放在连续的物理块中

B、系统为每个文件建立一张索引表

C、索引结构的优点是访问速度快,文件长度可以动态变化

D、索引结构的缺点是存储开销大

7、在ASC算法team日常开发中,常常面临一些数据结构的抉择,令人纠结。目前大家在策划一个FBI项目(Fast Binary Indexing),其中用到的词汇有6200条,词汇长度在10-15之间,词汇字符是英文字母,区分大小写。请在下面几个数据结构中选择一个使检索速度最快的:

A、二叉搜索树,比较函数开销:1次运算/每字符

B、哈希表,hash算法开销:10次运算/每字符

C、链表,比较函数开销:1次运算/每字符

D、 TRIE树,寻找子节点开销:1次运算/每字符

8、【0、2、1、4、3、9、5、8、6、7】是以数组形式存储的最小堆,删除堆顶元素0后的结果是()

A、【2、1、4、3、9、5、8、6、7】

B、【1、2、5、4、3、9、8、6、7】

C、【2、3、1、4、7、9、5、8、6】

D、【1、2、5、4、3、9、7、8、6】

9、某页式存储管理系统中,地址寄存器长度为24位,其中页号占14位,则主存的分块大小是()字节。

A、10

B、2^10

C、2^14

D、2^24

10、在一个长为33厘米的光滑凹轨上,在第3厘米、第6厘米、第19厘米、第22 厘米、第26厘米处各有一个钢珠,凹轨很细,不能同时通过两个钢珠,开始时,钢珠运动方向是任意的。两个钢珠相撞后,以相同速度反向运动。假设所有钢珠初始速度为每秒运动1厘米,那么所有钢珠离开凹轨的最长可能时间是()

A、30

B、26

C、38

D、33

解:A 碰 B 后, A, B 各自反方向运动,由于速度与之前一样,所以:将 A B 交换后,结果与之前相同。所以,整个过程就相当于,每个球单向运动

11、std::vector::iterator重载了下面哪些运算符?

A、++

B、>>

C、*(前置)

D、==

12、下列运算符,在C++语言中不能重载的是()

A、*

B、?:

C、::

D、delete

13、在排序方法中,元素比较次数与元素的初始排列无关的是()

A、Shell 排序

B、归并排序

C、直接插入排序

D、选择排序

解:A、C肯定不选的,归并排序的在merge中是跟序列有关,如果有序,比较次数最少n/2,最糟是元素错落n-1。而选择排序比较次数与关键字的初始状态无关,总的比较次数

N=(n-1)+(n-2)+、、、+1=n*(n-1)/2。所以应该是选择排序!

14、给定如下代码: int x[4]={0}; int y[4]={1}; 数组x和y的值为()

A、{0,0,0,0},{1,1,1,1}

B、{0,0,0,0},{1,0,0,0}

C、{0,不确定},{1,不确定}

D、与编译器相关

15、给出以下定义,下列哪些操作是合法的?

const char *p1 = "hello";

char* const p2 = "world";

A、p1++

B、p1[2]='w';

C、p2[2]='l';

D、p2++

16、假设在n进制下,下面的等式成立,n值是() 567*456=150216

A、9

B、10

C、12

D、18

解:假设是X进制,则567=7+6*X+5*X^2,456=6+5*X+4*X^2,所以564*456=(7+6*X+5*X^2)*(6+5*X+4*X^2)而150216=6+X+2*X^2+5*x^4+X^5,由于567*456=150216,则

6+X+2*X^2+5*x^4+X^5=(7+6*X+5*X^2)*(6+5*X+4*X^2),最后解出来X=18

17、关于struct和class,下列说法正确的是()

A、struct的成员默认是public,class的成员默认是private

B、struct不能继承,class可以继承

C、struct可以有无参构造函数

D、struct的成员变量只能是public

解:若不明确指定,来自class的继承按照private继承处理,来自struct的继承按照public 继承处理;都可使用public/private/protected修饰符,都可以有无参构造函数

18、定义一个函数指针,指向的函数有两个int形参并且返回一个函数指针,返回的指针指向一个有一个int形参且返回int的函数?

A、int (*(*F)(int, int))(int)

B、int (*F)(int, int)

C、int (*(*F)(int, int))

D、*(*F)(int, int)(int)

19、声明一个指向含有10个元素的数组的指针,其中每个元素是一个函数指针,该函数的返回值是int,参数是int*,正确的是()

A、(int *p[10])(int*);

B、int [10]*p(int *);

C、int (*(*p)[10])(int *);

D、int ((int *)[10])*p;

E、以上选项都不正确

20、一个栈的输入序列为123、、、、、n,若输出序列的第一个元素是n,输出第i(1<=i<=n)个元素是()

A、不确定

B、n-i+1

C、i

D、n-i

21、下列代码编译时会产生错误的是()

A、语句1

B、语句2

C、语句3

D、语句4

22、在32位机器上,下列代码中

sizeof(a)的值是()

A、20

B、21

C、22

D、24

E、非以上选项

23、下面描述中,错误的是()

A、基类定义的public成员在公有继承的派生类中可见,也能在类外被访问

B、基类定义的public和protected成员在私有继承的派生类中可见,在类外可以被访问

C、基类定义的public和protected成员在保护继承的派生类中不可见

D、基类定义的protected成员在protected继承的派生类中可见,也能在类外被访问

24、当很频繁地对序列中部进行插入和删除操作时,应该选择使用的容器是()

A、vector

B、list

C、deque

D、stack

25、判断一个单向链表中是否存在环的最佳方法是()

A、两重遍历

B、快慢指针

C、路径记录

D、哈希表辅助

26、给你1、2、3 这三个数字可以使用C的各种运算符,你能表示的最大的整数是()

A、2*3*sizeof(1)

B、3<<(2<

C、sizeof(3)<<(sizeof(2)<<(sizeof(1)))

D、(unsigned long)(2-3)*1

解:-1的二进制形式就是全1表示

27、下面代码的输出是多少?

29、问题描述:

12个高矮不同的人,排成两排,每排必须是从矮到高排列,而且第二排比对应的第一排的人高,问排列方式有多少种?

这个笔试题,很YD,因为把某个递归关系隐藏得很深、

问题分析:

我们先把这12个人从低到高排列,然后,选择6个人排在第一排,那么剩下的6个肯定是在第

二排、

用0表示对应的人在第一排,用1表示对应的人在第二排,那么含有6个0,6个1的序列,就对应一种方案、

比如000000111111就对应着

第一排:0 1 2 3 4 5

第二排:6 7 8 9 10 11

010*********就对应着

第一排:0 2 4 6 8 10

第二排:1 3 5 7 9 11

问题转换为,这样的满足条件的01序列有多少个、

观察1的出现,我们考虑这一个出现能不能放在第二排,显然,在这个1之前出现的那些0,1对应的人,要么是在这个1左边,要么是在这个1前面、而肯定要有一个0的,在这个1前面,统计在这个1之前的0和1的个数、也就是要求,0的个数大于1的个数、OK,问题已经解决、如果把0看成入栈操作,1看成出栈操作,就是说给定6个元素,合法的入栈出栈序列有多少个、这就是catalan数,这里只是用于栈,等价地描述还有,二叉树的枚举,多边形分成三角形的个数,圆括弧插入公式中的方法数,其通项是c(2n, n)/(n+1)。

1、在一次歌唱竞争中,每一名参赛选手都有评委投了优秀票。如果上述断定为真,则以下哪项不可能为真?1)有的评委投了所有参赛选手优秀票。2)有的评委没有给任何参赛选手投优秀票。3)有的参赛选手没有得到一张优秀票。

A、只有1)

B、只有1)

C、只有3)

D、只有1)和2)

E、只有1)和3)

2、所有通过英语六级考试的学生都参加了学校的英语俱乐部,王进参加了英语俱乐部,所以他一定通过了英语六级考试。以下哪项最好的指出了上述论证的逻辑错误?

A、部分通过英语六级考试的学生没有参加英语俱乐部

B、王进能够参加英语俱乐部是因为它符合加入俱乐部的基本条件。

C、王进曾经获得过年级英语演讲比赛第一名。

D、凡愿意每学期缴纳50元会费,并且愿意积极参加俱乐部活动的学生都可以成为俱乐部的成员。

E、有些参加俱乐部的学生还没有通过英语六级考试。

3、一架飞机在满油的情况下可以绕地球飞0、5圈,假设飞机与飞机之间可以互相加油,请问在确保所有飞机够油飞回起点的情况下,最少需要几架飞机才可以让其中一架飞机成功绕地球飞行一圈?

A、3

B、4

C、5

D、6

E、7

解:3架飞机A、B、C同时起飞,同向而行。飞至1/8航程(绕地球一周)处,正好耗去1/4燃油,其中1架飞机A将2×1/4油箱燃油分加至的飞机B、C油箱中,然后带1/4燃油正好能安全返航。此时飞机B、C油箱是满的。

剩下2架飞机继续飞行1/8航程,也就是1/4航程处,此时飞机B、C还有3/4油箱的燃油。飞机B将1/4油箱的燃油加至飞机C,飞机B剩下1/2油箱燃油返航,飞机C为满油箱,继续做环球飞行,能飞至3/4航程处。

飞机C飞至1/2航程处,由同一机场同时起飞3架飞机D、E、F,与飞机A、B、C反方向飞行。

飞机D、E、F逆向飞行1/8航程时,飞机D将2×1/4油箱燃油分加至飞机E、F中返航,飞机E、F为满油箱,再向前1/8航程,也就是逆向的1/4航程、正向的3/4航程处,正好与做环球飞行的飞机C汇合,飞机C燃油已耗尽,飞机E、F都还有3/4油箱燃油,两飞机分别将1/4油箱燃油加给飞机C,并同飞机C一起返回机场,此时飞机C、E、F同为1/2油箱燃油,正好能飞完剩下的1/4航程。

如果飞机D、E、F不同时起飞,还可以节约一些燃油,但起飞飞机架次一样。

4、如果所有的妇女都有大衣,那么漂亮的妇女会有?

A、更多的大衣

B、时髦的大衣

C、大衣

D、昂贵的大衣

5、100张多米诺骨牌整齐的排成一列,顺序编号依次为1,2,3,……,99,100。第一次拿走所有奇数位置上的骨牌,第二次再从剩余骨牌中拿走所有奇数位置上的骨牌,依次类推。请问最后剩下的一张骨牌的编号是多少?

A、32

B、64

C、88

D、96

解:第一次拿走所有奇数,只剩下50个偶数;

第二次拿走25个偶数,这些偶数的特点是:可分解成2×奇数,比如2可分解成2×1,6=2×3,10=2×5等等,剩下的25个偶数可分解成2×偶数;

第三次拿走13个偶数,这些偶数的特点是:可分解成4×奇数,剩下的12个偶数可分解成4×偶数;

第四次拿走6个偶数,这些偶数的特点是:可分解成8×奇数,剩下的6个偶数可分解成8×偶数;

第五次拿走3个偶数,这些偶数的特点是:可分解成16×奇数,剩下的3个偶数可分解成16×偶数;

第六次拿走2个偶数,这些偶数的特点是:可分解成32×奇数,剩下的最后1个偶数可分解成32×偶数,而且这个偶数必须大于1小于等于100,所以这个偶数是64!

其实本题所求的是在1到100之内2的最大次方。

6、小王在商店买衬衫,售货员问她想要哪种颜色的,小王幽默的说:“我不像讨厌黄色那样讨厌红色,我不像讨厌白色那样讨厌蓝色,我不像喜欢粉红那样喜欢红色,我对蓝色不如对黄色那样喜欢。”小王最后会选择的颜色是:

A、粉色

B、蓝色

C、红色

D、黄色

7、在我国北方严寒冬季的夜晚,车辆前挡风玻璃会因低温而结冰霜。第二天对车辆发动预热后玻璃上的冰霜会很快融化。何宁对此不解,李军解释道:因为车辆仅有除霜孔位于前挡风玻璃,而车辆预热后除霜孔完全开启,因此,是开启除霜孔是车辆玻璃冰霜融化。以下哪项为真,最能质疑李军对车辆玻璃迅速融化的解释?

A、车辆一侧玻璃窗没有出现冰霜现象。

B、尽管车位玻璃窗没有除霜孔,其玻璃上的冰霜融化速度与挡风玻璃没有差别

C、当吹在车辆玻璃上的空气气温增加,其冰霜的融化速度也会增加

D、车辆前挡风玻璃除霜孔排出的暖气流排除后可能很快冷却

E、即使启用车内空调暖风功能,除霜孔的功能也不能被取代

8、小张承诺:如果天不下雨,我一定去听音乐会。以下哪项为真,说明小张没有兑现承诺?1)天没下雨,小张没去听音乐会。2)天下雨,小张去听了音乐会。3)天下雨,小张没去听音乐会。

A、仅1)

B、仅2)

C、仅3)

D、仅1)和2)

E、 1)、2)和3)

9、某零件加工厂按工人完成的合格零件和不合格零件支付工资。公认每做一个合格零件得工资10元,每做一个不合格零件被扣除5元。已知某人一天工作了12个零件得工资90元。那么他在这一天做了多少个不合格零件?

A、2

B、3

C、4

D、6

10、给你8颗小石头和一架天平,其中有7颗石头重量一样,另外一个比这7颗略重。请问在最坏情况下,最少要称重几次,才能把这颗较重的石头找出来?

A、 3

B、 2

C、 1

D、 4

解:挑出两颗,把剩下6颗分成两份称重:

1、一样重,则再称一下挑出的那两颗即可

2、不一样重,排除较轻的三颗,剩下3颗挑一颗出来,称其余两颗。如果一样重,则挑出的那颗便是,如果不一样重,重的那颗便是。

11、如果你有两个大小一样的桶,分别装了半桶红颜料和半桶蓝颜料。如果我们从蓝色颜料桶里舀一杯,倒入红色颜料桶里,搅拌均匀,然后再从红色颜料桶里舀一杯倒入蓝色颜料桶。请问以下说法哪种正确?

A、红色桶中蓝颜色的比例大。

B、蓝色桶中红颜色的比例大。

C、红色桶中蓝颜色的比例和蓝色桶中红颜色的比例一样大。

12、甲乙丙三人居一学生宿舍。甲报案遗失2000元。保安人员经过周密调查,得出结论是丙作的案。班主任说:“这是最不可能的。”保安人员说:“当所有其他的可能性都被排除了,剩下的可能性不管看来多么不可能,都一定是事实。”以下哪项如果是真,将最为有力的动摇保安人员的结论?

A、保安人员事实上不可能比班主任更了解学生。

B、对非法行为惩处的根据,不能是逻辑推理,而只能是证据。

C、保安人员无法穷尽的把握所有的可能性。

D、丙是班上公认的品学兼优的学生。

E、乙有作案的前科。

13、为了将当前目录下的归档文件myftp、tgz解压缩到/tmp目录下,用户可以使用命令

A、 tar xvzf myftp、tgz –C/tmp

B、 tar  xvzf myftp、tgz –R/tmp

C、 tar vzf myftp、tgz –X/tmp

D、 tar xvzf myftp、tgz /tmp

14、软件测试的对象包括()

A、目标程序和相关文档

B、源程序、目标程序、数据及相关文档

C、目标程序、操作系统和平台软件

D、源程序和目标程序

15、正则表达式ab?c匹配的字符串是()。

A、 abcd

B、 adc

C、 aFdc

D、 aEbc

主观题

1、假设有Alibaba网站最近一个月的查询日志,记录了用户的查询行为。每条查询都至少包含有一个产品词,称之为查询意图。总计有查询记录3000万条,请统计出这3000万条……

2、为了保护我们的地球,全世界都在倡导绿色环保。在高效能计算和绿色计算方面,请谈谈你的一些想法。

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目 阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理 和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

阿里巴巴笔试题(南京站,20011年9月)

阿里巴巴笔试题目(20011.9) 技术类笔试试题(卷一)卷一:Java开发、测试工程师(25题) 技术类笔试试题(卷二)卷二:搜索研发、 C++(25题) 1. 20个阿里巴巴B2B技术部的员工被安排为4排,每排5个人,我们 任意选其中4人送给他们一人一本《effective c++》,那么我们 选出的4人都在不同排的概率为: A.5^4*5!*15!/20! B. 4^5*5!*15!/20! C. 5^4*4!*16!/20! D. 4^5*4!*16!/20! 2. 若有序表的关键字序列为(b,c,d,e,f,g,q,r,s,t),则在二分查找关键字b的过程中,先后进行的关键字依次为: A.f,c,b B.f,d,b C.g,c,b D.g,d,b 3. perl里面声明:open(FILE, mode,file); 操作的描述,下列哪项不正确? A. FILE可以用变量$file来代替 B. mode可以和file写在一起,例如:open(FILE, ‘>file’) C. mode为+<的时候,只可以读文件,不能写文件 D. mode可以省略不写 4. 有一虚拟存储系统,若进程在内存中占3页(开始时内存为空),若采用先进先出(FIFO)页面淘汰算法,当执行如下访问页号序列后1,2,3,4,5,1,2,5,1,2,3,4,5,会发生多少缺页 A.7 B.8

C.9 D.10 5. 设有一个顺序栈S,元素s1,s2,s3,s4,s5, s6依次进栈,如果六个元素的出栈顺序为s2,s3,s4,s6,s5,s1,则顺序栈的容量至少应为多少 A.2 B.3 C.4 D.5 6. 下列关于文件索引结构的叙述中,哪一个是错误的? A. 采用索引结构,逻辑上连续的文件存放在连续的物理块中 B. 系统为每个文件建立一张索引表 C. 索引结构的优点是访问速度快,文件长度可以动态变化 D. 索引结构的缺点是存储开销大 7. 在ASC算法team日常开发中,常常面临一些数据结构的抉择,令人纠结。目前大家在策划一个FBI项目(Fast Binary Indexing),其中用到的词汇有6200条,词汇长度在10-15之间,词汇字符是英文字母,区分大小写。请在下面几个数据结构中选择一个使检索速度最快的: A. 二叉搜索树,比较函数开销:1次运算/每字符 B. 哈希表,hash算法开销:10次运算/每字符 C. 链表,比较函数开销:1次运算/每字符 D. TRIE树,寻找子节点开销:1次运算/每字符 8. [0,2,1,4,3,9,5,8,6,7]是以数组形式存储的最小堆,删除堆顶元素0后的结果是: A. [2,1,4,3,9,5,8,6,7] B. [1,2,5,4,3,9,8,6,7] C. [2,3,1,4,7,9,5,8,6] D. [1,2,5,4,3,9,7,8,6] 9. 某页式存储管理系统中,地址寄存器长度为24位,其中页号为14位,则主存的分块大小是()字节。 A.10 B.2^10

运营岗问题及答案——【阿里面试非技术岗】

1 详情页的优化通过哪几项数据分析? 1.页面停留时间跳失率收藏加够转化 2.与同类优秀产品对比,增加符合自己产品的内容 2 直通车推广主要关注哪几个数据?推广的思路? 展现量 点击率 收藏 加购 转化率 平均点击扣费 投入产出比 首先测试宝贝数据,点击、收藏、加购是否达标,与同类商品对比 宝贝数据没有问题 前期根据宝贝标题的核心关键词来添加直通车关键词,从而让直通车带动自然搜索

中期删除一些数据表现不好的关键词加入一些数据好投产高的关键词 后期加入与核心关键词不匹配但是投产高的一些关键词,竞争宝贝一些引流关键词 3 影响产品权重主要哪几个因素? 收藏加购转化销量停留时间访问深度老客户回访下单旺旺在线时间服务保障退货率纠纷率动销率 动态评分好评率产品违规 4 通过以上几个因素简要说明优化思路 店铺;能开通的保障服务全部开通店铺保证持续上新没有访客流量的宝贝及时下架删除。有能力去加入淘宝的一些资质认证(如极有家ifashion 中国制造)

宝贝;优化宝贝的详情,尽可能的体现宝贝的卖点优势,对买家关注的产品细节特点详细展示,展示一些效果的宝贝实拍图多角度多细节的展示宝贝。宝贝前期人为做一些宝贝的基础销量与评价还有问答家(尽可能带图片,评价真实)前期可以做一些浏览单做收藏加购,做好宝贝的关联营销与搭配套餐。保证产品质量与详情图片和描述相符 新客户;出现问题及时与买家沟通解决,引导买家加入自己的微信做好评返现送礼品 老客户;利用一些工具,微淘短信淘金币活动会员权益与老客户进行互动在自己 微信中的老客户用些价格优势和礼品做一些老客户的回访回购 5 新品的推广方法? 直通车结合问题 4 中宝贝+老客户 6 店铺常用推广方式有哪些你熟悉哪几种 直通车钻展淘宝客活动(天天特价淘金币淘抢购聚划算主题活动) 7 店铺爆款的操作模式 1.直通车+自然搜索 2.活动引爆(淘宝客高佣金) 前期人为做数据数据起来报活动

阿里数据整合及数据管理体系解读

前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》,这本书确实内容非常详实,全是干货,值得反复品味。刚刚看完第9章,讲的是数据整合及管理体系,觉得非常好,设计得非常精妙,只看看觉得还不能深刻理解,遂做个读书笔记按照自己理解重构整理一遍,同时补充上自己的解读分享给大家,推荐给准备搭建数据产品或者数据平台的人。 传统企业的业务变化相对不快,但使用一般的表格文档来管理数据过程也已经越来越困难,更何况互联网这样迅速变化的业务,做好数据整理及管理的难度可想而知,但阿里的数据团队还是形成了完成的方法体系,并把其工具化。也只有完备方法体系下构建的工具能满足复杂的数据管理需求。 阿里大数据建设方法论的核心就是,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可 管理、可追溯、可规避重复建设。目标是建设统一的、规范的数据接入层(ODS )和数据中间层(DWD和 DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设。所以数据管理体系是包含具体 的方法论以及相关的产品两个部分,通过产品把方法论固化为标准的流程和操作,达到数据管理的目的。 数据体系架构 数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及 管理,维度分析整理以及数据模型的设计。通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。另外,如何定义每个术语的涵义,准确定义术语非常关键,有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。

业务板块:根据业务的属性划分出相对独立的业务板块,业务板块间指标和业务重叠性较低,比如电 商板块涵盖淘宝、天猫、天猫国际、 B2B 系,金融板块涵盖支付宝、花呗、蚂蚁微贷等。业务板块非常宏观, 可以想象成贾不死的 7大生态。 规范定义:结合行业的数据仓库建设经验和阿里数据自身的特点,设计出的一套过程方法和数据规范命 名体系,规范定义 将用于模型设计中。规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数 据域、业务过程、原子指标 /度量、修 饰类型、修饰词、时间周期、派生指标规则,下图是它们之间的关系, 以及具体实例。 规范定义实例 修矗型 维度 ▼ . 1 ▼ ■ T 楼饰词 戶子洁标! 岖廈隱性! 1 嚴生拦标 <■- 一 一 _ 子指标十対刖息割十幔茶词 1 J ----- 1… 二二 — — — — | — --- ---- na ___ —.1 —— —j T V r* .m _ J — * ?■ — — — 一 一 一 — 1 ir ' 疋总事实表 [杷明唧审冥聚合的事 寰表】 ( 明鉅車寬袁 盘原始板度的明堀救据) (把逍担鍵度轲理化的霍表:. ___ t.. ivritw ■近1夫通址奄 的丫 *TTff ](1 009 P*V..WTfl 支讨督糾 P*v _a*Tit 喙巧茗呼 t 金tt 古式

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧 重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把 整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日 志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也 就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一 个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000 个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到 分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把

阿里巴巴笔试题+解析(完整)

阿里巴巴面试题 1、 20个阿里巴巴B2B技术部的员工被安排为4排,每排5个人,我们任意选其中4人送给他们一人一本《effective c++》,那么我们选出的4人都在不同排的概率为: A、 5^4*5!*15!/20! B、 4^5*5!*15!/20! C、 5^4*4!*16!/20! D、 4^5*4!*16!/20! 2、若有序表的关键字序列为(b,c,d,e,f,g,q,r,s,t),则在二分查找关键字b的过程中,先后进行的关键字依次为: A、f,c,b B、f,d,b C、g,c,b D、g,d,b 3、 perl里面声明:open(FILE,mode,file); 操作的描述,下列哪项不正确? A、 FILE可以用变量$file来代替 B、 mode可以和file写在一起,例如:open(FILE, ‘>file’) C、 mode为+<的时候,只可以读文件,不能写文件(既可以读也可以写) D、 mode可以省略不写 4、有一个虚拟存储系统,若进程在内存中占3页(开始时内存为空),若采用先进先出(FIFO)页面淘汰算法,当执行如下访问页号序列后1,2,3,4,5,1,2,5,1,2,3,4,5,会发生多少缺页? A、7 B、8 C、9 D、10 5、设有一个顺序栈S,元素s1、s2、s3、s4、s5、s6依次进栈,如果6个元素的出栈顺序为s2、s3、s4、s 6、s5、s1,则顺序栈的容量至少应为多少? A、2 B、3 C、4 D、5 6、下列关于文件索引结构的叙述中,哪一个是错误的? A、采用索引结构,逻辑上连续的文件存放在连续的物理块中 B、系统为每个文件建立一张索引表 C、索引结构的优点是访问速度快,文件长度可以动态变化 D、索引结构的缺点是存储开销大 7、在ASC算法team日常开发中,常常面临一些数据结构的抉择,令人纠结。目前大家在策划一个FBI项目(Fast Binary Indexing),其中用到的词汇有6200条,词汇长度在10-15之间,词汇字符是英文字母,区分大小写。请在下面几个数据结构中选择一个使检索速度最快的: A、二叉搜索树,比较函数开销:1次运算/每字符 B、哈希表,hash算法开销:10次运算/每字符 C、链表,比较函数开销:1次运算/每字符 D、 TRIE树,寻找子节点开销:1次运算/每字符 8、【0、2、1、4、3、9、5、8、6、7】是以数组形式存储的最小堆,删除堆顶元素0后的结果是() A、【2、1、4、3、9、5、8、6、7】 B、【1、2、5、4、3、9、8、6、7】

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求 以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<

产品类面试真题阿里笔试非技术岗

产品类面试真题 Q:你的互联网项目产品经历 Tips:具体小问题包括:①如何发现的需求?②如何开展项目?③产品有什么问题?④如何解决?⑤团队组成?如何分工?⑥担当角色发挥的作用?答:从产品定位、功能、解决 Q:说出你印象最深刻的项目? Tips:从项目内容,你在当中的作用,你的收获谈起。当中出现的问题、数据调查、运营手段、取得成果等角度来谈。之后面试官会从中问下实施细节,说的时候最好可以体现你在团队中的职务,取得的效果,从中的收获? Q:你觉得90后身上具备什么素质? A:首先,具备什么素质因人而异。但大部分90后,平均智商偏高(受到良好的教育);对新鲜事物的接受能力较强;乐天派,有激情,有活力。 Tips:这是一道考情商的题,不要说的太极端就好, Q:简单的谈谈你的实习经历? Tips:如果你做过产品相关工作,就谈这个,如果没有,就谈产品经理应该具备的一些能力所对应的经历。 Q:你对产品经理的理解 A1:产品经理是生孩子的,运营是养孩子的。是一个团队的粘合剂,将各个部门联系到一起。 A2:产品经理是一个非常典型的“门槛在里面”的岗位,看上去谁都能做,其实个体间能力的相差能够非常之大。个人觉得对这个问题的回答,很大程度上就决定了此次面试的结果,建议大家看一看《启示录:打造用户喜爱的产品》和《腾讯方法》这两本书以加深理解。 个人建议可以从这么几个方向入手:产品经理是做啥的、产品经理需要具备哪些能力、产品经理对于整个团队的重要性、产品经理的自我完善与成长路径、自身条件与产品经理职位需求的契合度。 Tips: ①我理解的PM需要具备:需求挖掘,数据分析,团队沟通,执行力等方面的能力~ ②为什么要做PM:从a自己的愿景、b能力与岗位的匹配、c提升能力,这三个角度回答问题。 做产品的大前提是要喜欢产品,不然将来你痛苦,团队痛苦,用户也痛苦,是不是?网络

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析 随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库? 6、如何设计一个解决抄袭的方案? 7、如何检验一个个人支付账户都多个人使用? 8、点击流数据应该是实时处理?为什么?哪部分应该实时处理? 9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在

所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好? 10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言? 11、你是如何处理缺少数据的?你推荐使用什么样的处理技术? 12、你最喜欢的编程语言是什么?为什么? 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是? 15、什么是大数据的诅咒? 16、你参与过数据库与数据模型的设计吗? 17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法? 18、你喜欢TD数据库的什么特征? 19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗? 20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出? 21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好? 22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少? 23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡? 24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些? 25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价? 26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法? 27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下) 28、什么是星型模型?什么是查询表?

阿里巴巴笔试题答案

第一题选C,不解释吧,按位与就行 第二题选D,不解释,2*3*sizeof(int*)=48(64位机器上是8字节一个指针) 第三题选C,我不确定,不过,应该是的 第四题选D,明显考的是补码 第5题选D,果断访问错误(这是Java的代码) 第6题选B,大家都懂 第7题果断A啊 第8题果断是B,不解释,大家懂 第9题是B,’0’不是’\0’,这个要注意 第10题果断是Fibonacci,显然是C,前几个是0,1,2,3,5,8,13,21 第11题选B,计算量是2^35,现在计算机的主频是2^30,所以差不多是几秒的事 第12题是B,显然有n=4N1+3N3+2N2+N1+1=N4+n3+n2+n1,所以N0=82,不解释 第13题果断是D,这个老题目了,不解释 第14题是C,二分查找嘛,大家都会,不解释 第15题是Fulkerson算法,算出来是46,每一次选一个增广路径即可,直接选不出来为止 第16题选185,显然,它给了120块钱(楼主二了)和一个物品(值65元),所以亏损185 这个题目楼主是这样想的,结果二了 第17题是2,不解释Fermart小定理,2^6 mod 7= 1,所以2^100=2^4=16=2 mod 7 第18题,我觉得是B,不知道对不对,这个不会 第19题,算得不太精细,选了A,不确定。 第20题C,概率与级数运算,不解释 第21题,果断B,D,malloc,new申请到的是Virtual Memory,不过,windows里面还真可以申请到物理内存,用的是VirtualAllocEx API即可

第22题B,C肯定对,D不确定,感觉是对的,不过,没敢选 第23题,其实就是解n^14<10^16,解出n<= 13,所以选14,15(我是推出n<10^(8/7)然后算出n<=13 第24题,D,因为选出第一个是白的,所以位于A的概率是2/3 第25,不可能,需要2.8*10^8 bit,而蓝牙只能传2.4*10^7bit所以一帧需要0.2S 第26题(mnlogn)不解释,归并而已 第27题显然是17分钟 第28,错两个地方1,没考虑只有一个数,2,可能死循环(给你数组0,2,3让查找1)楼主两个都想到了,写的时候忘记了写1,悲剧 第29题,果断SkipList,地球人懂的O(PLogpN)

阿里巴巴品牌数据银行分析师考试题库答案

答案在最后一页 1.人群放大功能的放大倍数最高不超过50倍,放大后的最大值不超过1000万,这种 说法正确吗? 2.如有有授权店铺,品牌可以圈选浏览店铺指定商品大于2天的人群。这种说法正确 吗? 3.品牌希望在数据银行收割预售期高意向人群,应该在哪里操作? 4.数据银行自定义人群创建完成后,当天即可查看分析报告,这种说法正确吗? 5.天猫超市是数据银行现有的数据应用通道,这种说法正确吗 6.支持接通了天猫超市触达通道,可以进行天猫超市的个性化翻牌,试用派发,优惠 券等消费者运营触达,人群包的人数要求大于等于1万,这种说法正确吗 7.365天内购买过品牌商品大于等于2次的消费者是忠诚消费者,这种说法正确吗 8.数据银行中关于会员的定义,如果是会员通品牌商,则会员定义是:“已领卡的消费 者;如果是非会员通品牌商,则会员的定义是:交易笔数或者交易金额已达到品牌商自己设置的门槛的消费者”这种说法正确吗 9.某男装品牌想对不同品类的老客发不同的短信内容,需要的操作是:先在数据银行 圈选出不同品类的老客,然后讲各老客人群同步至CRM,最后在CRM端将不同短信内容和人群进行设定,这种说法正确吗? 10.权限分组之间创建的自定义人群、营销活动人群、上传人群以及数据应用人物相互 隔离,且支持分组之间自定义人群的相互授权,这种说法正确吗? 11.月均消费金额的定义是什么? 12.全部创建的营销活动人群都可以查看报告。这种说法正确吗? 13.新零售版里面,人群应用通道默认包含BrandHub、达摩盘、istoreCRM、地动仪、

支付宝、Unidesk.这种说法正确吗? 14.人群透视中月均消费金额属性,是最近一年内消费者在淘宝天猫上的月均消费金额。 这种说法正确吗? 15.品牌-搜索中,搜索行为是从全网拉取XX关键词的人群,产出搜索改关键词且是该 品牌的人群。这种说法正确吗? 16.某品牌怀疑自己的会员活跃度在下滑,希望从数据银行中得到数据论证,我们可以 直接查看消费者分析模块看板中的会员活跃率这个指标。这种说法正确吗? 17.数据融合中,人群上传后能够匹配到的范围是哪个? 18.新增上传人群中,上传文件的匹配方式是什么? 19.月报中统计的消费者总量是相应时间段内覆盖的消费者总数,因此,某个消费者既 存在于A里面,又存在于P里面,这种说法正确吗? 20.自定义人群设置更新的周期最长不超过多少天? 21.对比同行业TOP5品牌时,品牌能了解到TOP5品牌优哪些。这种说法正确吗? 22.假设某个人群的总数为100万,最近15Ian踩过“阿里妈妈”触点的有30万人, 其中最近15天踩过“钻石展位”触点的有10万人,那么该人群“钻石展位触点” 的占比为多少? 23.FAST包括活跃消费者、关系周加深率、会员数和活跃会员数量。这种说法正确吗? 24.品牌在圈选双11期间品牌购买人群的新增数量时,需要同时差去品牌双11前PL 人群,这种说法正确吗? 25.目前数据银行接通了地动仪线下通道,暂时只开放到零售角色使用。这种说法正确 吗? 26.自定义分析中,全链路状态AIPL一般默认能取到的最长时间限为()

阿里巴巴数据分析

图一:整体变化时间序列数据图 从图中可以看出: 阿里巴巴的总资产、流动资产、非流动资产2012年~2015年呈现出了明显同步增长趋势;股东权益2012年~2013年减少,2013年~2015年开始大幅增长;营业收入、营业成本、毛利润2012年~2015年增长基本保持稳定,稳中有涨。整体分析: 从资产构成来看,流动资产所占总资产的比重在逐年下降,止2015年为55.63%,而构成流动资产的现金部分占总资产比重则在2014年~2015年开始上涨达到49.33%。通过分析说明尽管阿里巴巴的流动资产占总资产比重下降,但仍高于非流动资产所占比重,在合理范围内。总资产及现金较大幅度的增加表明企业占有的经济资源增加,经营规模扩大,资产流动性增强。

从股东权益变化来看2012年~2013年随着资产的增长,股东权益却呈下降趋势,说明资产的增长主要是来源于负债的增加,而2013年~2015年股东权益的大幅增长可以说明阿里巴巴意识到高负债带来了高风险,转而采取了较稳健的财务政策。 图二:偿债能力时间序列数据图 从图中可以看出: 2012年~2013年资产负债率呈现大幅增长,而从2013年~2015年该比率发生扭转开始平稳下降。 偿债能力分析: 从资产负债率变化的角度来看,该比率在2012年-2013年大幅增加,这可能导致债权人的权益无法得到保障,因为资产负债率越高,说明企业的长期偿债能力就越弱,债权人的保证程度就越弱。而该比率从2013年~2015年的平稳下降说明企业也意识到高债务的严重性并及时采取了相应的行动,进行资产结构优化,从而降低负债带来的企业风险,提高了债权人的保证程度。

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、 单选题 分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复;如果小甲上个月总共有100个咨询量,那么他当时的回复率是多少? A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析:"参考章节:店铺客服转化率诊断本题考点:客服回复率答案解析:客服回复率是指客服对于咨询他的客户进行回复的百分占比,如果有100个咨询量,其中12个没有回复,那么回复率就是(10 0-12)/100=88%" 2、 单选题 分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率,于是想要替换这些关键词,她应该替换什么关键词进去? A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词,如果标题里没有的,就可以找出来替换进去。 B: 看看别人标题都用什么词,自己没有的,加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析:参考章节:快速优化标题提升手淘搜索流量本题考点:优质关键词寻找和标题优化答案解析:生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、 单选题 分值: 1 小明是吹风机类目的商家,他想做类目趋势对比表,为此他需要收集近几年的相关数据作为参考? A: 近5年 B: 近4年 C: 近3年 D: 近2年 答案解析:参考章节:品类罗盘—商品年度规划(一)本题考点:市场趋势表格制作试题解析:在大数据的背景下,我们做类目数据对比时,会去抓取近3年子类目数据为参考维度。 4、 单选题 分值: 1 小明店铺的无线首页,模块1跳转店内爆款,每天点击量200,模块2跳转店内新品,每天点击量80;因为新品数据良好,有次爆款潜力,小明决定交换模块1和模块2跳转商品! A: 正确 B: 错误 答案解析:参考章节:页面效果如何提升?本题考点:页面数据分析答案解析:根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、 单选题 分值: 1 为了尽量减少花费,小李想选择免费方法实现新品破0 ;以下那种破0 方法不是免费的?

阿里巴巴校园招聘笔试题及参考答案

阿里巴巴的Oracle DBA笔试题及参考答案- 数据库基本概念类 1:pctused and pctfree 表示什么含义有什么作用 pctused与pctfree控制数据块是否出现在freelist中, pctfree控制数据块中保留用于update的空间,当数据块中的free space小于pctfree设置的空间时, 该数据块从freelist中去掉,当块由于dml操作free space大于pct_used设置的空间时,该数据库块将 被添加在freelist链表中。 2:简单描述table / segment / extent / block之间的关系 table创建时,默认创建了一个data segment, 每个data segment含有min extents指定的extents数, 每个extent据据表空间的存储参数分配一定数量的blocks 3:描述tablespace和datafile之间的关系 一个tablespace可以有一个或多个datafile,每个datafile只能在一个tablespace内, table中的数据,通过hash算法分布在tablespace中的各个datafile中, tablespace是逻辑上的概念,datafile则在物理上储存了数据库的种种对象。 4:本地管理表空间和字典管理表空间的特点,ASSM有什么特点 本地管理表空间(Locally Managed Tablespace简称LMT) 8i以后出现的一种新的表空间的管理模式,通过位图来管理表空间的空间使用。 字典管理表空间(Dictionary-Managed Tablespace简称DMT) 8i以前包括以后都还可以使用的一种表空间管理模式,通过数据字典管理表空间的空间使用。 动段空间管理(ASSM), 它首次出现在Oracle920里有了ASSM,链接列表freelist被位图所取代,它是一个二进制的数组, 能够迅速有效地管理存储扩展和剩余区块(free block),因此能够改善分段存储本质,ASSM表空间上创建的段还有另外一个称呼叫Bitmap Managed Segments(BMB 段)。 5:回滚段的作用是什么 事务回滚:当事务修改表中数据的时候,该数据修改前的值(即前影像)会存放在回滚段中, 当用户回滚事务(ROLLBACK)时,ORACLE将会利用回滚段中的数据前影像来将修改的数据恢复到原来的值。 事务恢复:当事务正在处理的时候,例程失败,回滚段的信息保存在undo表空间中,ORACLE将在下次打开数据库时利用回滚来恢复未提交的数据。 读一致性:当一个会话正在修改数据时,其他的会话将看不到该会话未提交的修改。 当一个语句正在执行时,该语句将看不到从该语句开始执行后的未提交的修改(语句级读一致性) 当ORACLE执行Select语句时,ORACLE依照当前的系统改变号(SYSTEM CHANGE NUMBER-SCN) 来保证任何前于当前SCN的未提交的改变不被该语句处理。可以想象:当一个长时间的查询正在执行时, 若其他会话改变了该查询要查询的某个数据块,ORACLE将利用回滚段的数据前影像来构造一个读一致性视图。 6:日志的作用是什么

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师(北京) 一、10道填空,每题3分 1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT!小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果? A 0 B 10 C 25 D50 答案:应该是25颗吧!(先运50颗50米,吃了25颗,返回去,回去的途中没吃的了,再运50颗到50米的地方,又吃了25颗,再把剩下的运回家,又吃25颗,还剩25颗。)吐槽一下,题目应该说明:小松鼠足够聪明,至少比参加考试的人聪明。。。 2、标号12345的5个球,一次取两个,和为3或者6的概率是多少? 答案:0.3。不解释。 3、考了LOGISTIC回归。 4、聚类分析法,k_means。 5、其他条件相同,置信水平越低,则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定 应该是B吧。 6、precision、ecall、ROC。 剩下的不记得了。 二、三道题,每题10分。 1、已知每10万人中有1人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率? 答案:貌似所有的讲全概率公式的书上都有这道题。 2、SQL 两张表合并,主键是USER_ID,然后把深圳市、广州市,大于16岁的,发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。 3、层次分析法AHP的含义,具体步骤。并举一个适合用层次分析法的案例。 三、两道题,每题20分。 1、淘宝上有一些小众但是品位高的店铺,怎么把他们筛选出来捏? 2、双十一的时候,商家会发优惠券,从商家和平台两个角度设计评价指标,并分析指标不同结果应该对应怎样的措施。 资料:优惠券分两种:满200减50,满300减100. 发放日期:10月15-11月10 使用日期:11月11 希望对大家有所帮助!

2018数据分析师考试大纲

2018CPDA 数据分析师考试大纲 第一部分考试介绍 一、考试目标 数据分析师专业技术考试主要测试考生是否具备数据分析基础知识,是否了解数据分析工作流程及数据分析技术,是否具备利用数据分析知识解决实际业务问题的能力。 侧重考查考生对数据分析知识的掌握和应用,借助数据分析知识解决实际数据分析工作和企业决策工作的能力,根据企业决策的需要,对各种相关数据进行分析和评估能力。 考点涉及数据分析统计基础、数据获取、数据预处理、数据可视化、数据算法模型及客户数据分析、产品数据分析、营销数据分析、采购数据分析、物流数据分析、生产制造数据分析、智能供应链及投资收益风险分析等。 二、考试科目及考试形式 考试分为理论机考和实操笔试,考试时限分别为90 分钟和120 分钟,满分都为100分。 CPDA 数据分析师的认证考核采取全国统一时间,每年四次。 三、教材与资料 《数据分析基础》《营销数据分析》《供应链优化与投资分析》《战略管理》《面授讲义》是数据分析师考生必修必考教材与资料。 四、知识点要求注释 识记:要求掌握概念、熟悉理论、重点考试要求范围; 理解:要求应知应会,非重点考试要求范围; 应用:掌握实际使用方法,运用计算工具或分析软件进行实和分析,考试要求范围; 了解:拓展性知识,非考试要求范围。 第二部分考试内容 根据数据分析师专业技术考试的考试目标、科目和考试形式等要求,数据分析师专业技术考试科目要点包括但不限于以下内容: 一、数据分析理论知识 数据分析理论知识是对考生数据分析基础知识的掌握程度的测试。数据分析基础主要从数据分析的整个流程去考查学生知识,其中涵盖了数据获取、数据预处理、数据可视化、数据分析算

毕业生笔试题:阿里巴巴数据分析笔试题

《毕业生:阿里巴巴数据分析师笔试题》 最近,网上放出了IT大佬们的一些考题出来,让人竞相争看,倒地这些大牛公司的择贤条件是如何的呢?大圣众包(https://www.sodocs.net/doc/0e4896228.html,)威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题,让大家提前试试水。答案在最后,可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 三、根据要求写出SQL 表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致) 四、销售数据分析 根据某一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师, a)从数据中,你看到了什么问题?你觉得背后的原因是什么? b)如果你的老板要求你提出一个运营改进计划,你会怎么做? 五、用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题: a)试验需要为决策提供什么样的信息? b)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

———————————————答案分割线——————————————— 一、 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以FrankE.Grubbs命名的),又叫maximumnormedresidualtest,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 【点评】考察的内容是统计学基础功底。 二、 聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchicalmethod)、划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后

相关主题