50萬(wàn)左右。阿里云算法工程師人才非常緊缺,人工智能領(lǐng)域、IT軟件工程領(lǐng)域和金融系統(tǒng)等部門(mén)都有需求,工資福利待遇都很高,年薪都在50萬(wàn)左右,還有各種福利待遇。
挺好的,阿里巴巴這么大的公司,作為里面的算法工程師,福利待遇肯定會(huì)特別高。
主要是聊基礎(chǔ)算法知識(shí)和代碼題。
1.算法工程師要求很高的數(shù)學(xué)水平和邏輯思維。
其實(shí)語(yǔ)言是次要的,語(yǔ)言只是表達(dá)的方式而已。
2 你想成為算法工程師還需要一定的英文水準(zhǔn),因?yàn)榭粗形臅?shū)你完全體會(huì)不到原滋味。
3 不要太拘泥于教材。
蠻多人都在問(wèn)阿里巴巴常見(jiàn)的面試問(wèn)題,我就整理一些出來(lái),希望能幫到大家一些吧。
面試時(shí)候問(wèn)的比較多的少不了工作規(guī)劃,所以面試前做個(gè)3-5年的工作規(guī)劃,越詳細(xì)約好,讓人覺(jué)得你是真心想要加入公司,還有多多了解一下公司信息,因?yàn)闀?huì)問(wèn)你如何看待企業(yè)文化、發(fā)展前景什么的,還有準(zhǔn)備一下個(gè)人經(jīng)歷,什么最成功的的事,遇到過(guò)的最大的困難之類(lèi)的。
阿里大數(shù)據(jù)算法一直是業(yè)界的熱門(mén)話(huà)題之一。作為全球領(lǐng)先的科技公司之一,阿里巴巴一直致力于在大數(shù)據(jù)和人工智能領(lǐng)域取得突破性進(jìn)展。其強(qiáng)大的數(shù)據(jù)算法在各個(gè)業(yè)務(wù)領(lǐng)域發(fā)揮著重要作用,為用戶(hù)提供個(gè)性化的服務(wù)和優(yōu)質(zhì)的體驗(yàn)。
阿里巴巴的數(shù)據(jù)算法發(fā)展可以追溯到早期的大數(shù)據(jù)技術(shù)研究階段。隨著公司業(yè)務(wù)的不斷擴(kuò)張和用戶(hù)規(guī)模的增長(zhǎng),阿里巴巴不斷加大對(duì)大數(shù)據(jù)算法研究的投入,致力于提升數(shù)據(jù)處理和分析的能力,實(shí)現(xiàn)更高效的數(shù)據(jù)挖掘和應(yīng)用。
隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,阿里巴巴不斷優(yōu)化和改進(jìn)其數(shù)據(jù)算法,推動(dòng)了公司的業(yè)務(wù)創(chuàng)新和發(fā)展。通過(guò)不懈的努力和持續(xù)的創(chuàng)新,阿里大數(shù)據(jù)算法獲得了廣泛的認(rèn)可和應(yīng)用,成為公司發(fā)展的重要支撐。
阿里大數(shù)據(jù)算法在商業(yè)應(yīng)用中發(fā)揮著重要作用,為企業(yè)提供了更準(zhǔn)確、更智能的數(shù)據(jù)分析和決策支持。通過(guò)對(duì)海量數(shù)據(jù)的深度挖掘和分析,阿里大數(shù)據(jù)算法可以幫助企業(yè)發(fā)現(xiàn)潛在的商機(jī),優(yōu)化運(yùn)營(yíng)效率,提升用戶(hù)體驗(yàn)。
在電商領(lǐng)域,阿里大數(shù)據(jù)算法可以通過(guò)智能推薦系統(tǒng)為用戶(hù)提供個(gè)性化的商品推薦,幫助用戶(hù)更快速地找到符合自身需求的產(chǎn)品,提升購(gòu)物體驗(yàn)。同時(shí),阿里大數(shù)據(jù)算法也可以通過(guò)數(shù)據(jù)分析和預(yù)測(cè),幫助企業(yè)做出更明智的營(yíng)銷(xiāo)決策,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)和客戶(hù)維護(hù)。
總的來(lái)說(shuō),阿里大數(shù)據(jù)算法在當(dāng)今數(shù)字化時(shí)代扮演著至關(guān)重要的角色,對(duì)企業(yè)發(fā)展和用戶(hù)體驗(yàn)產(chǎn)生著深遠(yuǎn)的影響。作為全球科技領(lǐng)導(dǎo)者之一,阿里巴巴將繼續(xù)致力于數(shù)據(jù)算法研究和創(chuàng)新,不斷提升數(shù)據(jù)處理和分析能力,為用戶(hù)和合作伙伴創(chuàng)造更大的價(jià)值。
在當(dāng)今數(shù)字化時(shí)代,大數(shù)據(jù)已成為各行各業(yè)不可忽視的重要資產(chǎn)。對(duì)于數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師來(lái)說(shuō),掌握大數(shù)據(jù)算法是至關(guān)重要的技能之一。隨著數(shù)據(jù)量的不斷增長(zhǎng)和復(fù)雜性的提升,大數(shù)據(jù)算法的應(yīng)用范圍也越來(lái)越廣泛。
大數(shù)據(jù)算法是指為處理大規(guī)模數(shù)據(jù)而設(shè)計(jì)的一組算法和技術(shù)。在處理海量數(shù)據(jù)時(shí),傳統(tǒng)的算法可能無(wú)法有效地運(yùn)行,因此需要專(zhuān)門(mén)針對(duì)大數(shù)據(jù)量級(jí)和特點(diǎn)設(shè)計(jì)的算法來(lái)進(jìn)行處理。
大數(shù)據(jù)算法的重要性在于它可以幫助企業(yè)從海量數(shù)據(jù)中提取出有用的信息、模式和見(jiàn)解,為決策提供支持。通過(guò)運(yùn)用大數(shù)據(jù)算法,企業(yè)可以更好地理解客戶(hù)需求、優(yōu)化產(chǎn)品設(shè)計(jì)、改進(jìn)營(yíng)銷(xiāo)策略,從而提升競(jìng)爭(zhēng)力。
下面列舉了一些常見(jiàn)的大數(shù)據(jù)算法面試題,希望能夠幫助準(zhǔn)備面試的同學(xué)更好地理解和掌握相關(guān)知識(shí):
為了更好地準(zhǔn)備大數(shù)據(jù)算法面試,以下是一些建議:
大數(shù)據(jù)算法在當(dāng)今信息爆炸的時(shí)代扮演著至關(guān)重要的角色,對(duì)于從事數(shù)據(jù)分析和數(shù)據(jù)科學(xué)相關(guān)工作的人員來(lái)說(shuō),掌握大數(shù)據(jù)算法是必備的技能之一。通過(guò)不斷學(xué)習(xí)、實(shí)踐和應(yīng)用,相信每個(gè)人都可以在大數(shù)據(jù)算法領(lǐng)域取得優(yōu)異的成績(jī)。
又到安利Python的時(shí)間, 最終代碼不超過(guò)30行(優(yōu)化前),加上優(yōu)化也不過(guò)40行。
第一步. 構(gòu)造Trie(用dict登記結(jié)點(diǎn)信息和維持子結(jié)點(diǎn)集合):
-- 思路:對(duì)詞典中的每個(gè)單詞,逐詞逐字母拓展Trie,單詞完結(jié)處的結(jié)點(diǎn)用None標(biāo)識(shí)。
def make_trie(words):
trie = {}
for word in words:
t = trie
for c in word:
if c not in t: t[c] = {}
t = t[c]
t[None] = None
return trie
第二步. 容錯(cuò)查找(容錯(cuò)數(shù)為tol):
-- 思路:實(shí)質(zhì)上是對(duì)Trie的深度優(yōu)先搜索,每一步加深時(shí)就消耗目標(biāo)詞的一個(gè)字母。當(dāng)搜索到達(dá)某個(gè)結(jié)點(diǎn)時(shí),分為不消耗容錯(cuò)數(shù)和消耗容錯(cuò)數(shù)的情形,繼續(xù)搜索直到目標(biāo)詞為空。搜索過(guò)程中,用path記錄搜索路徑,該路徑即為一個(gè)詞典中存在的詞,作為糾錯(cuò)的參考。
-- 最終結(jié)果即為諸多搜索停止位置的結(jié)點(diǎn)路徑的并集。
def check_fuzzy(trie, word, path='', tol=1):
if word == '':
return {path} if None in trie else set()
else:
p0 = set()
if word[0] in trie:
p0 = check_fuzzy(trie[word[0]], word[1:], path+word[0], tol)
p1 = set()
if tol > 0:
for k in trie:
if k is not None and k != word[0]:
p1.update(check_fuzzy(trie[k], word[1:], path+k, tol-1))
return p0 | p1
簡(jiǎn)單測(cè)試代碼 ------
構(gòu)造Trie:
words = ['hello', 'hela', 'dome']
t = make_trie(words)
In [11]: t
Out[11]:
{'d': {'o': {'m': {'e': {'$': {}}}}},
'h': {'e': {'l': {'a': {'$': {}}, 'l': {'o': {'$': {}}}}}}}
容錯(cuò)查找:
In [50]: check_fuzzy(t, 'hellu', tol=0)
Out[50]: {}
In [51]: check_fuzzy(t, 'hellu', tol=1)
Out[51]: {'hello'}
In [52]: check_fuzzy(t, 'healu', tol=1)
Out[52]: {}
In [53]: check_fuzzy(t, 'healu', tol=2)
Out[53]: {'hello'}
似乎靠譜~
---------------------------分--割--線--------------------------------------
以上是基于Trie的approach,另外的approach可以參看@黃振童鞋推薦Peter Norvig即P神的How to Write a Spelling Corrector
雖然我已有意無(wú)意模仿P神的代碼風(fēng)格,但每次看到P神的源碼還是立馬跪...
話(huà)說(shuō)word[1:]這種表達(dá)方式其實(shí)是有淵源的,相信有的童鞋對(duì)(cdr word)早已爛熟于心...(呵呵
------------------------分-----割-----線-----二--------------------------------------
回歸正題.....有童鞋說(shuō)可不可以增加新的容錯(cuò)條件,比如增刪字母,我大致對(duì)v2方法作了點(diǎn)拓展,得到下面的v3版本。
拓展的關(guān)鍵在于遞歸的終止,即每一次遞歸調(diào)用必須對(duì)參數(shù)進(jìn)行有效縮減,要么是參數(shù)word,要么是參數(shù)tol~
def check_fuzzy(trie, word, path='', tol=1):
if tol < 0:
return set()
elif word == '':
results = set()
if None in trie:
results.add(path)
# 增加詞尾字母
for k in trie:
if k is not None:
results |= check_fuzzy(trie[k], '', path+k, tol-1)
return results
else:
results = set()
# 首字母匹配
if word[0] in trie:
results |= check_fuzzy(trie[word[0]], word[1:], path + word[0], tol)
# 分情形繼續(xù)搜索(相當(dāng)于保留待探索的回溯分支)
for k in trie:
if k is not None and k != word[0]:
# 用可能正確的字母置換首字母
results |= check_fuzzy(trie[k], word[1:], path+k, tol-1)
# 插入可能正確的字母作為首字母
results |= check_fuzzy(trie[k], word, path+k, tol-1)
# 跳過(guò)余詞首字母
results |= check_fuzzy(trie, word[1:], path, tol-1)
# 交換原詞頭兩個(gè)字母
if len(word) > 1:
results |= check_fuzzy(trie, word[1]+word[0]+word[2:], path, tol-1)
return results
好像還是沒(méi)有過(guò)30行……注釋不算(
本答案的算法只在追求極致簡(jiǎn)潔的表達(dá),概括問(wèn)題的大致思路。至于實(shí)際應(yīng)用的話(huà)可能需要很多Adaption和Tuning,包括基于統(tǒng)計(jì)和學(xué)習(xí)得到一些詞語(yǔ)校正的bias。我猜測(cè)這些拓展都可以反映到Trie的結(jié)點(diǎn)構(gòu)造上面,比如在結(jié)點(diǎn)處附加一個(gè)概率值,通過(guò)這個(gè)概率值來(lái)影響搜索傾向;也可能反映到更多的搜索分支的控制參數(shù)上面,比如增加一些更有腦洞的搜索分支。(更細(xì)節(jié)的問(wèn)題這里就不深入了逃
----------------------------------分-割-線-三----------------------------------------
童鞋們可能會(huì)關(guān)心時(shí)間和空間復(fù)雜度的問(wèn)題,因?yàn)樯鲜鲞@種優(yōu)(cu)雅(bao)的寫(xiě)法會(huì)導(dǎo)致產(chǎn)生的集合對(duì)象呈指數(shù)級(jí)增加,集合的合并操作時(shí)間也指數(shù)級(jí)增加,還使得gc不堪重負(fù)。而且,我們并不希望搜索算法一下就把所有結(jié)果枚舉出來(lái)(消耗的時(shí)間亦太昂貴),有可能我們只需要搜索結(jié)果的集合中前三個(gè)結(jié)果,如果不滿(mǎn)意再搜索三個(gè),諸如此類(lèi)...
那腫么辦呢?................是時(shí)候祭出yield小魔杖了? ??)ノ
下述版本姑且稱(chēng)之為lazy,看上去和v3很像(其實(shí)它倆在語(yǔ)義上是幾乎等同的
def check_lazy(trie, word, path='', tol=1):
if tol < 0:
pass
elif word == '':
if None in trie:
yield path
# 增加詞尾字母
for k in trie:
if k is not None:
yield from check_lazy(trie[k], '', path + k, tol - 1)
else:
if word[0] in trie:
# 首字母匹配成功
yield from check_lazy(trie[word[0]], word[1:], path+word[0], tol)
# 分情形繼續(xù)搜索(相當(dāng)于保留待探索的回溯分支)
for k in trie:
if k is not None and k != word[0]:
# 用可能正確的字母置換首字母
yield from check_lazy(trie[k], word[1:], path+k, tol-1)
# 插入可能正確的字母作為首字母
yield from check_lazy(trie[k], word, path+k, tol-1)
# 跳過(guò)余詞首字母
yield from check_lazy(trie, word[1:], path, tol-1)
# 交換原詞頭兩個(gè)字母
if len(word) > 1:
yield from check_lazy(trie, word[1]+word[0]+word[2:], path, tol-1)
不借助任何容器對(duì)象,我們近乎聲明式地使用遞歸子序列拼接成了一個(gè)序列。
[新手注釋] yield是什么意思呢?就是程序暫停在這里了,返回給你一個(gè)結(jié)果,然后當(dāng)你調(diào)用next的時(shí)候,它從暫停的位置繼續(xù)走,直到有下個(gè)結(jié)果然后再暫停。要理解yield,你得先理解yield... Nonono,你得先理解iter函數(shù)和next函數(shù),然后再深入理解for循環(huán),具體內(nèi)容童鞋們可以看官方文檔。而yield from x即相當(dāng)于for y in x: yield y。
給剛認(rèn)識(shí)yield的童鞋一個(gè)小科普,順便回憶一下組合數(shù)C(n,m)的定義即
C(n, m) = C(n-1, m-1) + C(n-1, m)
如果我們把C視為根據(jù)n和m確定的集合,加號(hào)視為并集,利用下面這個(gè)generator我們可以懶惰地逐步獲取所有組合元素:
def combinations(seq, m):
if m > len(seq):
raise ValueError('Cannot choose more than sequence has.')
elif m == 0:
yield ()
elif m == len(seq):
yield tuple(seq)
else:
for p in combinations(seq[1:], m-1):
yield (seq[0],) + p
yield from combinations(seq[1:], m)
for combi in combinations('abcde', 2):
print(combi)
可以看到,generator結(jié)構(gòu)精準(zhǔn)地反映了集合運(yùn)算的特征,而且蘊(yùn)含了對(duì)元素進(jìn)行映射的邏輯,可讀性非常強(qiáng)。
OK,代碼到此為止。利用next函數(shù),我們可以懶惰地獲取查找結(jié)果。
In [54]: words = ['hell', 'hello', 'hela', 'helmut', 'dome']
In [55]: t = make_trie(words)
In [57]: c = check_lazy(t, 'hell')
In [58]: next(c)
Out[58]: 'hell'
In [59]: next(c)
Out[59]: 'hello'
In [60]: next(c)
Out[60]: 'hela'
話(huà)說(shuō)回來(lái),lazy的一個(gè)問(wèn)題在于我們不能提前預(yù)測(cè)并剔除重復(fù)的元素。你可以采用一個(gè)小利器decorator,修飾一個(gè)generator,保證結(jié)果不重復(fù)。
from functools import wraps
def uniq(func):
@wraps(func)
def _func(*a, **kw):
seen = set()
it = func(*a, **kw)
while 1:
x = next(it)
if x not in seen:
yield x
seen.add(x)
return _func
這個(gè)url打開(kāi)的文件包含常用英語(yǔ)詞匯,可以用來(lái)測(cè)試代碼:
In [10]: import urllib
In [11]: f = urllib.request.urlopen("https://raw.githubusercontent.com/eneko/data-repository/master/data/words.txt")
# 去除換行符
In [12]: t = make_trie(line.decode().strip() for line in f.readlines())
In [13]: f.close()
----------------------分-割-線-四-----------------------------
最后的最后,Python中遞歸是很昂貴的,但是遞歸的優(yōu)勢(shì)在于描述問(wèn)題。為了追求極致性能,我們可以把遞歸轉(zhuǎn)成迭代,把去除重復(fù)的邏輯直接代入進(jìn)來(lái),于是有了這個(gè)v4版本:
from collections import deque
def check_iter(trie, word, tol=1):
seen = set()
q = deque([(trie, word, '', tol)])
while q:
trie, word, path, tol = q.popleft()
if word == '':
if None in trie:
if path not in seen:
seen.add(path)
yield path
if tol > 0:
for k in trie:
if k is not None:
q.appendleft((trie[k], '', path+k, tol-1))
else:
if word[0] in trie:
q.appendleft((trie[word[0]], word[1:], path+word[0], tol))
if tol > 0:
for k in trie.keys():
if k is not None and k != word[0]:
q.append((trie[k], word[1:], path+k, tol-1))
q.append((trie[k], word, path+k, tol-1))
q.append((trie, word[1:], path, tol-1))
if len(word) > 1:
q.append((trie, word[1]+word[0]+word[2:], path, tol-1))
可以看到,轉(zhuǎn)為迭代方式后我們?nèi)匀豢梢宰畲蟪潭缺A暨f歸風(fēng)格的程序形狀,但也提供了更強(qiáng)的靈活性(對(duì)于遞歸,相當(dāng)于我們只能用棧來(lái)實(shí)現(xiàn)這個(gè)q)。基于這種迭代程序的結(jié)構(gòu),如果你有詞頻數(shù)據(jù),可以用該數(shù)據(jù)維持一個(gè)最優(yōu)堆q,甚至可以是根據(jù)上下文自動(dòng)調(diào)整詞頻的動(dòng)態(tài)堆,維持高頻詞匯在堆頂,為詞語(yǔ)修正節(jié)省不少性能。這里就不深入了。
【可選的一步】我們?cè)趯?duì)單詞進(jìn)行糾正的時(shí)候往往傾向于認(rèn)為首字母是無(wú)誤的,利用這個(gè)現(xiàn)象可以減輕不少搜索壓力,花費(fèi)的時(shí)間可以少數(shù)倍。
def check_head_fixed(trie, word, tol=1):
for p in check_lazy(trie[word[0]], word[1:], tol=tol):
yield word[0] + p
最終我們簡(jiǎn)單地benchmark一下:
In [18]: list(check_head_fixed(trie, 'misella', tol=2))
Out[18]:
['micellar',
'malella',
'mesilla',
'morella',
'mysell',
'micelle',
'milla',
'misally',
'mistell',
'miserly']
In [19]: %timeit list(check_head_fixed(trie, 'misella', tol=2))
1.52 ms ± 2.84 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
在Win10的i7上可以在兩毫秒左右返回所有結(jié)果,可以說(shuō)令人滿(mǎn)意。
面試題各公司不盡相同。一般而言,都會(huì)考一些最基礎(chǔ)的東西,來(lái)看你學(xué)的扎不扎實(shí)。
比如,我經(jīng)歷過(guò)的面試題里,最經(jīng)常遇到的就是畫(huà)出星三角接線圖。相信專(zhuān)業(yè)人員都會(huì)知道,但真的讓你在紙上畫(huà)出來(lái),你真的能完全無(wú)誤的畫(huà)好嗎?
再就是最基礎(chǔ)的PLC小功能程序編寫(xiě),很常見(jiàn)的小程序,如果,寫(xiě)不出來(lái),那么被錄用的機(jī)會(huì)很小。
算法工程師各種待遇按工作時(shí)間,資歷,等不同,差異很大,基本從4500元到15000元不等。