王小川現(xiàn)場演講,搜狗語音同步神翻譯
王小川認為搜索公司本身就在做人工智能,對于搜索公司而言,人工智能技術(shù)的引入不是顛覆新的市場,而是在原有的用戶需求里面進行一個漸進性的改進。下面我們看看他在演講中說了什么呢?
談人工智能的時候,我會談一些反思。因為今天大家可能過多的高估了人工智能的未來,在今年上半年,我是鼓吹A(chǔ)lphaGo這樣一場跨世紀的比賽。
語音識別仍有很多限制
在全球范圍內(nèi)的投資異;钴S,在中國也一樣。在這個時候,我想談到“我們得小心,什么地方是陷阱,什么地方是真的人工智能的未來”。在前一個月我去谷歌跟AlphaGo的工程師做了深度溝通。有什么樣的算法能夠改進贏得第四局的比賽?谷歌的工程師跟我苦笑。說:你講的方法我們都試過了。回到我們對于深度學習,今天大家知道它有巨大的危險。因為傳統(tǒng)做人工智能的一些專家就在語言深度學習本身有它的缺點,穩(wěn)定性不夠。在一些需要完全可靠的場景里面,它沒有完整的數(shù)學的計算和證明。所以這種情況里面,即便它是99%的正確性,也可能會帶來不確定。比如:在無人駕駛。這1%都不確定性,就可能帶來汽車的失速,而且我們還不知道怎么修改。深度學習能夠做很多事情,但是到現(xiàn)在我們?nèi)祟惖募夹g(shù)掌握還是夠淺的。
我也談到在“語音識別”這樣的一個話題,今天語音識別已經(jīng)到了比較高的準確度,已經(jīng)接近實用。但是還有很多的限制。比如:我們需要安靜的環(huán)境。當有噪音的時候,如果同時有兩個人在說話,機器就搞不定了。我沒有辦法去去除噪音,比如:在汽車的環(huán)境里面。我們會預先錄制有發(fā)動機引擎的聲音,或者是車窗玻璃的噪音把它加到我們的識別系統(tǒng)里去。就把沒有見過的這樣一個環(huán)境,變成機器能夠見過的環(huán)境就能夠做識別。但是我就跟工程師在聊,如果有兩個人說話怎么辦呢?總有一個人的聲音是聽不見的。我們的解決方案是用麥克風矩陣,當有一種麥克風的時候能夠定向的做識別,如果兩個人不同的位置不同的聲音音源,就可以分離開。
今天的計算機離人還有巨大的距離
人是靠兩只耳朵定聲音嗎?如果只有一只耳朵,或者兩個人在同一個方向說話,會怎么樣?人是能識別的。機器就做不到了。我也問了搞神經(jīng)科學的人。他們會說,如果當有兩個人說話的時候,位置不一樣,人就能分離開。如果位置一樣,一個人聲音大,一個人聲音小,也能分開如果兩個人聲音一樣大,一個是男聲、一個是女聲,也能分開。如果都是男聲,但一個人說中文,一個人說英文,也能分開。所以人是在一個環(huán)境當中,只要能夠找到一線機會去把兩個聲音的不同能夠找到這樣一個特征,就能動態(tài)的去分離。但是對不起,今天在全球范圍內(nèi),我們號稱在語音識別有重大的各種各樣的突破,還是解決不了這樣的問題。所以我們知道,今天的計算機離人還有巨大的距離。
除了一個技術(shù)本身的瓶頸以外,我們在創(chuàng)業(yè)當中,有很多領(lǐng)先的技術(shù)公司還會面臨什么樣的瓶頸?很危險的,一種可能性就是有技術(shù)。帶著這種技術(shù)去找市場,比如:我們做了人臉識別,就開始想像人臉識別怎么去使用,就去找市場的方向。但是很有可能在這個過程當中沒有找到,我們公司就死掉了。也有一種可能性是在找市場的過程當中,我們花了很多力氣去組建我們的銷售團隊。我們?nèi)L試跟各個領(lǐng)域去結(jié)合,但是這個時候,忘了技術(shù)的源頭。因為技術(shù)是不斷在迭代更新的,如果我們不能夠跟高效、跟前沿的技術(shù)保持同步,可能我們偶爾找到了一點市場,但是我們的技術(shù)一定變落后。
今天在中國的人工智能領(lǐng)域里面,做語音識別、圖象處理的公司有很多已經(jīng)掉了這樣的一個陷井里面去了。所以創(chuàng)業(yè)的道路里面我跟投資人也在講,非常不容易,技術(shù)本身就沒有這么靠譜。即便技術(shù)靠譜,可能沒有市場,即便有了市場,可能我的技術(shù)已經(jīng)丟掉。像我們的做法,就是已經(jīng)有廣大的市場,搜狗的輸入法、搜狗的搜索已經(jīng)有千萬的用戶在使用。
人工智能跟高校、學術(shù)界的聯(lián)動是比較多的,要不斷的跟技術(shù)的前沿保持同步。比如:李志飛一定會由他的.工程師團隊讀論文甚至寫自己的論文,把這個前沿給跟上。人工智能創(chuàng)業(yè)不像以前的互聯(lián)網(wǎng)創(chuàng)業(yè)一樣有一個模式就夠了,而是要不斷的把技術(shù)積攢起來。
搜索本身就是一種人工智能
在這里面也提到一個命題作文:我們怎么討論“技術(shù)”跟“幸福”之間的關(guān)系?我做了一張簡圖,左邊是提的一些技術(shù)。包括:語音識別、人臉識別、人機交互、服務(wù)機器人等等,大家覺得這個詞跟幸福有關(guān)系嗎?在座大多數(shù)的人本身不是搞技術(shù)的,因為大家敬仰技術(shù)、崇拜技術(shù),所以我們會過度的在技術(shù)里面自己想像出它無限的光環(huán)。其實跟幸福沒關(guān)系,是因為我們的不理解、恐懼和向往帶來了一種誤解。
看右面。右面這些聽起來我就覺得比較酷了,自動駕駛、能聽懂我說話、診斷疾病、一鍵送咖啡。聽了怎么樣?是不是有一些幸福感?左下角這個詞大家看到了嗎?活捉皮卡丘。這幾天有一個非常火的虛擬現(xiàn)實游戲。不是再跟左邊一樣講虛擬現(xiàn)實,而是講給我們帶來了一個把活生生的卡通形象放到我們面前,這是我們看到的幸福。所以對比左右兩個圖,不論是創(chuàng)業(yè)者還是一個媒體人,還是一個投資人。
給大家看一個蠻幸福的科幻。在此之前給我們講一講我們搜狗對于技術(shù)和幸福之間的聯(lián)系和理解。其實有朋友跟我談搜索的時候說,王小川,你們要轉(zhuǎn)型做人工智能了嗎?我說:不是,搜索本身就是一種人工智能,而且是有幸福感的人工智能。因為它能讓每個人變的更加強大,有時候我跟一個90后走在一塊。我發(fā)現(xiàn)它很厲害,它無所畏懼。因為它知道擁有了搜索之后,能夠解決它所有的問題。上面一搜索,有有答案。所以今天的這些年輕人,利用技術(shù)、利用搜索,變得更加的強大,擁有了更大的幸福感。
為什么說搜索就是一種AI呢?
搜索第一部分是讓用戶先要去做一個關(guān)鍵詞的搜索,然后給它提供10條鏈接。這是搜索今天產(chǎn)品運行的基本方式,但是我們知道這個關(guān)鍵詞是我們最好的輸入模式嗎?
今天大家已經(jīng)很習慣了,我回顧在1999年-2000年搜索剛剛出現(xiàn)的時候。我觀察過,那個時候大家更愿意敲一個整句。發(fā)現(xiàn):對不起,機器不能識別。所以大家訓練去使用了這樣一個關(guān)鍵詞。這個事情就像我們計算機使用鼠標一樣,大家都會很習慣用鼠標。但是今天我們發(fā)現(xiàn),喬布斯告訴我們,更好的方式是用手指直接在屏幕上戳。所以關(guān)鍵詞的輸入,相對于人的自然輸入,就像用鼠標和用手指自然表達一樣,是需要繼續(xù)去提升的。因此搜索引擎往下的進展方向,就是把一個關(guān)鍵詞讓人去想一個關(guān)鍵詞,變成人去表達一個完整的句子,機器找出中間的含義。
同樣的,10條鏈接,也不是我們最想用的方式,而是應(yīng)該通過用戶的問句直接給出答案或者給出你的一個命令,機器去做執(zhí)行。因此從今天搜索,當我們往下的進化,對搜索引擎的公司是一個漸進的過程,就像谷歌已經(jīng)提到:“自己從一個移動互聯(lián)網(wǎng)公司變成一個人工智能公司。”為什么他沒有做到這個東西呢?聽了很好聽。對吧?是因為今天全人類的技術(shù),能做到讓機器去理解人,能變成一個句子,能夠給出一個答案還是蠻有距離的。只是我們在這條道路往前走,所以對于搜索公司而言,人工智能技術(shù)的引入不是顛覆新的市場,而是在原有的用戶需求里面進行一個漸進性的改進。
搜索公司本身就在做人工智能。如果大家看搜狗覺得不過癮,可以看谷歌,它已經(jīng)代表了人工智能在今天應(yīng)用的最高峰。因此在未來的方式里面,類似于像Siri或者其它的人工智能的交互引擎是我們共同的夢想。我個人的判斷,這樣的一個未來更多是屬于搜索公司的。
【王小川現(xiàn)場演講,搜狗語音同步神翻譯】相關(guān)文章:
《遇見王瀝川》經(jīng)典臺詞05-28
2015搜狗校園招聘信息09-25
2017搜狗招聘筆試題05-28
小語種翻譯就業(yè)前景02-17
小蘿莉的猴神大叔觀后感05-05
搜狗2017C++筆試題05-29
搜狗2017 C++筆試題05-20
《神話》中易小川經(jīng)典臺詞04-21
考研英語翻譯小技巧03-30
元旦小長假四川有什么旅游景點04-04