“說!下一個人機交互的大風口?”“你都‘說’了呀”創(chuàng)投

砍柴網(wǎng) / 張俊 / 2016-07-06 10:45
眼下,怕是互聯(lián)網(wǎng)最糾結的時刻:智能手機帶來的人口紅利將盡,仿佛所有人們?nèi)粘I钪性撚械膽枚家呀?jīng)被開發(fā)出來、用戶們也同時失去了嘗試新鮮產(chǎn)品的動力;與此同時,向線...

“說!下一個人機交互的大風口?”“你都‘說’了呀”

眼下,怕是互聯(lián)網(wǎng)最糾結的時刻:智能手機帶來的人口紅利將盡,仿佛所有人們?nèi)粘I钪性撚械膽枚家呀?jīng)被開發(fā)出來、用戶們也同時失去了嘗試新鮮產(chǎn)品的動力;與此同時,向線下的突進因為過重燒錢、沒有護城河的模式和諱莫如深看不懂的體制深水紛紛受阻,互聯(lián)網(wǎng)+了半天還是湊不上去;本來年初VR給諸位打了不少雞血、仿佛商用指日可待,但現(xiàn)在看來目前的終端too young、恐怕至多也才剛剛達到“塞班的階段”;而最近一直在提的內(nèi)容、直播、網(wǎng)紅等伴隨著政策的收緊、大平臺制霸和數(shù)據(jù)造假的曝光,看起來越來越不像是真正的風口……除去以上的種種,一場資本寒冬讓投資機構們徹底懵逼了,失去了往日的格局和耐心,歸根結底:快沒錢了。

那么問題來了,下一個機會在哪里呢?

恰在此時,互聯(lián)網(wǎng)女皇來了,最新的年度趨勢報告十分之一的篇幅給了“語音”。女皇陛下是這么說的:語音正在被重塑,成為人機交互的新范式,在過去75年里,每10年就有一次人機交互的重大革新,人類對機器的操作,從物理手柄按鍵,到物理鍵盤鼠標,再到觸摸屏,而現(xiàn)在語音成為了重要的交互方式。她的案例是Amazon的硬件:Echo。其內(nèi)置了Amazon Alexa語音助手,目標是占領家居、汽車、手機的麥克風,還能智能購物。這款產(chǎn)品銷量已突破400萬臺。女皇更是大膽指出:語音拐點已經(jīng)到來,在2015年智能手機銷量下滑之后,Echo銷量或?qū)Ⅱv飛。(以上引自《超過十分之一的篇幅給語音,互聯(lián)網(wǎng)女皇為何看好麥克風?》)

遙相呼應,最新一屆蘋果全球開發(fā)者大會WWDC上,庫克也放言將逐步向第三方開發(fā)者開放Siri,如果這一切不是“講故事”的話,不出意料我們將看到iPhone上出現(xiàn)更多的聲控APP。與此同時,谷歌公司也提出了雄心勃勃的Google Home計劃,利用語音和自然語言查詢技術的結合侵入用戶的客廳。

那么問題又來了,對于中國市場而言,語音會是新的機會嗎?聲控交互會成為VR到來前大熱的交互模式嗎?中國的訊飛和喜馬拉雅們會一路插上翅膀開始騰飛嗎?

在此,菜狗必須先潑一潑冷水,我最痛恨的莫過于照搬西方、哄抬賽道的路數(shù)打法,就像過去在文章中寫過的那樣,中國版的instagram、中國版的Snapchat、中國版的……這些故事后來呢?所以如果今天是在這里放言要有一個中國版的Echo,那就是我自抽耳光、忽悠大家。但是,盡管我們不能照搬照抄西方流行的產(chǎn)品模式,卻完全可以分析他背后的東西——需求、心理和社會趨勢:Snapchat的崛起印證了IM的高頻(臉書你反應慢了給了機會,但騰訊不會)、社交壓力帶來的發(fā)布反悔(騰訊有微信消息可撤回)、年輕人尋求沒有父母的個性空間(騰訊有QQ空間)。

所以,不論有沒有人會去copy to china,這背后有一個話題非常值得探討:聲控交互的商業(yè)價值有多大?以語音信息和交互為主打的平臺,將有怎樣的市場潛力?

一、當下的語音行業(yè)怎么了?

有人要說,這回你外行了,語音的故事早就被我們玩爛了,結果也就那樣。確實,印象中從許朝軍做啪啪的那一天開始,移動互聯(lián)網(wǎng)似乎就已經(jīng)進入了“語音時代”,然并卵。

1、工具領域,科大訊飛強大的語音喚醒、識別、輸入和交互技術從實驗室走上前臺,領先是領先,但似乎并沒有得到太多的應用,讓人印象最深刻的恐怕就是訊飛輸入法和最近非常文藝好用的語記平臺,問題不在于訊飛有沒有成為中國的Siri(漢語領域肯定強于Siri),問題在于即便Siri也遠遠沒有達到預期的效果、成為人們主流的交互方式,只是一個可有可無的玩具。

2、社交領域,涌現(xiàn)出唱吧、啪啪、抬杠、陪我、比鄰、偶爾、派派等一批語音社交平臺,然而幾年下來誰也沒有真正達到“社交平臺”的標準和要求。啪啪們的圖片加語音成了一種錦上添花的存在,遠遠沒有達到高頻剛需的狀態(tài),更何況其閱讀成本奇高,遠遠不能和立刻一目了然的圖片視頻相比;更多的平臺成了當年的168聲訊臺、色情熱線,或者當年的碧海銀沙聊天室;即便在主流的微信平臺上,動不動發(fā)語音的人、一發(fā)發(fā)一串的人也常常變成不受人們待見的存在。唯一做得好的可能就是唱吧,因為唱K這樣一種生活中常見的社交模式真的只能靠語音。

3、內(nèi)容領域,這可能是目前唯一可圈可點的區(qū)域,喜馬拉雅、echo、聽書、得到們從不同的角度切入,通過基于語音的媒體內(nèi)容吸引了一票擁孬:比如根據(jù)易觀智庫的《中國移動電臺市場年度綜合報告2016》,作為行業(yè)領跑的喜馬拉雅,其日活用戶滲透率已經(jīng)高達74.3%,這么好的DAU數(shù)據(jù)即便放在整個移動互聯(lián)網(wǎng)領域也是不多見的,而最近這家平臺剛剛通過售賣奇葩說老僵尸們的《好好說話》語音節(jié)目賺得盆滿缽滿。

那么這里就有一個問題,為什么唯一做起來的是語音內(nèi)容呢?同時,在內(nèi)容生態(tài)領域最強的莫過于“兩微一端”(微信、微博、新聞客戶端),主打語音的內(nèi)容平臺能做成那樣的體量嗎?以后有一天人們會說“兩微一端一電臺”嗎?

二、當前語音的癥結在哪里?

有人又要說,語音的內(nèi)容還不錯啊。但遠遠沒有到離不開的地步吧?而且語音這東西,太麻煩!是的,就是這個“太麻煩”嚴重制約了語音的發(fā)展。

(一)語音識別交互領域,聲音一直沒有多少存在感

1、相關的技術要求太高。中國人說話遠不像老外那樣一個單詞一個意思,而且各地的口音又完全不同,所以語音的識別、喚醒、輸入、交互都是問題,當然強如科大訊飛已經(jīng)可以破譯粵語、上海話、四川話了,但是還會有后面的問題。    

2、使用場景有限。視覺和觸覺的交互隨時隨地都可進行,只要你低頭悄悄打開手機就行了,但是語音呢,嘈雜的地方不行,人多的地方也不行,甚至晚上一個人了、對著冷冰冰的機器說話,也會有太裝太怪的感覺。

3、交互模式不自然。不論是Siri的長按喚醒,還是傻乎乎地“嘿Siri”,感覺都比較違和,當你看著屏幕上Siri正處于“傾聽錄音”狀態(tài),心一下子就緊繃了,生怕說錯或者說得不及時,說完以后機器開始識別了,你看著進度條又莫名其妙地焦慮不安起來、它能不能聽懂呢,會不會聽錯呢?結果識別出來,果然是錯的,日了狗了……

4、應用生態(tài)遠未形成。盡管訊飛們已經(jīng)開始開放語音功能和接口,但市面上并沒有出現(xiàn)很多的聲控交互應用,特別是——沒有出現(xiàn)有影響力的第三方應用。

(二)語音終端遠未成型

能夠大規(guī)模商用的中國版Echo還沒有出現(xiàn),即便非常厲害的可能也市場影響有限,養(yǎng)在深閨人不識吧。

(三)語音內(nèi)容成本過高

1、信息獲取成本過高??次淖挚梢砸荒渴校磮D片可以盡收眼底,看視頻基本3秒內(nèi)就可以判斷值不值得看下去。但是語音完全不是這樣,你聽一段語音(如果不是歌聲),往往得聽三分之一以上才能判斷是否值得聽,而這個過程是漫長的、聽的時候還動不動走神、左耳朵進右耳朵出,如果再加上漫長的前奏簡直令人抓狂。這還只是一段語音,如果我又在很多語音中來回播放暫停選擇想聽的內(nèi)容呢?這個過程簡直繁瑣得崩潰了!

2、使用場景有限。一樣的道理,文字圖片可以在任何地方看吧,但是語音呢?

3、差異化價值“貌似”不高。既然都能看文字解決,為何要用語音呢,難道就是為了主播磁性的嗓音?如果是為了這些感性的體驗,視頻是不是更好一些呢?

這樣看起來,好像語音一無是處,可真的是這樣嗎?解決幾個癥結就好了。

三、語音的核心價值和競爭力

回到開頭,我們來看Echo這個產(chǎn)品。它和Siri最大的不同在于:這是一個純粹通過語音、完全不需要屏幕的產(chǎn)品,看起來就像一臺音響,用起來就像和人對話一樣。進一步說,它解放了人們的眼睛和雙手,你可以一邊做別的事情,一邊用語音和它交互。

這樣一說就清楚了,歸根結底,Siri和訊飛們并不是純粹的聲控交互產(chǎn)品,他們頂多只能算半聲控交互產(chǎn)品,因為從喚醒他們到判斷語音輸入準確與否到最終的結果顯現(xiàn),你幾乎都要用到眼睛和手,聲控交互的核心價值“解放眼和手、不再低頭族”完全得不到顯現(xiàn)。換句話說,他們都是視觸覺交互的補充而已,所以本身就錦上添花、可有可無。

你用Siri打開微信,比自己親手打開能方便多少呢?你用語音輸入法輸入一段話,錯了還得回刪,這真的比打字輸入更方便嗎?

但是Echo展現(xiàn)出的是純粹聲控交互完全不同的價值,并且這幾乎是一個“高頻剛需”。

1、抓住了不適宜使用手和眼睛的人群。比如中老年人、殘疾人、不擅長打字輸入的人群,除非有一天人類技術發(fā)達到腦波交互,否則語音都是最適合他們的交互模式。

2、抓住了不方便使用手和眼睛的場景。這就是我們常說的“低頭族場景”,走在路上、正在開車、晚上睡前、保護視力。由于以往的聲控交互產(chǎn)品做得太差,中國人以強大的適應能力,練就了在這些場景“眼疾手快、目不離機”的超能力,哪怕視力下降、頭昏眼花、低頭撞人也在所不惜。但是試想一下,如果聲控交互真的做上去了,語音真的成了喬布斯口中的“自然延伸”,他們還會這樣嗎?

3、創(chuàng)造了全新的伴隨式場景。小的時候,我們?yōu)楹卧缟掀饋頃犑找魴C,因為可以邊聽邊做其他事情,一心兩用。對,就是這個一心兩用!今天我們?yōu)楹螘贿吪懿揭贿呴_車一邊聽喜馬拉雅——像筆者年初一邊在虹橋火車站辦手續(xù)一邊在喜馬拉雅聽羅胖的跨年演說、一邊熱淚盈眶……這都是一心兩用呀!簡言之,聲控交互解放了人的手和眼,不僅在不適宜使用眼手的“低頭族場景”,更在其他豐富的時刻。通過聲控交互,你可以邊聽邊說,一邊干其他事情,這種一心多用的方便效率是不可抵御的。本來這些事,你要不停切換APP來完成,或者放下手機、把視線移到別的地方,但是現(xiàn)在完全可以并行不悖、同步推進了。

4、語音有其獨有的魅力。Echo首先是音響,可以播放音樂。而在人與人的溝通中,影響最大的是身體語言帶來的氣場(可惜隔了手機屏幕就完全體現(xiàn)不出來了),其次就是聲音(音調(diào)音色節(jié)奏),最后才是內(nèi)容。從這個角度說,語音的成本確實比文字高,卻遠比文字“有溫度”,黃執(zhí)中的辯詞如果打成文字你未必讀得下去,但只要他魔鬼般的嗓音響起,你立刻覺得他什么都是對的了;語音確實沒有視頻一目了然,但成本卻遠比視頻要低,你不需要打瘦臉針玻尿酸弄出一張網(wǎng)紅臉,因為當你的聲音響起,沒有人在意發(fā)聲的人有沒有羅胖帥。這也是為什么最近大火的分答會用語音,一來“盜版”成本高一點,二來聽到名人真實的聲音、這滿足感是不同的。

四、全新的機會,聲控領域的BAT

BAT?有人要說了,你這不是在拉大旗做虎皮嗎,說到底還是忽悠我們開發(fā)中國版的Echo呀。

恰恰相反,我并不認為Echo是創(chuàng)業(yè)者們最好的選擇,但是“基于純聲控交互”的APP卻可以成為一個機會,關鍵在于訊飛和喜馬拉雅們能不能迅速“醒轉(zhuǎn)”,構建出一個對第三方更加友好的生態(tài)。

什么是基于“純聲控交互”的APP,說白了就是整個APP的使用過程都完全不需要通過屏幕觸摸、不需要動用眼睛和雙手,最好連喚醒他們都可以用語音。這樣的APP一旦出現(xiàn),我們就根本不需要購買Echo,因為手機就是個簡易版的Echo了,我把手機放在一邊,一邊做別的事情,一邊就可以使用聲控交互了。如果你使用與聲控系統(tǒng)匹配的專用耳麥,如果這個耳麥可以隨時響應、識別你微小的聲音(在人群中大聲很傻比),那么耳麥就是Echo,就是手機之后真正的可穿戴智能硬件,比手表之類強多了。

基于目前已經(jīng)研發(fā)出的漢語語音識別喚醒技術,訊飛完全具備這樣的能力,但是成果多半在實驗室里睡大覺。如果能早一步開放出來,如果能搞好與蘋果安卓廠商們的合作不被“雪藏”,那么接下來的勢能是非??膳碌摹?/p>

在筆者看來,一旦聲控交互成熟了,接下來在這五個區(qū)域有明顯的機會:

1、新一代的語音助理,各個語音應用的統(tǒng)一調(diào)用入口

這是訊飛和Siri們的機會,喜馬拉雅這樣的高活躍產(chǎn)品也可以向此進擊。簡言之就是聲控版的appstore、應用寶。只要這個入口處于開啟狀態(tài),就可以隨時通過語音對話的方式調(diào)用各個聲控應用,而不需要打開屏幕用眼睛找到那個應用再點開——這就是軟件版的Echo。他的喚起和使用都應該是毫不費力、自然而然的,不要像Siri那樣喊起來用力、用起來發(fā)急??梢韵胂螅@個平臺會是未來聲控交互的入口,是整個聲控應用生態(tài)的命脈。

2、語音控制類的工具

在子不語的《下一代交互革命是語音:Voice In Voice Out》一文中,描述了這樣的場景:你可以和她交談,她可以幫你控制關于房子的一切,燈光、溫度、微波爐、冰箱……Echo 已經(jīng)能做到什么了呢?播放音樂、創(chuàng)建提醒、播報新聞自然不在話下,Echo 還能根據(jù)你在亞馬遜上的購物記錄,智能地幫你下單。甚至,借助于前面提到的 Skills,已經(jīng)有人用 Echo 控制了家中的幾乎所有電器:燈光、溫控、電視機、Apple TV、安保監(jiān)控、熱水壺、車庫……當然,這里就涉及到智能家居組網(wǎng)、車聯(lián)網(wǎng)等問題,后面會提到。

3、語音控制類的社交

a、熟人通訊方面,我們應該都見過這樣的場景,出租車上司機們通過對講平臺互相勾兌、插科打諢。路上匆忙的低頭族,很多都在回微信,而如果通過聲控交互構建一個對講平臺,這個體驗就完全不一樣了,你不需要用眼和手也可以隨時給某某捎去一段話,別人給你發(fā)來語音、聲控交互會提示你是否接聽,而如果這個交互可以通過耳麥自動識別微小的語音(并根據(jù)接聽者情況適度放大),那么以后走在路上就可以輕松而不違和地與人通話了,這個事情的意義在于將從另一個角度接管用戶的關系鏈,形成大網(wǎng)優(yōu)勢。

b、陌生人社交方面,當下社交產(chǎn)品最大的痛點就是社交質(zhì)量差、低效社交多、效率遠遠趕不上用戶預期,一個突出表現(xiàn)就是搭訕無人理睬、理睬也在若干小時之后(所以人們?yōu)楹蜗矚g直播,因為美女主播至少會說謝謝反饋下),但是語音溝通是一個更加強調(diào)即時性和真實性的場景,又不像視頻那么需要“化妝和端著”,所以反而可能成為新的突破口。至于當下的語音社交平臺為何多數(shù)做的不好,因為太像色情聲訊臺了!到底應該怎么做,筆者后頭的產(chǎn)品會做出回答。

4、語音類的內(nèi)容

前面已經(jīng)說過,語音內(nèi)容是目前做的最好的區(qū)塊,那么接下來的重點是:

a、改善交互。現(xiàn)在的模式是打開列表、看標題內(nèi)容簡介、點播放鍵、再點暫停鍵、再看列表,這個過程太累了。但是試想一下,為什么我們小時候調(diào)收音機換臺不會這么累呢?為什么我們走在人群中偷聽不同人的對話不會這么累呢?因為這都是步驟更少、更加自然而然地交互,實際上美國已經(jīng)有一款非常厲害的可視化語音應用解決了交互成本問題,是什么先不表。

b、興趣推薦。如果選擇值得一聽的語音節(jié)目成本如此之高,那么一個比較好的辦法就是基于興趣的推薦來降低選擇難度。比如喜馬拉雅已經(jīng)推出了“猜你喜歡”系統(tǒng),可以通過深度學習、進行類似今日頭條那樣的個性化推薦。那么再進一步,如果以后這個推薦可以不需要通過眼睛完成呢,直接傳來一個聲音:“小喜根據(jù)你的愛好搜到了幾個節(jié)目,下面念下標題,你感興趣就喊要這個……”

c、時空觸發(fā)。這個意思是,應該給更多的信息賦予時空屬性,比如在某一時刻放出,或者在某一位置放出。舉一個例子,你今天剛到一家商場,連上Wi-Fi,耳麥里立刻提醒你有最新的優(yōu)惠活動信息、要不要聽。你像即刻那樣設置一些關注節(jié)點,比如某股又跌了,當這個消息到來,耳麥里立刻提醒你要不要聽。你到達某個景點,耳邊響起景點的典故。你晚上睡不著了,耳邊響起周圍人的聲音,像不像《Her》?

d、做強參與。同為視頻,直播爆火的勁頭遠遠強于當年的視頻平臺和短視頻,這也釋放了一個信號,用戶并不滿足于成為單向的內(nèi)容接受者,他們也希望成為內(nèi)容的參與者甚至再創(chuàng)作者,他們也希望得到更多的互動和回饋,來滿足參與感、存在感和歸屬感,所以類似電臺的互動直播很重要。

e、聲音網(wǎng)紅生態(tài)。如何俘獲聲音領域的“網(wǎng)紅”們,通過更豐富的辦法幫助他們獲取規(guī)模精準流量、降低內(nèi)容生產(chǎn)門檻、維護粉絲社群、持續(xù)多樣化盈利。比如喜馬拉雅的PUGC生態(tài)戰(zhàn)略,已經(jīng)擁有400萬主播、8萬認證主播,這個供給端的大棋該怎么下下去?

f、制作成本。事實上制作成本的問題完全可以解決,一個是更加靈活強大的聲音編輯工具,另一個其實是文字到語音的轉(zhuǎn)化工具——你聲音不好?你不會抑揚頓挫?那么訊飛正在嘗試在語記一類的平臺推出文字轉(zhuǎn)化成聲音的功能,不是冰冷死板的普通話,而是可以轉(zhuǎn)成蘿莉的聲音、方言的聲音、林志玲的聲音、單田芳的聲音……

5、聲控類的終端

盡管菜狗對硬件終端充滿了“恐懼心理”,但是說到底,如果這個聲控交互能強大到占領你的客廳,占領你的臥室,占領你的駕駛室,甚至更強大一些,可以無處不在,像《Her》中那樣在云端接受和處理不同人的信息,你可以在任意的咖啡館、寫字樓、商店、公交上喚起他……那么毫無疑問,這一切都需要終端領域的進擊。如果這個事情有人能做起來,那就是真正的“生態(tài)化反”了。

五、語音交互還有多遠?

聲控交互不是簡單的YY,事實上未來已經(jīng)到來。

以智能終端為例,科大訊飛已經(jīng)推出了一款名為叮咚的智能Wi-Fi音箱,也許用不了多久這種漢語聲控的設備就會出現(xiàn)在你的身邊。同時進軍音箱領域的喜馬拉雅FM一方面將內(nèi)容植入Sonos、哈曼、漫步者、Misfit等智能產(chǎn)品中,另一方面通過收購國內(nèi)頂尖音箱廠商海趣科技,自主研發(fā)了3D降噪耳機等產(chǎn)品。

在應用場景方面,兩家語音領域的巨頭聯(lián)合推出了語音開放平臺,喜馬拉雅FM的“喜馬拉雅inside”開放平臺直接對接各類下游硬件研發(fā)和生產(chǎn)企業(yè),打造應用生態(tài)、拓寬應用場景的野心一目了然。喜馬拉雅FM的海量音頻內(nèi)容已經(jīng)植入智能家居、汽車、音箱等超過300家品牌,包括寶馬、福特 、比亞迪 、百度Carlife在在內(nèi)的幾乎所有主流車廠(車載系統(tǒng))已全線接入喜馬拉雅FM;車生活系列的隨車聽正在侵入用戶的駕駛室,家聲活系列的故事機、聽書寶、接入喜馬拉雅的智能冰箱已經(jīng)開始覬覦用戶的家居生活。與此同時蜻蜓FM和考拉FM的車聯(lián)網(wǎng)、智能家居戰(zhàn)略已經(jīng)磨刀霍霍。

這就是不久的將來,語音將像水和電一樣,隨取隨用,自由流動在每一個人的耳朵和心里。明確的人群和場景、高頻應用的可能、進一步侵入住家私車進而無處不在的潛力、明確的技術和標準門檻,這個故事看來很美好。

但是最后菜狗還是必須提醒大家,這一切的前提是:技術足夠強大并且向第三方開放、聲控交互的全面優(yōu)化和規(guī)范形成、蘋果安卓們愿意讓出這塊肥肉、有影響力的語音應用的出現(xiàn)。這里面每一步的實現(xiàn)都不是輕而易舉的,但正如互聯(lián)網(wǎng)女皇說的那樣,語音技術正在成熟,目前是最接近這個機會的節(jié)點。

本人張俊,野路子產(chǎn)品菜狗一枚,創(chuàng)業(yè)在上海,測試打磨全新的消費向興趣社區(qū)中,運營sns lab社群,事件營銷研究者,微信號:biohazard2015,歡迎勾兌,吵架不回。



1.砍柴網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標注作者和來源;2.砍柴網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務必注明文章作者和"來源:砍柴網(wǎng)",不尊重原創(chuàng)的行為砍柴網(wǎng)或?qū)⒆肪控熑危?.作者投稿可能會經(jīng)砍柴網(wǎng)編輯修改或補充。


閱讀延展



最新快報

1
3