記得有個笑話,講老師要小明用“如果”造句,結(jié)果小明說“蘋果不如果凍好吃!” 這為什么是一個笑話呢?我們從邏輯上分析一下。
首先,造句的邏輯要求是:“編造一句話,這句話中包含指定的詞”,從這個要求來看“蘋果不如果凍好吃”,當(dāng)中包含了“如果”,那么這個造句就是合格的,但是為什么大家覺得可笑呢?那是因為從語義的角度理解,“蘋果不如果凍好吃”,當(dāng)中是“不如”和“果凍”兩個詞拼湊出了“如果”,而全文的含義中并沒有包含“如果”。
這里就不得不引入一個叫做”分詞“的概念了,分詞,就是根據(jù)語義,把句子中的詞匯提取出來。一個句子,按照語意的邏輯分段,從大到小應(yīng)該是句讀、詞、字,句讀是用標(biāo)點符號劃分的,詞是字組成的語義單元,字就是單個漢字。古文中,甚至連標(biāo)點都沒有,唐代韓愈的《師說》中就有“句讀之不知,惑之不解,或師焉,或不焉,小學(xué)而大遺,吾未見其明也。”,“以字成詞”是中文特有的,因此這也給中文分詞帶來了難度。而拼音文字就沒有這個問題,比如“helloworld”我們根據(jù)單詞就能提取出“hello”和“world”兩個詞。
中文分詞比較困難,目前還不能完美實現(xiàn)機(jī)器自動分詞,但是并不表示無法實現(xiàn),只要基于中文詞庫,詞頻,還有一些專業(yè)數(shù)據(jù),比如某個詞的專業(yè)度,常用度等,有很多專業(yè)的術(shù)語,我不記得了,這里也不展開。
下面做一個有趣的實驗,打開微軟的word,輸入文本“蘋果不如果凍好吃”,然后你用鼠標(biāo)嘗試在各個漢字上雙擊,唉?是不是會自動選中詞語?你會發(fā)現(xiàn),你在“如”上雙擊,會選中“不如”,在“果”上雙擊,會選中“果凍”,不論你在哪里雙擊,都不會選中“如果”!這樣看來,看似簡簡單單的一個word,居然已經(jīng)引入了中文分詞的概念,是不是讓你對word有了重新的認(rèn)識?
在“如”上雙擊
在“果”上雙擊
然而就是這樣一個word中已經(jīng)有了十多年的功能,在百度里卻沒有。2015年,7月18日的太倉畢業(yè)生招聘會將在太倉明德高級中學(xué)舉辦,我一位太倉人才網(wǎng)的朋友讓我?guī)退麨榇司庉嬕粋€百度推廣,從而更好的宣傳這次活動,于是我在百度推廣后臺編輯并提交。結(jié)果提交時提示我的內(nèi)容觸犯什么保護(hù)條例,資訊客服后,得知“德高”二字被品牌注冊保護(hù)了。這真是讓人哭笑不得,“太倉明德高級中學(xué)”,根據(jù)漢字分詞,應(yīng)該是:“太倉,明德,高級中學(xué)”,語義上是沒有包含“德高”二字的。使用簡單的字符串比對來過濾是最簡單粗暴的做法!
我還是很懷念谷歌的。而一個公司,一個產(chǎn)品,靠各種關(guān)系,依托“官方”來打壓競爭者坐上頭把交椅的,沒有居安思危的意識,怎么可能希望他可以進(jìn)步呢?
陽光浪子
2015年6月9日