在文本分析中常用到n-gram串頻統(tǒng)計方法,即,統(tǒng)計相鄰的n個單元(如單詞、漢字、或者字符)在整個文本中出現(xiàn)的頻率。假設有一個字符串,請以字符為單位,按n-gram方法統(tǒng)計每個長度為 n 的子串出現(xiàn)的頻度,并輸出最高頻度以及頻度最高的子串。所給的字符串只包含大小寫字母,長度不多于500個字符,且 1 < n < 5。
如果有多個子串頻度最高,則根據(jù)其在序列中第一次出現(xiàn)的次序依次輸出,每行輸出一個,如果最高頻度不大于1,則輸出NO。
3 abcdefabcd
2 abc bcd