2006/12/25

拼音与五笔的统一

一直都被这样一个问题困扰着:既然以记忆预测作为输入法的基础构架,不同编码方式的输入法应该能统一在一个同样的框架下,因为语言蚊子本身是不依赖于编码的。

今天终于想明白了这个问题。

巨硬把同音字作为不同的字处理。其实可以不这样做。把拼音拆开成为子数组。然后在SeqNode上加一个modifier的标志,另外建一个数据库存储特殊的拼音序列,供匹配的时候查询,这样就可以依据字,而不是多音字,建立树库。可以实现不同编码输入法的词组、序列和频度的共享。

不过这是巨硬IV的任务了。巨硬III还是按照目前的算法继续下去,否则永远也无法完成可用版本了,改进永远是无止境的。

No comments: