今天没有任何功能性的进展,仅仅解决了一个很小但是异常复杂的问题。
在一次搜索中会遇到多种情况,包括联想状态(用户尚未输入任何字母),首次选字,以及已经选字;巨硬允许用户选择是否混合匹配中英文(比如输入br的时候匹配brighthand.com);允许用户选择使用和不使用预测词库;是否允许longer匹配(输入s的时候匹配“上海”,这是词频高于字数的匹配方式),以及自动切换longer设置(比如在用户已经输入超过一个音节的情况下自动关闭longer匹配);是否允许尾码渐进匹配(比如输入了kun ji的时候匹配“困窘”);还要照顾到自动分隔匹配(几乎所有的拼音输入法都这样匹配)和被动匹配(适用于数字键盘或者有按键合并的half qwerty);在输入的不同阶段,这些匹配设置可能会动态打开或关闭,还会遇到一些冲突情况(比如用户已经选了一个字,然后继续输入导致编码不再符合拼音规则)。
在MingManager的帮助下,这个问题最终通过一个简单模型实现了。我设计了一个Filter类,该类是可以attach到数据库上去的,从Filter类派生了很多行为不同的类,比如只匹配英文词汇,只匹配单字,词频优先或者字数优先等等,用于匹配的不同阶段和不同环境,这样就不用把所有的配置和环境变量放到一个由if语句堆积而成的函数中折腾,使得代码更容易实现,更容易理解,同时大大减少犯错误的机会,需要改动的时候也很方便。
设计Filter类的另外一个原因是为了提高检索速度,巨硬II使用了保留搜索断点的方式来获得候选字词,而不是一次性完成所有搜索填入buffer,事实上按照巨硬的数据结构设计,一次性填充Buffer几乎是不可行的,用户输入单一字符时,如果打开longer匹配和中英文混合匹配的选项,符合的选择可能多达上万个。我试了一下拼音加加,它不允许longer匹配也没有英文匹配,输入y的时候候选字有729x3个,而且要考虑到这是PC上的结果,手持设备上一次遍历匹配2000多个字很吃不消了。
这个断点状态的保留也是个很麻烦的问题,所以Filter类不仅仅是处理各种不同的匹配设置,它还负责维护搜索状态,最早的代码把这个工作交给了数据库自己来完成,但是后来发现很难处理那么多种情况,还是分到不同的Filter派生类中处理更清晰。最终在MindManager中得到了一个四级的二分树来表示不同的输入过程,再混合4个排列组合的设置(longer, longer auto off, progressive, alpha match),这回让我庆幸自己是用C++来写巨硬II的,可以利用virtual特性为所有的Filter类提供一个统一的Read函数供填充队列使用;如果是C,我真不知道怎么处理才好了。
以前一直鄙视C++的友元函数设计。但是今天派上了用场。
通常在程序中,有很多类提供了类似API一样的基础功能,而另外一些类封装了几乎所有核心数据结构,一些核心算法要同时访问这些东西。就比如前面说到的Filter类,它要访问字词库符号库以获取字词的音标并判断是否匹配,要访问输入过程的当前数据,包括Composition(用户输入),Candidates(候选词),和Nominee(用户已经选择的字词,但是还没有完成输入过程),还要访问当前的队列填充状况(比如这样的设置,在用户翻页两次之后关闭所有词频优先选项,改为精确匹配优先),在这种情况下有两个办法来处理。一种是C++中的Composition方式,即类套着类层层封装,以前我很喜欢这个方式,它使程序看起来很优雅,结构清晰,尤其是写UI程序时,把数据和UI层层绑定,是非常方便的做法;但是这种封装会牺牲灵活性和效率,就像MFC那样,而且对于错误处理也很麻烦(很不幸我没能在巨硬中使用C++的异常处理,这个Metrowerks提供的特性让我担心在弹出程序中会带来一些难以预料的问题,我还没能力在Debug窗口中看那些汇编代码并从中找出错误)。
除了层层封装之外的一个做法是,用一个容器类把这些东西统统丢进去,然后把所有需要用到这些数据或API的类都声明成友元类,这样可以大大减少参数传递和数据成员,让类简化很多,函数参数少了,代码也好看很多(不然要传递一长串参数进去);而且更重要的是,我觉得这样做在开发阶段是方便的,很多想法往往在调试时发现效果不佳,要采用另外的逻辑,如果是这样设计的类结构,那改起来也很方便,真的功能定型了之后,在refactoring阶段再考虑如何更优雅的封装也来得及。
另外这几周来,我对MindManager是越来越崇拜。以前看过一些Mind Map方法的介绍,不以为然。不就是拿张白纸从中心向四周画圈圈吗?我从来没想过用这类工具作为程序开发的辅助工具。
我想和我遇到一样问题的个人开发者应该有很多,为了解决程序结构和代码控制问题,我学了也试了很多工具,包括Case Tool,UML工具,大量撰写注释,大量撰写文档(包括需求和设计)。但是最终没有适合的。
从这次借助MindManger开发,我明白了这里面的问题所在。Case Tool,UML工具,注释,文档这些东西,都是
维护需求、设计或者代码用的;个人开发者和那种大型商业软件开发的很大区别在于,前者并没有特别明确的用户需求,往往是靠算法、数据结构或特殊功能设计来取胜,软件开发过程的实验性很强,这时候最需要的并不是很高级的维护代码的工具,而是
有效的分析和辅助思考的工具,MindManger正是这样的东西。在功能最终趋于大而全的时候,那些需求和代码维护工具才派得上用场。