現行のclKanjiの速度だとまだちょっともたつきを感じることがあるので、なんとかしたいと思っている。取り合えず、漢字交じりの文からひらがなを作成する部分は多分再変換APIがそれほど早くないので、これ以上頑張っても劇的に早くなることはない。今一番効果がありそうだと思っている所は、Python側でひらがなのリストを受け取った後リスト一行に対して逐一DLL呼び出しを行っている部分。この辺がかなりのオーバーヘッドなのではないかと思うわけで、ローマ字変換まで一気にDLL内で行ってローマ字のリストをpython側に返すようにすれば結構高速化になるのではなかろうか。まぁ、再変換APIが遅いので、どんなに頑張っても限界はあるわけだけど。
Unique関数がSetを使用しない理由について。IMEの再変換APIは一応学習結果に基づいてリストを返してくれているようなので、順番を保持したかったというそれだけの理由。ReConvの返してきたリストのうち先頭しか拾わないような場合に、Setは一応順番不定という話なので、学習結果を生かすためにメンドクサイ事をしている。当然、リストの全項目を変換するような場合はSetを使って重複項目を消した方が、パフォーマンスは良くなるはず。