字体压缩法-取子集 – 小武的开发空间

本文最后更新于105 天前

取子集

中文汉字数量很多，以思源宋体为例，思源宋体遵循 GB 18030 和通用规范汉字表，包含 8105 个规范字（来源：少数派），可能还有其他语言的字符，实际字符数量肯定是远超这个数字的。

实际上，常用汉字数量也就 3500 个左右，如果你的文本相对固定，可以考虑删减掉其他不常用的汉字。

极端做法是只保留文本中出现的字符，其他的全部删掉，但是我个人更倾向于折中保留 3500 汉字，在未来如果修改了文本，也不至于每次都要重新压缩一遍字体。

这种删减字符的做法叫“取子集”。取子集我们需要定义一个纯文本文件，里面包含所有要保留的字符，这里给大家分享一个自己正在使用的文件：现代汉语常用 3500 字.txt。

使用以下命令即可对字体文件取子集：

 
input_file="./font/siyuan.otf"
text_file="./font/现代汉语常用3500字.txt"
output_file="./font/siyuan.subset.otf"
fonttools subset "$input_file" --text-file="$text_file" --output-file="$output_file"

变量含义：

$input_file：输入的字体文件。
$text_file：定义保留字符的纯文本文件路径。
$output_file：输出的字体文件路径。

我测试对思源宋体取完子集后，文件体积从 25.4MB 减少到了 2.5MB，足足小了 1/10。

发送评论编辑评论

取子集

发送评论 编辑评论

推荐文章

发送评论编辑评论