分类目录:作品发布

CSV 转 SQL:又一个轮子

这种轮子多了去了。这次的轮子功能有:

  • 自动判别类型。你数据里有 NULL 值,某列前几行都是数字后面出现文本,严格区分大小整数和浮点数,这些我们都考虑了。
  • 生成 CREATE TABLE。不对自己改。
  • 非标准 CSV。这种文件太多了,得给每种格式来个选项。
  • 几何类型。识别 Well Known Text,通用的地理图形记法。
  • 没有外部依赖。为啥识别个数字类型还要装 Pandas?

https://github.com/The-Orizon/nlputils/blob/master/csvsql.py

《我喜欢》等5份乐谱

《我喜欢》

上海彩虹室内合唱团《我喜欢》合唱版。根据官方“翻唱套餐”提供的钢琴谱,听记合唱部分。

PDF, MuseScore

Nuit Silencieuse

游戏《高考恋爱100天》背景音乐第 12 首 Nuit Silencieuse,钢琴曲。根据游戏资源中的背景音乐记谱,不是官方提供的“原声音乐集”,这两者有区别。游戏资源的提取见:https://github.com/gumblex/extract-gk100d,实现了 data.xp3 的提取。

PDF, MuseScore, MuseScore 在线试听

Mare d'inverno

Walter Mazzaccaro 专辑 Sulla strada del ritorno 第 6 首 …

用 FUSE 挂载 HTTP 文件目录

Apache、nginx 等服务器软件都有生成文件目录的功能。这类目录通常只考虑到人类的可读性,给机读带来很大困难。之前有解析目录列表的一些实现 [1] [2],但不能覆盖大多数情况。为了之前挖的坑(实现自动获取软件更新信息) [3],我实现了一个能解析大部分文件目录的程序「htmllisting-parser」。

其能解析用 <pre><table><ul> 的常见文件目录,包括 Apache、nginx、lighttpd、darkhttpd 和 Python http.server 等服务器的默认样式,生成文件名、修改时间、大小、描述的列表。解析的基本思想就是模式匹配,对 <pre> 就先找链接,再在每一栏找修改时间和文件大小;<table> 先找表头;<ul> 列举链接就可以了。程序写的有点面条,一堆黑科技,有空再整理和模块化。

以这个解析器为基础,就能写出较为高效的 FUSE 文件系统 …

文言文机器翻译

在线文言文机器翻译即日起开始试运行。这个本来去年年末就可以上线,但由于各种各样问题,只好在2015年第一天上线。现在系统还在各种微调、提高性能,会经常更新,统计模型也会不时更新。由于资源限制,翻译速度可能略,也可能出现各种错误。

这个项目从2014年5月起开始试验,使用了Moses统计机器翻译系统,逐渐完善了各种配套工具,例如文言文分词(基于结巴分词)、简繁转换、分句等。主要使用维基文库、维基百科数据建立了三元文言文、现代文语言模型。平行语料采集于几个文言文翻译网站,使用机器翻译辅助句对齐,目前共有约五十万句。

经测试, 这个翻译系统总体优于百度,特别是现代文翻译文言文;更优于简单查找替换翻译系统。但由于词库等原因,人名地名可能处理不好。总之,能用。

定远正书体

这个字体拖了好久,看上去终于可以发布了。

样张

定远正书体

不要喷为什么我“能吞下玻璃而不伤身体”,只是因为借用了一下Ubuntu自带的字体预览。

说明

中文名“定远正书体”,英文名 Stamico。名字没有来历,只是因为读起来顺口。

字体共有6007个字符(包括空白),其中汉字5352个。包括所有基础ASCII字符,大部分拉丁、希腊字母,一些特殊符号和数学符号,注音符号,标点符号等。

字体授权协议:OFL (开放字体授权),即您可以自由使用、修改、以相同协议再发行,但再发行时不可使用原字体名。当前版本1.1.2.1402,2014年2月6日。

字体从2013年6月11日起,历经千辛万苦,使用各种自动化脚本,无数手工修改,还要迎合bug像星星一样多的FontForge,包括手动编译,真是没话讲。在此感谢以下软件所做出的贡献:FontForgeInkscapeGIMPfontindustry、Turbo Photo、Geany …