《我喜欢》等5份乐谱

《我喜欢》

上海彩虹室内合唱团《我喜欢》合唱版。根据官方“翻唱套餐”提供的钢琴谱,听记合唱部分。

PDF, MuseScore

Nuit Silencieuse

游戏《高考恋爱100天》背景音乐第 12 首 Nuit Silencieuse,钢琴曲。根据游戏资源中的背景音乐记谱,不是官方提供的“原声音乐集”,这两者有区别。游戏资源的提取见:https://github.com/gumblex/extract-gk100d,实现了 data.xp3 的提取。

PDF, MuseScore, MuseScore 在线试听

Mare d'inverno

Walter Mazzaccaro 专辑 Sulla strada del ritorno 第 6 首 …

用 FUSE 挂载 HTTP 文件目录

Apache、nginx 等服务器软件都有生成文件目录的功能。这类目录通常只考虑到人类的可读性,给机读带来很大困难。之前有解析目录列表的一些实现 [1] [2],但不能覆盖大多数情况。为了之前挖的坑(实现自动获取软件更新信息) [3],我实现了一个能解析大部分文件目录的程序「htmllisting-parser」。

其能解析用 <pre><table><ul> 的常见文件目录,包括 Apache、nginx、lighttpd、darkhttpd 和 Python http.server 等服务器的默认样式,生成文件名、修改时间、大小、描述的列表。解析的基本思想就是模式匹配,对 <pre> 就先找链接,再在每一栏找修改时间和文件大小;<table> 先找表头;<ul> 列举链接就可以了。程序写的有点面条,一堆黑科技,有空再整理和模块化。

以这个解析器为基础,就能写出较为高效的 FUSE 文件系统 …

大数据的社会责任

大数据、机器学习、人工智能这些名词人们越来越耳熟能详,好像说这些就是现在和未来信息技术的发展趋势。确实,随着计算机计算和储存能力的提高,以往需要仔细考虑的计算资源分配问题变得不那么重要。例如,现在在资源充裕的情况下,我们通常动不动就上神经网络来解决,不是像以前那样仔细考虑,提取出数据的各种特征、开发对特定问题优化的算法,因为神经网络一般能自己归纳出合理的模型。然而,现在缺乏仔细讨论的不是用哪种方法处理数据,而是我们对待原始数据和处理结果的态度。

首先,原始数据的收集应该公开透明:数据的提供者,一般是用户,要有知情权。在各大网站上,基本都有「隐私政策」和「服务协议」页面,说明了其收集的用户数据及其用途。即使是这样,有的服务写的详细,并给出了停止收集一些数据的选项;有的服务措辞模糊,一开始就拿了许多权限,其用途无法解释,或者解释与实际行为不符。之前爆出的某些大厂的应用程序偷听或者偷拍用户,至少就没有做到数据收集的公开透明。我们暂时做善意的假定,这些收集的数据确实是「改善用户体验」。如果这些应用在申请权限之前有明确合理的解释,即使是像广告下面的小字,也可以算作是尊重了用户的知情权。后台收集数据的事情被发现后,这些大厂为了防止声誉受损,不对这些行为做出解释或道歉,只是重复「你怎么这样凭空污人清白」,就难免受到人们更多的质疑 …

基于 Moses 的文言文统计机器翻译系统

Note

这是一份参加学校办的科技竞赛写的论文。既然没得奖,就直接放出来供大家参考吧。本文内容参见之前发布的 《文言文机器翻译》。点击使用 在线演示

为了更清楚地列出所采用的资源和工具,在发布时另外标注了链接和符号角标。

摘要:本项目制作了一种文言文机器翻译系统,使用了基于词组的统计翻译模型。通过收集整理大量平行语料、训练针对文言文的分词系统并应用统计机器翻译中的先进技术,在控制了模型大小和内存占用的情况下,使本系统的翻译结果质量超过了现有系统的水平。本系统拥有较为友好的用户交互界面,能根据文本特征自动确定翻译方向并在结果中显示原文和译文中词语的对应关系,最终本系统可以为用户提供了一个新的文言文辅助阅读方法。

关键词:文言文,统计机器翻译,自然语言处理

A statistical machine translation system for Classical Chinese based on Moses

Abstract: This project presents a statistical machine translation system that can translate text between Classical …

通用密码字典(第三版)

一个更高级的密码字典。这个密码字典的不同之处在于通过收集实际使用的密码、过滤并使用密码强度评分排序,提高使用字典的效率。(前两版就内部消化掉了)

zxcvbn 库通过识别常见密码、代换、序列等组合,计算出密码强度,具有相当大的量化参考价值。使用 zxcvbn 密码强度来排序密码字典可以使实际应用更高效,由易到难,节约大量时间。

特点

  • 大部分来源于实际使用的密码
    • 常用高质量密码字典
    • 密码泄漏及社工库等
    • 没有包括用户名、邮箱等信息
    • 没有进行任何变换
  • 过滤无意义密码
    • 密码仅包含 ASCII 可打印字符及空格
    • 密码长度不超过 64 个字符
    • 密码强度 (zxcvbn(pwd).guesses_log10) 不超过 50(不同版本 zxcvbn 得出的强度可能不同)
    • 除去常见 hash、过长的网址等
  • 使用 zxcvbn 评分排序
    • 通过简单截断就可以得到更小的字典
  • 3.6G,348277374 行 …