分类目录:电脑技术

基于 Moses 的文言文统计机器翻译系统

Note

这是一份参加学校办的科技竞赛写的论文。既然没得奖,就直接放出来供大家参考吧。本文内容参见之前发布的 《文言文机器翻译》。点击使用 在线演示

为了更清楚地列出所采用的资源和工具,在发布时另外标注了链接和符号角标。

摘要:本项目制作了一种文言文机器翻译系统,使用了基于词组的统计翻译模型。通过收集整理大量平行语料、训练针对文言文的分词系统并应用统计机器翻译中的先进技术,在控制了模型大小和内存占用的情况下,使本系统的翻译结果质量超过了现有系统的水平。本系统拥有较为友好的用户交互界面,能根据文本特征自动确定翻译方向并在结果中显示原文和译文中词语的对应关系,最终本系统可以为用户提供了一个新的文言文辅助阅读方法。

关键词:文言文,统计机器翻译,自然语言处理

A statistical machine translation system for Classical Chinese based on Moses

Abstract: This project presents a statistical machine translation system that can translate text between Classical …

通用密码字典(第三版)

一个更高级的密码字典。这个密码字典的不同之处在于通过收集实际使用的密码、过滤并使用密码强度评分排序,提高使用字典的效率。(前两版就内部消化掉了)

zxcvbn 库通过识别常见密码、代换、序列等组合,计算出密码强度,具有相当大的量化参考价值。使用 zxcvbn 密码强度来排序密码字典可以使实际应用更高效,由易到难,节约大量时间。

特点

  • 大部分来源于实际使用的密码
    • 常用高质量密码字典
    • 密码泄漏及社工库等
    • 没有包括用户名、邮箱等信息
    • 没有进行任何变换
  • 过滤无意义密码
    • 密码仅包含 ASCII 可打印字符及空格
    • 密码长度不超过 64 个字符
    • 密码强度 (zxcvbn(pwd).guesses_log10) 不超过 50(不同版本 zxcvbn 得出的强度可能不同)
    • 除去常见 hash、过长的网址等
  • 使用 zxcvbn 评分排序
    • 通过简单截断就可以得到更小的字典
  • 3.6G,348277374 行 …

独立使用 Tor 的流量混淆插件

Tor 项目中的传输插件 (Pluggable Transports) 一直以来都只用于网桥的防探测,避开网络设备的深度包检测。这些协议中不乏优秀的混淆或伪装算法,例如 obfs 系列以及 meek 等。而很多插件并不提供独立使用的接口,限制了它们的应用场景。

经过研究 Tor 的 Pluggable Transport 协议,我写了一个简单的包装脚本来将其实用化:https://github.com/gumblex/ptproxy

这些传输插件只负责传输 TCP 流量,必须要有实际应用服务器部署,例如转发 SSH、HTTP 代理流量。推荐使用 obfs4,并将 iat-mode 设为 1 或 2(隐藏发包的时间特征,服务端在第一次运行后修改 obfs4_state.json)。注意:有些传输插件并不带有加密,请仔细阅读这些插件的文档 …

维基编年史

维基百科的日期条目齐全得可以写一本历史书了。

《维基编年史》:按年代、年份排序

《维基日历》:按日期排序

2017年9月13日更新:数据更新,修正一些问题。

2016年1月1日更新:GitHub

2015年11月7日更新:所有版本EPub,修正各种Bug。

2015年3月1日更新:数据更新,EPub 格式改进。

运用MediaWiki的字词转换表进行了简繁/地区词转换,对手工转换也处理了。

如要经常翻阅,建议先下载保存后阅读。

文本授权协议:知识共享 署名-相同方式共享 3.0协议;程序授权协议:GNU GPL v3+。

源代码:GitHub …

重要文件备份脚本

一个用于实现文件筛选并备份的Python脚本。有如下功能:

  • 全局单文件大小限制(筛出了过大的音视频等文件)
  • 个别扩展名的扩大文件大小限制(避免筛选出稍大的图片、压缩包等)
  • 时间限制,增量备份
  • 仅更新大小不同的文件
  • 支持多语言文件名
  • 可跨平台
  • 有直观的文本输出
  • 脚本可扩展,可稍加修改实现可选的全局总大小限制、扩展名限制等

注意使用时要保存为UTF-8编码,以免出编码问题。

from sys import stdout
import os
import shutil
import time

#highprext = [".doc",".docx",".rtf",".xls","xlsx",".ppt",".pps",".pptx"] #可选的限制文件类型
otherext = [".pdf",".gif",".jpg",".png",".tif",".bmp",".zip",".tar",".tgz",".gz","7z …