Yuta Hayashibe shirayu

PDF に謎の漢字が含まれるとき

PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある

例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf
- 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている
例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/
- 大量にある、どうしてこうなった
- PDF ではないので何かからコピーして書いた？

判明している音素バランス文の元ネタを集めた。

「マルサの女撮影日記」（伊丹十三）（文藝春秋 1987 年 2 月）（c03、g01 と同一）

ChangeLog を書く際によく使われる英語をまとめました。

ほとんど引用です。

31 Aug 2011

	import numpy as np
	from sklearn.linear_model import SGDClassifier
	from sklearn.cross_validation import StratifiedKFold
	from sklearn.grid_search import GridSearchCV

	class PUClassifier(object):
	def __init__(self, trad_clf=None, n_folds=2):
	self.trad_clf = trad_clf
	self.n_folds = n_folds

	#!/usr/bin/env python
	# coding: utf-8

	def main(args):
	import subprocess
	pattern = '.tex;.bib;*.sty;'
	command = 'make'
	subprocess.call(
	('watchmedo', 'shell-command', '-w', '-p',
	pattern, '-c', command, args.work_directory))

	#!/bin/sh
	# Original1: https://gist.github.com/875864 saiten / rec_radiko.sh
	# Original2: http://backslash.ddo.jp/wordpress/archives/1020 http://backslash.ddo.jp/tools/rec_radiko2.txt

	# Install: wget swftools rtmpdump ffmpeg http://d.hatena.ne.jp/zariganitosh/20130120/radiko_recoding_again

	PATH=$PATH:/usr/local/bin
	VERSION=3.0.0.01

	# 使い方

	# encoding: utf-8

	from __future__ import print_function
	from json import dumps as to_json
	from datetime import datetime, timedelta
	import requests

	URL_BASE="https://i.doit.im/tasks/%s"
	DOIT_BOXES = ('inbox', 'today', 'next', 'tomorrow', 'scheduled', 'someday', 'waiting')
	COOKIES = { 'autologin': 'Your Autologin Cookie Here' }