Skip to content

Instantly share code, notes, and snippets.

@ShikiOkasaka
ShikiOkasaka / segment.py
Created March 28, 2025 05:48
複文をチェックするツール
#!/usr/bin/env python
#
# Copyright 2025 Esrille Inc.
# SPDX-License-Identifier: Apache-2.0
import getopt
import spacy
import sys
IAA = '\uFFF9' # IAA (INTERLINEAR ANNOTATION ANCHOR)
@ShikiOkasaka
ShikiOkasaka / segment.py
Last active March 23, 2025 22:05
GiNZAをつかって、複文の入れ子をカッコでしめす
#!/usr/bin/env python
import spacy
nlp = spacy.load('ja_ginza_electra')
def is_term(token):
if token.dep_ in ('acl', 'advcl', 'csubj', 'dep', 'nsubj', 'obl'):
@ShikiOkasaka
ShikiOkasaka / segment.py
Created March 11, 2025 11:59
GiNZA v5 Transformersモデルで文を修飾部と述部にわけてみる
#!/usr/bin/env python
import spacy
nlp = spacy.load('ja_ginza_electra')
def segment(sentence):
doc = nlp(sentence)
@ShikiOkasaka
ShikiOkasaka / convert.py
Last active May 27, 2024 09:25
Hugging Face Transformersでかな漢字変換の実験
#!/usr/bin/env python3
# pip install transformers
# pip install fugashi
# pip install ipadic
# pip install unidic_lite
import torch
from transformers import BertForMaskedLM
from transformers import BertJapaneseTokenizer

教育漢字表に「藤原定家自筆平仮名文三種における和語表記の漢字」をあてはめてみる(太字でしめした)

学年 漢字
1年 円 王 音 貝 学 気 九 休 玉 金 空 犬 見 五 口 校 四 糸 字 耳 七 十 出 正 生 青 石 赤 川 先 早 足 村 大 男 虫 町 天 土 二 八 百 文 力 林 六
2年 引 羽 園 遠 何 科 画 回 会 絵 外 角 楽 活 間 丸 岩 顔 汽 記 弓 牛 魚 京 強 教 近 兄 形 計 元 言 戸 古 午 語 工 公 広 交 光 考 高 黄 合 才 細 作 算 止 市 矢 姉 室 社 弱 首 書 少 場 新 親 図 数 西 星 晴 切 組 走 多 太 体 台 地 知 茶 朝 直 通 弟 店 点 電 刀 答 頭 同 肉 馬 売 買 麦 半 番 父 分 聞 米 歩 母 北 毎 妹 明 鳴 毛 友 用 曜 来 里 理 話
3年 悪 安 暗 医 委 意 育 員 院 飲 運 泳 駅 央 横 屋 温 化 荷 界 開 階 寒 感 漢 館 岸 起 期 客 究 急 級 球 去 橋 業 曲 局 銀 区 苦 具 係 軽 血 決 研 県 庫 湖 向 幸 港 号 根 祭 皿 仕 死 使 始 指 歯 詩 次
@ShikiOkasaka
ShikiOkasaka / imcontext-demo-4.py
Last active April 30, 2024 04:15
GTK4でIBusの周辺テキストをつかった漢字入力に対応したアプリの例。
#!/usr/bin/python3
#
# Copyright (c) 2017-2024 Esrille Inc.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at:
#
# http://www.apache.org/licenses/LICENSE-2.0
#
@ShikiOkasaka
ShikiOkasaka / tosa.1221.html
Created September 20, 2023 06:27
土佐日記 12/21 ひらがな文
<!-- https://yatanavi.org/text/tosanikki/se_tosa01 -->
<style>
b { color: #000; font-weight: normal;}
body { color: #777; font-family: "UD デジタル 教科書体 NK-R";}
</style>
<b>とさの日記</b><br><br>
<b></b><b></b><b></b>なる<b></b><b></b>いふ<b></b>のを<b></b><b></b><b></b><b></b><b></b><b></b><b></b><b></b>れの<b></b>しの<b></b><b></b><b></b>つか<b></b>まり<b></b><b></b><b></b><b></b>ぬの<b></b>きに<b></b><b></b><b></b><b></b><b></b><b></b>かに<b></b>のに<b></b><b></b><b></b><b></b><b></b><b></b><b></b>とせ<b></b><b></b><b></b>てゝ<b></b>いの<b></b><b></b><b></b><b></b><b></b><b></b><b></b><b></b>りて<b></b><b></b><b></b><b></b>てゝ<b></b>ねに<b></b><b></b><b></b><b></b><b></b>たる<b></b><b></b><b></b><b></b>らぬ<b></b><b></b><b></b><b></b><b></b><b></b>らへ<b></b><b></b><b></b><b></b><b></b>かれ<b></b>たく<b></b><b></b><b></b><b></b><b></b><b></b>かく<b></b>つゝ<b></b><b></b><b></b>ちに<b></b><b></b>
@ShikiOkasaka
ShikiOkasaka / utukusiku.txt
Created July 3, 2022 07:40
形容詞の活用
美しい
美しく
美しくて
美しかった
美しかれ!
美しかろう
美しくない
美しくなく
美しければ
美しかったら
@ShikiOkasaka
ShikiOkasaka / kaku.txt
Last active July 3, 2022 01:01
「書く」の活用(?)をざっとかきだしてみたら……
書いた
書いて
書かせ
書かれ
書かん
書けば
書こう
書いたら
書いたり
書かせた
@ShikiOkasaka
ShikiOkasaka / caps_lock_state.py
Created May 26, 2022 14:49
This code doen't work on Wayland for getting Capslock state.
#!/usr/bin/python3
import gi
gi.require_version('Gdk', '4.0')
gi.require_version('Gtk', '4.0')
from gi.repository import Gtk, Gdk, GLib, GObject
def on_keyboard_notify(keyboard, data):
print(keyboard.get_caps_lock_state())