Last active
November 29, 2023 06:07
-
-
Save geovedi/5304642 to your computer and use it in GitHub Desktop.
Implementasi algoritma fonetik Priyadi menggunakan Python. Walau ada sedikit modifikasi dari algoritma tersebut, namun demi memuaskan ego Priyadi, penamaan tetap menggunakan nama yang bersangkutan. Oh, ya. Ini satu lagi bentuk 'konspirasi gadjah'.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
# -*- coding: utf-8 -*- | |
from __future__ import unicode_literals | |
import re | |
vows = '|'.join('aiueo') | |
cons = '|'.join('cbdgfhkjmlnqpsrtwvyxz') | |
# http://priyadi.net/archives/2005/12/21/algoritma-fonetik-bahasa-indonesia/ | |
RULES = ( | |
# 1. Ubah ejaan lama menjadi ejaan baru: ubah oe menjadi u, tj | |
# menjadi c, dj menjadi j. Untuk menghindari false positive, | |
# jangan ubah j menjadi y kecuali jika ada pengubahan ejaan | |
# lama menjadi ejaan baru yang lain. Hati-hati dengan urutan | |
# pengubahan, jangan sampai dj berubah menjadi y. | |
(re.compile('oe'), 'u'), | |
(re.compile('tj'), 'c'), | |
(re.compile('dj'), 'j'), | |
# 2. Ganti konsonan yang berderet menjadi satu konsonan saja. | |
# Misalnya ‘anni’ menjadi ‘ani’. | |
(re.compile(r'({0})\1+'.format(cons)), r'\1'), | |
# 3. Normalkan diftong: ubah ai di akhir kata menjadi ay, au | |
# di akhir kata menjadi aw dan oi di akhir kata menjadi oy. | |
(re.compile(r'ai$'), 'ay'), | |
(re.compile(r'au$'), 'aw'), | |
(re.compile(r'oi$'), 'oy'), | |
# 4. Normalkan semivokal: ubah konsonan-y menjadi konsonan-i, | |
# iy menjadi i dan uw menjadi u | |
(re.compile(r'({0})y'.format(cons)), r'\1i'), | |
(re.compile('iy'), 'i'), | |
(re.compile('uw'), 'u'), | |
# 5. Normalkan konsonan yang berbunyi nyaris sama: | |
# ubah kh dan q menjadi k, sy menjadi s, v menjadi f, z menjadi j, | |
# d menjadi t, b menjadi p (mungkin masih ada yang kurang atau salah). | |
(re.compile('(kh|q)'), 'k'), | |
(re.compile('sy'), 's'), | |
(re.compile('v'), 'f'), | |
(re.compile('z'), 'j'), | |
(re.compile('d'), 't'), | |
(re.compile('b'), 'p'), | |
# 6. Normalkan ‘x’: ubah x menjadi ks | |
(re.compile('x'), 'ks'), | |
# 7. Ubah konsonan compound yang tersisa menjadi satu karakter: | |
# ng menjadi d dan ny menjadi b. | |
(re.compile('ng'), 'd'), | |
(re.compile('ny'), 'b'), | |
# 8. Normalkan h diam: ubah konsonan-h-vokal menjadi konsonan-vokal saja. | |
(re.compile(r'({0})h({1})'.format(cons, vows)), r'\1\2'), | |
# 9. Hapus semua huruf vokal. | |
(re.compile(r'({0})'.format(vows)), ''), | |
) | |
def memoize(f): | |
class memodict(dict): | |
def __init__(self, f): | |
self.f = f | |
def __call__(self, *args): | |
return self[args] | |
def __missing__(self, key): | |
ret = self[key] = self.f(*key) | |
return ret | |
return memodict(f) | |
@memoize | |
def priyadied(word): | |
word = word.lower() | |
for pat, rep in RULES: | |
word = pat.sub(rep, word) | |
return word |
ya saya?
oh jadi ini tempat ngejunk baru?
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
men, dicari nih men...