me-suzy · March 3, 2026 11:51
diff --git a/diacritice 3534.py b/diacritice 3534.py
 import os

 BASE_DIR = r'e:\Carte\BB\17 - Site Leadership\Principal\ro'

 REPLACEMENTS = {
    # ă / Ă
    '&#259;': 'ă', '&#x103;': 'ă', '&#X103;': 'ă',
    '&#258;': 'Ă', '&#x102;': 'Ă', '&#X102;': 'Ă',

    # â / Â
    '&#226;': 'â', '&#xE2;': 'â', '&#Xe2;': 'â',
    '&#194;': 'Â', '&#xC2;': 'Â', '&#XC2;': 'Â',
    '&acirc;': 'â', '&Acirc;': 'Â',

    # î / Î
    '&#238;': 'î', '&#xEE;': 'î', '&#XEE;': 'î',
    '&#206;': 'Î', '&#xCE;': 'Î', '&#XCE;': 'Î',
    '&icirc;': 'î', '&Icirc;': 'Î',

    # ș mic / mare (virgulă + sedilă)
    '&#537;': 'ș', '&#x219;': 'ș', '&#X219;': 'ș',   # ș
    '&#351;': 'ș', '&#x15F;': 'ș', '&#X15F;': 'ș',   # ş
    '&#536;': 'Ș', '&#x218;': 'Ș', '&#X218;': 'Ș',   # Ș
    '&#350;': 'Ș', '&#x15E;': 'Ș', '&#X15E;': 'Ș',   # Ş

    # ț mic / mare (virgulă + sedilă)
    '&#539;': 'ț', '&#x21B;': 'ț', '&#X21B;': 'ț',   # ț
    '&#355;': 'ț', '&#x163;': 'ț', '&#X163;': 'ț',   # ţ
    '&#538;': 'Ț', '&#x21A;': 'Ț', '&#X21A;': 'Ț',   # Ț
    '&#354;': 'Ț', '&#x162;': 'Ț', '&#X162;': 'Ț',   # Ţ

    # entități text uzuale
    '&quot;': '"',
    '&apos;': "'",
 }

 # AICI extindem corecțiile pentru caracterele „ciudate”
 RAW_CHAR_REPLACEMENTS = {
    # sedilă → virgulă
    'ş': 'ș',
    'Ş': 'Ș',
    'ţ': 'ț',
    'Ţ': 'Ț',

    # punct dedesubt (ṭ, Ṭ, ṣ, Ṣ) → diacritice românești
    'ṭ': 'ț',   # U+1E6D LATIN SMALL LETTER T WITH DOT BELOW
    'Ṭ': 'Ț',   # U+1E6C LATIN CAPITAL LETTER T WITH DOT BELOW
    'ṣ': 'ș',   # U+1E63 LATIN SMALL LETTER S WITH DOT BELOW
    'Ṣ': 'Ș',   # U+1E62 LATIN CAPITAL LETTER S WITH DOT BELOW
 }

 def normalize_content(text: str) -> str:
    # 1. Numeric / named entities → UTF-8
    for src, dst in REPLACEMENTS.items():
        text = text.replace(src, dst)

    # 2. Caractere greșite (sedilă, punct) → diacritice românești corecte
    for src, dst in RAW_CHAR_REPLACEMENTS.items():
        text = text.replace(src, dst)

    return text

 def main():
    print(f"Încep înlocuirea în: {BASE_DIR}\n")
    changed_files = 0

    for root, dirs, files in os.walk(BASE_DIR):
        for name in files:
            if not name.lower().endswith('.html'):
                continue
            full_path = os.path.join(root, name)
            try:
                with open(full_path, 'r', encoding='utf-8') as f:
                    content = f.read()
            except UnicodeDecodeError:
                continue

            new_content = normalize_content(content)
            if new_content != content:
                with open(full_path, 'w', encoding='utf-8') as f:
                    f.write(new_content)
                changed_files += 1
                print(f"✅ Actualizat: {full_path}")

    if changed_files == 0:
        print("Nu a fost nevoie de nicio modificare.")
    else:
        print(f"\nGata. Au fost actualizate {changed_files} fișiere.")

 if __name__ == '__main__':
    main()
	import os

	BASE_DIR = r'e:\Carte\BB\17 - Site Leadership\Principal\ro'

	REPLACEMENTS = {
	# ă / Ă
	'ă': 'ă', 'ă': 'ă', '&#X103;': 'ă',
	'Ă': 'Ă', 'Ă': 'Ă', '&#X102;': 'Ă',

	# â / Â
	'â': 'â', 'â': 'â', '&#Xe2;': 'â',
	'Â': 'Â', 'Â': 'Â', '&#XC2;': 'Â',
	'â': 'â', 'Â': 'Â',

	# î / Î
	'î': 'î', 'î': 'î', '&#XEE;': 'î',
	'Î': 'Î', 'Î': 'Î', '&#XCE;': 'Î',
	'î': 'î', 'Î': 'Î',

	# ș mic / mare (virgulă + sedilă)
	'ș': 'ș', 'ș': 'ș', '&#X219;': 'ș', # ș
	'ş': 'ș', 'ş': 'ș', '&#X15F;': 'ș', # ş
	'Ș': 'Ș', 'Ș': 'Ș', '&#X218;': 'Ș', # Ș
	'Ş': 'Ș', 'Ş': 'Ș', '&#X15E;': 'Ș', # Ş

	# ț mic / mare (virgulă + sedilă)
	'ț': 'ț', 'ț': 'ț', '&#X21B;': 'ț', # ț
	'ţ': 'ț', 'ţ': 'ț', '&#X163;': 'ț', # ţ
	'Ț': 'Ț', 'Ț': 'Ț', '&#X21A;': 'Ț', # Ț
	'Ţ': 'Ț', 'Ţ': 'Ț', '&#X162;': 'Ț', # Ţ

	# entități text uzuale
	'"': '"',
	''': "'",
	}

	# AICI extindem corecțiile pentru caracterele „ciudate”
	RAW_CHAR_REPLACEMENTS = {
	# sedilă → virgulă
	'ş': 'ș',
	'Ş': 'Ș',
	'ţ': 'ț',
	'Ţ': 'Ț',

	# punct dedesubt (ṭ, Ṭ, ṣ, Ṣ) → diacritice românești
	'ṭ': 'ț', # U+1E6D LATIN SMALL LETTER T WITH DOT BELOW
	'Ṭ': 'Ț', # U+1E6C LATIN CAPITAL LETTER T WITH DOT BELOW
	'ṣ': 'ș', # U+1E63 LATIN SMALL LETTER S WITH DOT BELOW
	'Ṣ': 'Ș', # U+1E62 LATIN CAPITAL LETTER S WITH DOT BELOW
	}

	def normalize_content(text: str) -> str:
	# 1. Numeric / named entities → UTF-8
	for src, dst in REPLACEMENTS.items():
	text = text.replace(src, dst)

	# 2. Caractere greșite (sedilă, punct) → diacritice românești corecte
	for src, dst in RAW_CHAR_REPLACEMENTS.items():
	text = text.replace(src, dst)

	return text

	def main():
	print(f"Încep înlocuirea în: {BASE_DIR}\n")
	changed_files = 0

	for root, dirs, files in os.walk(BASE_DIR):
	for name in files:
	if not name.lower().endswith('.html'):
	continue
	full_path = os.path.join(root, name)
	try:
	with open(full_path, 'r', encoding='utf-8') as f:
	content = f.read()
	except UnicodeDecodeError:
	continue

	new_content = normalize_content(content)
	if new_content != content:
	with open(full_path, 'w', encoding='utf-8') as f:
	f.write(new_content)
	changed_files += 1
	print(f"✅ Actualizat: {full_path}")

	if changed_files == 0:
	print("Nu a fost nevoie de nicio modificare.")
	else:
	print(f"\nGata. Au fost actualizate {changed_files} fișiere.")

	if __name__ == '__main__':
	main()
No results found