Last active
April 8, 2019 23:04
-
-
Save nvlong198/378c1d0cb25c17770d7f49c0ff79b8cb to your computer and use it in GitHub Desktop.
Unicode dựng sẵn là cách dùng phổ biến và có nhiều ưu điểm so với tổ hợp nhưng không phải người dùng đều dùng unicode dựng sẵn. Đoạn code này dùng để chuyển đổi chuỗi Unicode tổ hợp sang Unicode dựng sẵn trong Python3 .
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
unicode_tohop = ['ẻ', 'é', 'è', 'ẹ', 'ẽ', 'ể', 'ế', 'ề', 'ệ', 'ễ', 'ỷ', 'ý', 'ỳ', 'ỵ', 'ỹ', 'ủ', 'ú', 'ù', 'ụ', 'ũ', 'ử', 'ứ', 'ừ', 'ự', 'ữ', 'ỉ', 'í', 'ì', 'ị', 'ĩ', 'ỏ', 'ó', 'ò', 'ọ', 'õ', 'ở', 'ớ', 'ờ', 'ợ', 'ỡ', 'ổ', 'ố', 'ồ', 'ộ', 'ỗ', 'ả', 'á', 'à', 'ạ', 'ã', 'ẳ', 'ắ', 'ằ', 'ặ', 'ẵ', 'ẩ', 'ấ', 'ầ', 'ậ', 'ẫ', 'Ẻ', 'É', 'È', 'Ẹ', 'Ẽ', 'Ể', 'Ế', 'Ề', 'Ệ', 'Ễ', 'Ỷ', 'Ý', 'Ỳ', 'Ỵ', 'Ỹ', 'Ủ', 'Ú', 'Ù', 'Ụ', 'Ũ', 'Ử', 'Ứ', 'Ừ', 'Ự', 'Ữ', 'Ỉ', 'Í', 'Ì', 'Ị', 'Ĩ', 'Ỏ', 'Ó', 'Ò', 'Ọ', 'Õ', 'Ở', 'Ớ', 'Ờ', 'Ợ', 'Ỡ', 'Ổ', 'Ố', 'Ồ', 'Ộ', 'Ỗ', 'Ả', 'Á', 'À', 'Ạ', 'Ã', 'Ẳ', 'Ắ', 'Ằ', 'Ặ', 'Ẵ', 'Ẩ', 'Ấ', 'Ầ', 'Ậ', 'Ẫ'] | |
unicode_dungsan = ['ẻ', 'é', 'è', 'ẹ', 'ẽ', 'ể', 'ế', 'ề', 'ệ', 'ễ', 'ỷ', 'ý', 'ỳ', 'ỵ', 'ỹ', 'ủ', 'ú', 'ù', 'ụ', 'ũ', 'ử', 'ứ', 'ừ', 'ự', 'ữ', 'ỉ', 'í', 'ì', 'ị', 'ĩ', 'ỏ', 'ó', 'ò', 'ọ', 'õ', 'ở', 'ớ', 'ờ', 'ợ', 'ỡ', 'ổ', 'ố', 'ồ', 'ộ', 'ỗ', 'ả', 'á', 'à', 'ạ', 'ã', 'ẳ', 'ắ', 'ằ', 'ặ', 'ẵ', 'ẩ', 'ấ', 'ầ', 'ậ', 'ẫ', 'Ẻ', 'É', 'È', 'Ẹ', 'Ẽ', 'Ể', 'Ế', 'Ề', 'Ệ', 'Ễ', 'Ỷ', 'Ý', 'Ỳ', 'Ỵ', 'Ỹ', 'Ủ', 'Ú', 'Ù', 'Ụ', 'Ũ', 'Ử', 'Ứ', 'Ừ', 'Ự', 'Ữ', 'Ỉ', 'Í', 'Ì', 'Ị', 'Ĩ', 'Ỏ', 'Ó', 'Ò', 'Ọ', 'Õ', 'Ở', 'Ớ', 'Ờ', 'Ợ', 'Ỡ', 'Ổ', 'Ố', 'Ồ', 'Ộ', 'Ỗ', 'Ả', 'Á', 'À', 'Ạ', 'Ã', 'Ẳ', 'Ắ', 'Ằ', 'Ặ', 'Ẵ', 'Ẩ', 'Ấ', 'Ầ', 'Ậ', 'Ẫ'] | |
dic = dict(zip(unicode_tohop, unicode_dungsan)) # Make a pair of 2 lists and convert them to dict() | |
text = 'Mới đây, Phương Ly cũng vừa đăng ảnh check-in cùng hoa anh đào tại cả 3 địa điểm trên khiến dân tình mê mệt vì cả hoa và người đều đẹp "10 phân vẹn mười"' | |
for tohop, dungsan in dic.items(): | |
text = text.replace(tohop, dungsan) |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment