-
Star
(142)
You must be signed in to star a gist -
Fork
(32)
You must be signed in to fork a gist
-
-
Save ctlllll/4451e94f3b2ca415515f3ee369c8c374 to your computer and use it in GitHub Desktop.
| import tiktoken | |
| import langdetect | |
| T = tiktoken.get_encoding("o200k_base") | |
| length_dict = {} | |
| for i in range(T.n_vocab): | |
| try: | |
| length_dict[i] = len(T.decode([i])) | |
| except: | |
| pass | |
| # Sort by length | |
| length_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1])) | |
| # Print the top 100 chinese words | |
| tot = 0 | |
| for item in length_dict: | |
| try: | |
| if langdetect.detect(T.decode([item])) == "zh-cn": | |
| print(item, T.decode([item])) | |
| tot += 1 | |
| except: | |
| pass | |
| if tot == 100: | |
| break | |
| """ | |
| Output: | |
| 有点离谱。。。 | |
| 185118 _日本毛片免费视频观看 | |
| 116852 中国福利彩票天天 | |
| 128031 久久免费热在线精品 | |
| 154809 无码不卡高清免费v | |
| 172750 大发快三大小单双 | |
| 177431 给主人留下些什么吧 | |
| 181679 qq的天天中彩票 | |
| 184969 _日本一级特黄大片 | |
| 187822 大发快三开奖结果 | |
| 49649 彩神争霸邀请码 | |
| 89409 免费视频在线观看 | |
| 122333 无码不卡高清免费 | |
| 122712 无码一区二区三区 | |
| 128600 大发时时彩计划 | |
| 133274 】【:】【“】【 | |
| 135161 大发时时彩开奖 | |
| 149168 大发时时彩怎么 | |
| 160029 大发快三是国家 | |
| 160131 大发快三是不是 | |
| 160267 天天中彩票网站 | |
| 176039 精品一区二区三区 | |
| 186348 大发快三是什么 | |
| 187516 大发快三走势图 | |
| 187810 在线观看中文字幕 | |
| 191179 大发快三怎么看 | |
| 193825 中国特色社会主义 | |
| 194062 彩神争霸是不是 | |
| 70506 彩神争霸大发 | |
| 74929 大发时时彩是 | |
| 78249 大发彩票官网 | |
| 83405 彩神争霸官网 | |
| 95565 大发快三怎么 | |
| 99813 大发快三开奖 | |
| 101303 大发游戏官网 | |
| 115319 大发快三和值 | |
| 119247 北京赛车开奖 | |
| 136533 大发快三计划 | |
| 136840 久久综合久久爱 | |
| 138985 下载安装到手机 | |
| 141777 重庆时时彩的 | |
| 143802 大发快三官网 | |
| 144879 大发快三豹子 | |
| 155245 中华人民共和国 | |
| 156153 彩神争霸网站 | |
| 160344 中国福利彩票 | |
| 160540 彩神争霸邀请码 | |
| 166783 一级a做爰片 | |
| 170426 大发快三如何 | |
| 178597 久久精品国产 | |
| 182584 热这里只有精品 | |
| 187784 重庆时时彩杀 | |
| 189467 亚洲男人天堂 | |
| 199053 北京赛车投注 | |
| 12284 大发时时彩 | |
| 31385 视频在线观看 | |
| 34342 一区二区三区 | |
| 36308 的天天中彩票 | |
| 46373 大发快三是 | |
| 50020 彩神争霸是 | |
| 86301 视频免费观看 | |
| 86435 《凤凰大参考 | |
| 92481 菲律宾申博 | |
| 95335 一级特黄大片 | |
| 95376 视频在线播放 | |
| 98829 。... | |
| 98909 彩神争霸的 | |
| 102670 免费视频观看 | |
| 105303 在天天中彩票 | |
| 107781 在线观看视频 | |
| 109323 大发快三的 | |
| 114332 电影在线观看 | |
| 117836 免费资料大全 | |
| 122693 北京赛车的 | |
| 126418 无码中文字幕 | |
| 128539 在线观看免费 | |
| 128805 开奖结果查询 | |
| 132560 久久国产视频 | |
| 136710 免费观看视频 | |
| 138225 开奖现场直播 | |
| 138258 在线视频观看 | |
| 146082 棋牌游戏官网 | |
| 157965 亚历山大发 | |
| 170040 香港赛马会 | |
| 173342 娱乐平台注册 | |
| 173836 北京赛车计划 | |
| 174322 娱乐官方网站 | |
| 175645 中文字幕无码 | |
| 177689 免费在线观看 | |
| 180574 免费人成视频 | |
| 180660 中文字幕在线 | |
| 182251 高清在线观看 | |
| 184003 人片在线观看 | |
| 184694 久久综合久久 | |
| 184811 彩网大发快三 | |
| 186005 网站免费观看 | |
| 186328 。 | |
| 186863 手机在线观看 | |
| 187540 日本一本道 | |
| 195091 在线视频精品 | |
| 195213 大发彩票网 | |
| """ |
umm, 难道大模型就不应该学辣鸡么 (思考
cc net 之类的数据有很多外网的中文站,特别多这种低质量数据。单一的一两个这种广告文本混入都算好的。有的爬下来可能影响了整个获取文本的布局。还有什么乱码之类的
以及这些token可以拿来反向清洗数据了感觉。。
离巨谱
网页端 会屏蔽这些词的吧,是不是只有API可以返回
谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai
求个文本版的23333 想用来洗数据
简中互联网之垃圾信息
谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai
求个文本版的23333 想用来洗数据
你需要吗,我整理了到了一个pickle 文件
简中互联网之垃圾信息
虽然但是,CCNet这种一般爬的是海外站,至少不是传统意义上的简中。像大发快三这类都是博彩信息。
谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai
求个文本版的23333 想用来洗数据
你需要吗,我整理了到了一个pickle 文件
求一份求一份
好崩溃
它太饿了,参数几百B,没这么多中文语料
最搞笑的是 chatgpt中文用户基本上都在海外(包括香港省和台湾省)。这是说明海外同胞的素质比国内同胞,有什么需要改正的?
这个和“数据污染”没关系,增加语料后训练了新的分词器,扩增了vocab,正常现象,不然tokenizer compression怎么来的?要查应该去查Gujarati、telugu这种压缩率很高的语言。
如果有人感兴趣,我把gpt4和gpt4o分词器中的中文token抽了出来:https://github.com/secsilm/chinese-tokens-in-tiktoken
这里面显示gpt4o只有3000多个token,但是实际上gpt4o支持的汉字远远比这个多,是我哪里理解错了吗😂
一位來自香港的研究員Henry Luo發表了一篇有趣的博客文章,他查詢了GPT-4o中不同語言的最長標記,發現它們似乎有不同的主題。俄語標記反映了與政府和公共機構有關的語言,而日語標記中有很多不同方式的「謝謝」。
https://wish.with.tw/blogs/with-note/openai-s-latest-blunder-shows-the-challenges-facing-chinese-ai-models
https://medium.com/@henryhengluo/bias-alignment-atypical-stereotypical-nationality-analysis-7ffbef9ee967
大受震撼
😅😅😅
最搞笑的是 chatgpt中文用户基本上都在海外(包括香港省和台湾省)。这是说明海外同胞的素质比国内同胞,有什么需要改正的?
???一個是特別行政區一個是國家怎麽全變省了?🤣











不应该,这些低质量的数据一早就应该过滤掉的。