(This is a long over-due blog post. )

When my wife and I were trying give our kiddo a name a few month ago, we held such belief: we should give him a Chinese name to repect our culture but this name should be pronounceable in America. As a data guy, I tried to solve it in the “data way”. Basically, in this post, I’m trying to find out all “Chinese names” hidden inside the US babyname dataset from the babynames package.

I would say most of the names listed here are not usable but you can get quite a few good hints, such as “Kai”, “Manning”, “Mei”, etc.. I hope it can be helpful for other Chinese parents in English environment.

library(babynames)
library(tidyverse)
library(sparkline)
knitr::opts_chunk$set(message = F, warning = F)
sparkline(0)
sample_hanzi <- read_csv("sample_hanzi.csv")

pinyin_1_word <- sample_hanzi$pinyin
pinyin_2_words <- combn(sample_hanzi$pinyin, 2) %>%
  apply(2, paste0, collapse = "")
pinyin_first_names <- c(pinyin_1_word, pinyin_2_words)

hanzi_1_word <- sample_hanzi$hanzi
hanzi_2_words <- combn(sample_hanzi$hanzi, 2) %>%
  apply(2, paste0, collapse = "")
hanzi_first_names <- c(hanzi_1_word, hanzi_2_words)

first_names <- tibble(
  pinyin = pinyin_first_names,
  hanzi = hanzi_first_names
)
chinese_babynames <- babynames %>%
  mutate(lowername = tolower(name)) %>%
  inner_join(first_names, by = c("lowername" = "pinyin")) %>%
  mutate(name = paste(name, hanzi, sep = " - ")) %>%
  select(-lowername, -hanzi)

For Boys

chinese_boys <- chinese_babynames %>%
  filter(sex == "M") %>%
  mutate(year = factor(year, 1880:2017)) %>%
  arrange(name) %>%
  select(-sex, -prop) %>%
  spread(year, n, fill = 0) %>%
  gather(year, n, -name) %>%
  group_nest(name) %>%
  mutate(n = map(data, ~sum(.x$n)),
         data = map(data, ~spk_chr(.x$n))) %>%
  unnest() %>%
  arrange(desc(n)) %>%
  slice(1:200)

library(kableExtra)
kable(chinese_boys, escape = F, caption = "Boy names") %>%
  kable_styling(full_width = F) 
Boy names
name data n
Alan - 阿兰 346678
Juan - 卷 344846
Dale - 大了 277074
Julian - 具连 203284
Chase - 查色 159248
Gene - 个呢 126240
Eli - 而理 115184
Duane - 断而 114844
Aidan - 爱单 108262
Dan - 单 105814
Damian - 大面 82960
Ben - 本 82719
Gage - 噶个 56667
Dana - 大那 53064
Bennie - 本镍 52288
Dante - 单特 42856
Lane - 拉呢 36798
Kai - 开 36000
Ken - 肯 32640
Dane - 单而 31344
Dane - 大呢 31344
Cade - 擦的 26310
Adan - 阿单 26225
Ali - 阿理 25827
Tate - 他特 17206
Ernie - 而镍 16362
Asa - 阿撒 16295
Ari - 阿日 13461
Moshe - 磨社 13033
Gale - 噶了 12362
Kane - 卡呢 12346
Daren - 大人 10573
Bo - 波 10214
Ace - 阿测 9535
Dannie - 单镍 8933
Duke - 度可 8128
Cale - 擦了 7888
Mose - 磨色 7724
Daquan - 大全 7564
Dee - 的而 7240
Kale - 卡了 7185
Kasen - 卡森 6462
Case - 擦色 6401
Channing - 产宁 6284
Bowen - 波问 5962
Elian - 而连 5292
Dejuan - 的卷 5192
Maxie - 马些 4628
Henri - 很日 4346
Gaige - 改个 4192
Hasan - 哈三 4156
Casen - 擦森 3935
Rishi - 日是 3741
Dilan - 地兰 3738
Nate - 那特 3715
Dequan - 的全 3635
Juwan - 具完 3599
Lou - 漏 3593
Kenan - 可南 3390
Dajuan - 大卷 3356
June - 具呢 3232
Bodie - 波迭 3194
Elan - 而兰 2880
Musa - 亩撒 2831
Lisa - 理撒 2788
Karen - 卡人 2771
Elie - 而列 2743
Anna - 安那 2740
Amin - 阿民 2698
Masen - 马森 2694
Tai - 台 2690
Bode - 波的 2617
Kase - 卡色 2558
Laquan - 拉全 2342
Kaine - 开呢 2338
Damen - 大们 2288
Ewan - 而完 2272
Shan - 山 2160
Desi - 的四 2135
Kenya - 肯压 2116
Ayan - 阿验 2025
Aman - 阿满 2008
Che - 车 1985
Annie - 安镍 1922
Lannie - 兰镍 1858
Long - 龙 1833
Esai - 而塞 1780
Chasen - 查森 1766
Kalin - 卡林 1742
Hazen - 哈怎 1738
Julia - 具俩 1733
Quran - 去然 1730
Eitan - 诶谈 1698
Aren - 阿人 1693
Demian - 的面 1687
Shayan - 沙验 1665
Manning - 满宁 1655
Kelan - 可兰 1610
Caine - 采呢 1546
Julie - 具列 1524
Ren - 人 1522
Laine - 来呢 1477
Duran - 度然 1467
Benji - 本级 1463
Tuan - 团 1398
Karan - 卡然 1397
Jule - 具了 1393
Diane - 嗲呢 1386
Diane - 电而 1386
Sasha - 撒沙 1381
Kanye - 看也 1319
Arun - 阿润 1310
Kennie - 肯镍 1308
Diante - 电特 1306
Quan - 全 1297
Naquan - 那全 1289
Diana - 嗲那 1286
Antuan - 安团 1281
Lenin - 了您 1257
Tou - 头 1254
Mayo - 马哟 1236
Erling - 而领 1233
Zen - 怎 1227
Lian - 连 1225
Jun - 军 1196
Eyan - 而验 1193
Deshun - 的顺 1192
Jimi - 级米 1169
Hale - 哈了 1168
Fate - 发特 1159
Dujuan - 度卷 1153
Natan - 那谈 1151
Kalan - 卡兰 1127
Sai - 塞 1116
Shai - 筛 1115
Keyan - 可验 1108
Kennan - 肯南 1104
Yazan - 压赞 1091
Jin - 进 1084
Garen - 噶人 1062
Chanse - 产色 1052
Adian - 阿电 1039
Mannie - 满镍 1037
Eshan - 而山 1026
Dagan - 大干 1023
Masao - 马扫 1012
Chaise - 柴色 1001
Chan - 产 990
Calin - 擦林 987
Mazen - 马怎 986
Egan - 而干 968
Shaya - 沙压 941
Kong - 孔 935
An - 安 932
Benjie - 本结 906
Reza - 热杂 887
Cage - 擦个 872
Shun - 顺 865
Dade - 大的 856
Erle - 而了 855
Kenyan - 肯验 854
Dani - 大你 851
Elia - 而俩 845
Lin - 林 838
Anne - 安呢 829
Kainen - 开嫩 823
Cai - 采 818
Kaisen - 开森 811
Eren - 而人 810
Lipa - 理怕 809
Taiwan - 台完 806
Boe - 波而 805
Dawan - 大完 791
Minnie - 民镍 787
Rita - 日他 778
Le - 了 776
Bao - 报 773
Cainan - 采南 761
Kazuo - 卡作 757
Daiquan - 代全 754
Cache - 擦车 752
Dixie - 地些 752
Kenai - 可耐 749
Andi - 安地 736
Buren - 不人 734
Aran - 阿然 732
Linnie - 林镍 711
Yan - 验 702
Amen - 阿们 693
Kou - 口 691
Lue - 略 689
Bane - 办而 684
Bane - 把呢 684
De - 的 681
Hari - 哈日 675
Kari - 卡日 663
Calan - 擦兰 662
Kenta - 肯他 662
Hansen - 含森 655
Erman - 而满 652
chinese_girls <- chinese_babynames %>%
  filter(sex == "F") %>%
  mutate(year = factor(year, 1880:2017)) %>%
  arrange(name) %>%
  select(-sex, -prop) %>%
  spread(year, n, fill = 0) %>%
  gather(year, n, -name) %>%
  group_nest(name) %>%
  mutate(n = map(data, ~sum(.x$n)),
         data = map(data, ~spk_chr(.x$n))) %>%
  unnest() %>%
  arrange(desc(n)) %>%
  slice(1:300)

kable(chinese_girls, escape = F, caption = "Girl Names") %>%
  kable_styling(full_width = F) 
Girl Names
name data n
Karen - 卡人 985655
Lisa - 理撒 964973
Anna - 安那 888505
Diane - 嗲呢 517994
Diane - 电而 517994
Julie - 具列 507819
Julia - 具俩 455999
Diana - 嗲那 357575
Annie - 安镍 349367
Anne - 安呢 321103
Rita - 日他 283037
Katie - 卡铁 236162
June - 具呢 192047
Dana - 大那 191498
Minnie - 民镍 158775
Lena - 了那 137094
Tanya - 谈压 116401
Ana - 阿那 100329
Dianne - 电呢 95117
Ada - 阿大 94492
Maya - 马压 91608
Fannie - 反镍 84925
Kate - 卡特 79820
Mamie - 马灭 77738
Bianca - 变擦 71970
Faye - 发也 68096
Kari - 卡日 58680
Dianna - 电那 55609
Erma - 而马 54771
Celia - 测俩 53933
Lana - 拉那 51023
Mona - 磨那 45031
Dixie - 地些 42952
Hanna - 含那 37401
Delia - 的俩 36115
Cheri - 车日 36024
Sasha - 撒沙 34621
Lou - 漏 33665
Dena - 的那 32210
Keri - 可日 31940
Dina - 地那 30578
Luna - 路那 26720
Nannie - 南镍 25560
Kenya - 肯压 24083
Kali - 卡理 23352
Lexi - 了系 22265
Dale - 大了 21861
Amie - 阿灭 21309
Aisha - 爱沙 21266
Gale - 噶了 19888
Danna - 单那 18664
Lia - 俩 18049
Liza - 理杂 16641
Lilian - 理连 16402
Cali - 擦理 16178
Dee - 的而 15832
Lina - 理那 15768
Anya - 安压 15696
Mari - 马日 15528
Mina - 米那 15419
Lelia - 了俩 15409
Liana - 俩那 15005
Lexie - 了些 14656
Nita - 你他 14187
Kaila - 开拉 13635
Kaye - 卡也 13102
Gena - 个那 12792
Cari - 擦日 12543
Aida - 爱大 12316
Lilia - 理俩 12249
Dalia - 大俩 11982
Chaya - 查压 11853
Leta - 了他 11836
Lesa - 了撒 11400
Chana - 查那 10896
Kenna - 肯那 10288
Nan - 南 10267
Hana - 哈那 9945
Alia - 阿俩 9899
Ali - 阿理 9771
Bennie - 本镍 9721
Caren - 擦人 9541
Erna - 而那 9054
Suzan - 素赞 9029
Reta - 热他 8614
Luanne - 卵呢 8571
Kami - 卡米 8513
Demi - 的米 8452
Kaya - 卡压 8317
Maren - 马人 8166
Geri - 个日 8014
Linnie - 林镍 7899
Asha - 阿沙 7698
Kala - 卡拉 7551
Dani - 大你 7423
Candi - 参地 7344
Halie - 哈列 7336
Ami - 阿米 7261
Gene - 个呢 6979
Elia - 而俩 6914
Lani - 拉你 6610
Miya - 米压 6588
Lue - 略 6473
Juli - 具理 6280
Kaiya - 开压 6257
Meta - 么他 6177
Chanda - 产大 6079
Kai - 开 6010
Shante - 山特 5800
Gaye - 噶也 5747
Hailie - 还列 5717
Taya - 他压 5623
Dian - 电 5369
Cami - 擦米 5292
Mai - 麦 5254
Kesha - 可沙 5211
Shanta - 山他 5112
Kalie - 卡列 5075
Leisa - 类撒 4933
Lanie - 拉镍 4805
Aya - 阿压 4803
Lianna - 连那 4771
Kati - 卡提 4736
Riya - 日压 4694
China - 持那 4513
Daisha - 代沙 4500
Hali - 哈理 4431
Andi - 安地 4334
Keli - 可理 4320
Kalia - 卡俩 4310
Lita - 理他 4298
Santa - 三他 4278
Elin - 而林 4113
Risa - 日撒 4039
Keren - 可人 4025
Niya - 你压 4022
Lu - 路 3995
Chante - 产特 3943
Diya - 地压 3937
Maxie - 马些 3935
Naya - 那压 3863
Liane - 俩呢 3808
Lane - 拉呢 3795
Kairi - 开日 3741
Ema - 而马 3734
Maiya - 麦压 3734
Misha - 米沙 3560
Cailin - 采林 3531
Dasha - 大沙 3481
Andie - 安迭 3461
Karan - 卡然 3450
Chase - 查色 3448
Danya - 单压 3330
Channing - 产宁 3321
Ena - 而那 3240
Neta - 呢他 3214
Julian - 具连 3084
Maite - 麦特 3065
Laine - 来呢 3063
Ari - 阿日 3024
Candie - 参迭 2984
Genna - 根那 2978
Laina - 来那 2913
Minna - 民那 2902
Lianne - 连呢 2885
Nisha - 你沙 2870
Lise - 理色 2770
Juan - 卷 2733
Emi - 而米 2715
Genie - 个镍 2700
Adia - 阿嗲 2691
Kaili - 开理 2655
Aidan - 爱单 2623
Ani - 阿你 2596
Gennie - 根镍 2541
Miesha - 灭沙 2498
Daina - 代那 2447
Kenzi - 肯子 2442
Meri - 么日 2413
Lisha - 理沙 2369
Laisha - 来沙 2328
Baila - 百拉 2278
Jianna - 间那 2274
Kasi - 卡四 2236
Bianka - 变卡 2235
Niesha - 镍沙 2177
Gema - 个马 2167
Dannie - 单镍 2147
Danni - 单你 2117
Anai - 阿耐 2096
Shanya - 山压 2084
Shaye - 沙也 2083
Exie - 而些 2060
Leisha - 类沙 1981
Jule - 具了 1980
Jina - 级那 1961
Lanna - 兰那 1953
Dia - 嗲 1905
Aide - 爱的 1896
Maye - 马也 1883
Ela - 而拉 1857
San - 三 1856
Eman - 而满 1787
Bari - 把日 1779
Luanna - 卵那 1774
Shanti - 山提 1770
Maisha - 麦沙 1753
Sanya - 三压 1753
Keya - 可压 1747
Kena - 可那 1744
Gala - 噶拉 1720
Kalei - 卡类 1718
Tai - 台 1711
Aila - 爱拉 1708
Aime - 爱么 1708
Esha - 而沙 1688
Lainie - 来镍 1684
Hanan - 哈南 1640
Camie - 擦灭 1595
Cate - 擦特 1589
Bailie - 百列 1581
Nisa - 你撒 1563
Lannie - 兰镍 1520
Siya - 四压 1518
Kalin - 卡林 1508
Kasha - 卡沙 1494
Jiya - 级压 1492
Hawa - 哈瓦 1477
La - 拉 1442
Hala - 哈拉 1436
Lilie - 理列 1386
Suzi - 素子 1381
Calie - 擦列 1368
Layan - 拉验 1367
Chere - 车热 1347
Liya - 理压 1343
Pa - 怕 1338
Naiya - 耐压 1332
Mena - 么那 1330
Naisha - 耐沙 1319
Aine - 爱呢 1302
Junie - 具镍 1294
Laya - 拉压 1290
Minta - 民他 1283
Kailie - 开列 1269
Mei - 没 1248
Jia - 加 1243
Asa - 阿撒 1242
Shai - 筛 1194
Chari - 查日 1188
Kamie - 卡灭 1184
Mesha - 么沙 1183
Reya - 热压 1164
Caila - 采拉 1152
Angle - 昂了 1149
Aili - 爱理 1138
Teya - 特压 1133
Leya - 了压 1131
Bina - 比那 1125
An - 安 1116
Kailin - 开林 1109
Henna - 很那 1097
Rise - 日色 1077
Casi - 擦四 1075
Alan - 阿兰 1072
Lesha - 了沙 1053
Neisha - 内沙 1051
Resa - 热撒 1046
Aiza - 爱杂 1038
Bula - 不拉 1034
Lasha - 拉沙 1033
Meisha - 没沙 1021
Tate - 他特 1016
Duane - 断而 1015
Enya - 恩压 1001
Muna - 亩那 993
Kaisha - 开沙 975
Lin - 林 974
Catie - 擦铁 969
Saya - 撒压 962
Haya - 哈压 952
Fanta - 反他 951
Ailin - 爱林 944
Eila - 诶拉 943
Erla - 而拉 922
Manya - 满压 919
Kelia - 可俩 913
Ama - 阿马 902
Kela - 可拉 900
Gaile - 改了 898
Fatou - 发头 893
Le - 了 878
Chanie - 查镍 875
Maire - 麦热 873
Shan - 山 864
Channa - 产那 862
Chanta - 产他 861
Ranya - 然压 858
Jiana - 加那 844
Jinnie - 进镍 844