Excel不支持原生正则表达式,但可通过公式组合(兼容2010+)、Power Query、VBA(仅Windows)或Microsoft 365新函数(如REGEXEXTRACT预览版)提取中文字符;公式法利用CODE与MID判断Unicode范围19968–40869。

Excel如何提取单元格中的中文字符_使用正则函数或公式组合  第1张

Excel本身不支持原生正则表达式,但可通过公式组合(适用于所有版本)或借助Power Query、VBA(仅Windows)、以及Microsoft 365新函数(如REGEXEXTRACT预览功能)实现中文字符提取。下面分场景说明实用方法:

✅ 公式组合法(兼容Excel 2010及以上,无需宏)

利用SUBSTITUTELENMIDCODE等函数逐字判断是否为中文字符(Unicode范围通常为19968–40869,即“一”到“龯”)。以下是一个稳定可用的数组公式(需按 Ctrl+Shift+Enter 输入,Excel 365/2021可直接回车):

=TEXTJOIN("",TRUE,IF((CODE(MID(A1,ROW(INDIRECT("1:"&LEN(A1))),1))>=19968)*(CODE(MID(A1,ROW(INDIRECT("1:"&LEN(A1))),1))

  • 原理:对A1中每个字符用CODE取ASCII/Unicode值,判断是否落在中文常用区段
  • 注意:该范围覆盖绝大多数简体中文汉字,但不含全角标点、生僻字或扩展B区汉字
  • 若遇#N/A错误,检查是否忘了按Ctrl+Shift+Enter(旧版Excel)

✅ Power Query法(推荐,直观且可复用)

适用于Excel 2016+(含Office 365),操作路径:数据 → 从表格/区域 → 启动Power Query编辑器 → 转换 → 拆分列 → 按字符 → 高级选项选“每个字符一行” → 添加列 → 自定义列,输入:

=if Number.From(Text.At([Text],0)) >= 19968 and Number.From(Text.At([Text],0))

  • 再筛选非空行,合并列即可得到纯中文字符串
  • 优势:逻辑清晰、可批量处理整列、支持刷新自动更新
  • 适合处理大量数据或需要定期更新的报表

✅ Microsoft 365 新函数(Beta阶段,需开启预览)

部分订阅用户已可用实验性函数REGEXEXTRACT(非官方正式发布,稳定性有限):

=REGEXEXTRACT(A1,"[\u4e00-\u9fff]+")

  • 支持Unicode区间写法,\u4e00-\u9fff基本覆盖常用汉字
  • 当前仅限特定内部通道或Insider预览版,普通用户暂不可用
  • 不建议在生产环境依赖此函数,避免突然失效

✅ VBA自定义函数(Windows专属,灵活高效)

Alt+F11打开VBA编辑器,插入模块,粘贴以下代码:

Function ExtractCN(str As String) As String
  Dim i As Long, c As String
  For i = 1 To Len(str)
    c = Mid(str, i, 1)
    If AscW(c) >= 19968 And AscW(c)   Next
End Function

  • 在单元格中直接使用:=ExtractCN(A1)
  • AscW可正确识别Unicode汉字,比Asc更可靠
  • 注意:启用宏的工作簿需保存为.xlsm格式;Mac版Excel不支持AscW