ueditor字符串空格替换的问题

ueditor 在线编辑器

admin 发布于：2018-05-18 14:00:41

阅读：loading

本站使用的ueditor编辑器，目前所有的内容存储的为html标签格式的数据，现在想专门再存储一下纯文本字段用于搜索使用，故有以下两种方式：

1）数据库存储的有纯文本，只不过只存储了250个字符长度的数据，将数据库长度扩充，去掉250个长度字符的限制，所有的数据均通过页面重新点击编辑保存，重新存储数据；

2）使用类似Jsoup等html解析组件将数据库存储的html标签数据解析，获取其纯文本后执行update；

显然第二种方式更靠谱，更是专业编码人员的首选，此为背景，在解析html的纯文本时发现文字内容前面有些许空白字符，想去除这些空白字符就有了本篇文章；

这些个空白字符串非常顽强，将它文字前面的空格给替换掉，发现死活替换不了，分别使用了String的replace、replaceAll的\s等正则与apache的StringUtils的deleteWhitespace、trim、strip等等发现均不好使，正当纳闷的时候突然想起来昨天看百度ueditor的getContextTxt函数（获取编辑器中内容的纯文本）的实现时用到了几个unicode编码字符的替换，将几个字符替换为空白，终于找到了解决的办法。

ueditor的获取纯文本的实现：

通过查看代码不难看出，它的获取纯文本的方式为根据浏览器类型获取其对应的innerText（textContent）文本，然后再使用两个replace替换，替换的数据参考如下图：