女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

字符串替換研究

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-04-02 14:58 ? 次閱讀

一、背景

需求非常簡單,給定一組關鍵詞,需要將商品名稱中出現過的關鍵字替換掉;

如:skuName="HUAWEI Pura 70 Pro 國家補貼500元 羽砂黑 12GB+512GB 超高速風馳閃拍 華為鴻蒙智能手機" 需要替換成

skuName="HUAWEI Pura 70 Pro 羽砂黑 12GB+512GB 超高速風馳閃拍 華為鴻蒙智能手機" 這里的關鍵字"國家補貼500元";

直接skuName.replace("國家補貼500元", ""),不就可以了嗎?如果是一組,那就循環替換就完了嘛,再考慮到關鍵字前綴問題,對這一組關鍵詞,按字符長度進行排序,先替換長的關鍵詞,再替換短的就ok了;

如果這一組關鍵詞非常多,上千個怎么辦?真實場景也是這樣的,一般需要替換的關鍵詞都是比較多,并且使用String.replace上線后,直接CPU打滿,基本不可用;

這個字段替換本質上與敏感詞過濾是一樣的原理,針對敏感詞的深入研究,出現了 Aho-Corasick(AC自動機) 算法

Aho-Corasick(AC自動機)是一種多模式字符串匹配算法,結合了Trie樹的前綴匹配能力和KMP算法的失敗跳轉思想,能夠在單次文本掃描中高效匹配多個模式串。其核心優勢在于時間復雜度為O(n + m + z)(n為文本長度,m為模式串總長度,z為匹配次數),適用于敏感詞過濾、基因序列分析等場景。

?

二、方案

針對這幾種算法進行對比;

字符串替換,定義一個接口,通過4個不同的方案實現,進行性能對比

public interface Replacer {
    String replaceKeywords(String text);
}

2.1 String.replace 方案

這種方案最簡單,也是關鍵詞少的時候,最有效,最好用的;

public class StrReplacer implements Replacer {
    private final List keyWordList;
    public StrReplacer(String keyWords) {
        this.keyWordList = Lists.newArrayList(keyWords.split(";"));
        // 按關鍵字長度降序排序,確保長關鍵字優先匹配
        keyWordList.sort((a, b) -> Integer.compare(b.length(), a.length()));
    }
    /**
    * 替換文本中所有匹配的關鍵字為空字符串
    */
    @Override
    public String replaceKeywords(String text) {
        String newTxt = text;
        for (String s : keyWordList) {
            newTxt = newTxt.replace(s, "");
        }
        return newTxt;
    }
}

2.2 使用正則替換

String.replace本質,還是使用正則進行替換的,通過代碼實現使用編譯好的正則進行替換性能會好于直接使用replace;

String.replace的實現

public String replace(CharSequence target, CharSequence replacement) {
    return Pattern.compile(target.toString(), Pattern.LITERAL).matcher(
            this).replaceAll(Matcher.quoteReplacement(replacement.toString()));
}

使用正則替換的實現

public class PatternReplacer implements Replacer {
    // 預編譯正則表達式模式
    private final Pattern pattern;
    public PatternReplacer(String keyWords) {
        List keywords = Lists.newArrayList(keyWords.split(";"));
        // 按關鍵字長度降序排序,確保長關鍵字優先匹配
        keywords.sort((a, b) -> Integer.compare(b.length(), a.length()));
        // 轉義每個關鍵字并用|連接
        String regex = keywords.stream()
                .map(Pattern::quote)
                .collect(Collectors.joining("|"));

        this.pattern = Pattern.compile(regex);
    }

    // 替換方法
    @Override
    public String replaceKeywords(String skuName) {
        return pattern.matcher(skuName).replaceAll("");
    }
}

2.3 使用Aho-Corasick(AC自動機) 算法實現

java中已有現成的算法實現,源代碼github-robert-bor/aho-corasick,?

引入jar包


    org.ahocorasick
    ahocorasick
    0.6.3

基于 Aho-Corasick 算法的字符串替換實現

public class AhoCorasickReplacer implements Replacer {
    private final Trie trie;
    public AhoCorasickReplacer(String keyWords) {
        // 構建Aho-Corasick自動機
        Trie.TrieBuilder builder = Trie.builder().ignoreOverlaps().onlyWholeWords();
        //trie.caseInsensitive();
        //trie.onlyWholeWords();
        for (String s : keyWords.split(";")) {
            builder.addKeyword(s);
        }
        this.trie = builder.build();
    }
    /**
     * 替換文本中所有匹配的關鍵字為空字符串
     */
    @Override
    public String replaceKeywords(String text) {
        if (text == null || text.isEmpty()) {
            return text;
        }
        StringBuilder result = new StringBuilder();
        Collection emits = trie.parseText(text); // 獲取所有匹配結果
        int lastEnd = 0;
        for (Emit emit : emits) {
            int start = emit.getStart();
            int end = emit.getEnd();

            // 添加未匹配的前綴部分
            if (start > lastEnd) {
                result.append(text, lastEnd, start);
            }
            // 跳過匹配的關鍵字(即替換為空)
            lastEnd = end + 1; // 注意:end是閉區間,需+1移動到下一個字符
        }
        // 添加剩余未匹配的后綴部分
        if (lastEnd <= text.length() - 1) {
            result.append(text.substring(lastEnd));
        }
        return result.toString();
    }
}

2.4 自己實現Trie樹算法實現

通過deepseek等人工智能,是非常容易自己實現一個Trie樹,我們就只實現字符串替換的功能,其他的就不使用了;

Trie樹,又叫字典樹,前綴樹(Prefix Tree),單詞查找樹,是一種多叉樹的結構.

wKgZO2fs3_-AbLcgAAFcXyyz9_Y318.png

結構說明: 表示根節點(空節點)

每個節點表示一個字符

粉色節點表示單詞結束標記(使用 CSS class 實現)

路徑示例:

root → c → a → t 組成 "cat"

root → c → a → r 組成 "car"

root → d → o → g 組成 "dog"

public class TrieKeywordReplacer implements Replacer {

    private final Trie trie;

    @Override
    public String replaceKeywords(String text) {
        return trie.replaceKeywords(text, "");
    }

    public TrieKeywordReplacer(String keyWords) {
        Trie trie = new Trie();
        for (String s : keyWords.split(";")) {
            trie.insert(s);
        }
        this.trie = trie;
    }

    static class TrieNode {
        Map children;
        boolean isEndOfWord;

        public TrieNode() {
            children = new HashMap();
            isEndOfWord = false;
        }
    }

    static class Trie {
        private TrieNode root;

        public Trie() {
            root = new TrieNode();
        }

        private synchronized void insert(String word) {
            TrieNode node = root;
            for (char c : word.toCharArray()) {
                if (node.children.get(c) == null) {
                    node.children.put(c, new TrieNode());
                }
                node = node.children.get(c);
            }
            node.isEndOfWord = true;
        }

        public String replaceKeywords(String text, String replacement) {
            StringBuilder result = new StringBuilder();
            int i = 0;
            while (i < text.length()) {
                TrieNode node = root;
                int j = i;
                TrieNode endNode = null;
                int endIndex = -1;
                while (j < text.length() && node.children.get(text.charAt(j)) != null) {
                    node = node.children.get(text.charAt(j));
                    if (node.isEndOfWord) {
                        endNode = node;
                        endIndex = j;
                    }
                    j++;
                }
                if (endNode != null) {
                    result.append(replacement);
                    i = endIndex + 1;
                } else {
                    result.append(text.charAt(i));
                    i++;
                }
            }
            return result.toString();
        }
    }
}

4個實現類對象的大小對比

對象大小
StrReplacer 12560
PatternReplacer 21592
TrieKeywordReplacer 184944
AhoCorasickReplacer 253896

性能對比

說明:待替換一組關鍵詞共 400個;JDK1.8

StrReplacer PatternReplacer TrieKeywordReplacer AhoCorasickReplacer
單線程循環1w次,平均單次性能(ns) 21843ns 28846ns 532ns 727ns
名稱中只有1個待替換的關鍵詞,2個并發線程,循環1w次,平均單次性能(ns),機器 CPU 30%左右 23444ns 39984ns 680ns 1157ns
名稱中只有20待替換的關鍵詞,2個并發線程,循環1w次,平均單次性能(ns),機器 CPU 30%左右 252738ns 114740ns 33900ns 113764ns
名稱中只有無待替換的關鍵詞,2個并發線程,循環1w次,平均單次性能(ns),機器 CPU 30%左右 22248ns 9253ns 397ns 738ns

?

通過性能對比,自己實現的Trie樹的性能是最好的,因為只做了替換的邏輯,沒有實現其他功能,其次是使用AhoCorasick算法,因為使用 AhoCorasick算法,實現字符串替換是最基本的功能,AhoCorasick算法,還能精準的匹配到在什么地方,出現過多少次等信息,功能非常強大;

通過對比編譯好的正則性能確實是比使用原生String.replace;

public class ReplacerTest {

    @Test
    public void testTrieKeywordReplacer(){
        //String name = skuName;
        //String expected = v2;
        //String name = "三星Samsung Galaxy S25+ 超擬人AI助理 驍龍8至尊版 AI拍照 翻譯手機 游戲手機 12GB+256GB 冷川藍";
        //String expected = name;

        String name = keyWords;
        String expected = v1;
        int cnt = 2;
        Replacer replacer = new TrieKeywordReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }
    }

    @Test
    public void 替換所有關鍵字() throws InterruptedException {
        //String name = skuName;
        //String expected = v2;
        //String name = "三星Samsung Galaxy S25+ 超擬人AI助理 驍龍8至尊版 AI拍照 翻譯手機 游戲手機 12GB+256GB 冷川藍";
        //String expected = name;

        String name = keyWords;
        String expected = v1;

        int cnt = 2;
        System.out.println("替換:" + name);
        Replacer replacer = new StrReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }


        replacer = new PatternReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }

        replacer = new TrieKeywordReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }

        replacer = new AhoCorasickReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }



    }


    @Test
    public void 無關鍵字替換() throws InterruptedException {
        //String name = skuName;
        //String expected = v2;
        String name = "三星Samsung Galaxy S25+ 超擬人AI助理 驍龍8至尊版 AI拍照 翻譯手機 游戲手機 12GB+256GB 冷川藍";
        String expected = name;

        //String name = keyWords;
        //String expected = v1;

        int cnt = 1;
        System.out.println("替換:" + name);
        Replacer replacer = new StrReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }


        replacer = new PatternReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }

        replacer = new TrieKeywordReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }

        replacer = new AhoCorasickReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }



    }

    @Test
    public void 有1個關鍵字替換() throws InterruptedException {
        //String name = skuName;
        //String expected = v2;
        //String name = "三星Samsung Galaxy S25+ 超擬人AI助理 驍龍8至尊版 AI拍照 翻譯手機 游戲手機 12GB+256GB 冷川藍";
        //String expected = name;

        //String name = keyWords;
        //String expected = v1;

        String name = "HUAWEI Pura 70 Pro 國家補貼500元 羽砂黑 12GB+512GB 超高速風馳閃拍 華為鴻蒙智能手機";
        String expected = "HUAWEI Pura 70 Pro 500元 羽砂黑 12GB+512GB 超高速風馳閃拍 華為鴻蒙智能手機";

        int cnt = 1;
        System.out.println("替換:" + name);
        Replacer replacer = new StrReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }


        replacer = new PatternReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }

        replacer = new TrieKeywordReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }

        replacer = new AhoCorasickReplacer(keyWords);
        check(replacer, name, expected);
        for (int i = 0; i < cnt; i++) {
            checkExec(replacer, name);
        }



    }


    static void check(Replacer replacer, String name, String expected) {
        System.out.println(replacer.getClass().getName()+",對象大小:"+ObjectSizeCalculator.getObjectSize(replacer));
        String newTxt = replacer.replaceKeywords(name);
        //System.out.println(newTxt);
        Assert.assertEquals(replacer.getClass().getName() + ",對比不一致!", expected, newTxt);
    }


    void checkExec(Replacer replacer, String name) {
        String newTxt = replacer.replaceKeywords(name);
        int nThreads  = 2;
        ExecutorService executorService = Executors.newFixedThreadPool(nThreads);
        CountDownLatch downLatch = new CountDownLatch(nThreads);
        int i = 0;
        while (i++ < nThreads) {
            executorService.submit(new Runnable() {
                @Override
                public void run() {
                    int i = 0;
                    long ns = System.nanoTime();
                    while (i++ < 100000) {
                        replacer.replaceKeywords(name);
                    }
                    String name = replacer.getClass().getName();
                    downLatch.countDown();
                    System.out.println(StringUtils.substring(name, name.length() - 50, name.length()) + "ti=" + i + ", t耗時:" + (System.nanoTime() - ns) / i + "ns");
                }
            });
        }
        executorService.shutdown();
        try {
            downLatch.await();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

最后

1、使用現成的AhoCorasick算法進行實現,是性能與穩定性最優的選擇,非常強調性能,還是可以自己實現Trie樹來實現;

2、在真實的使用過程中,因為大部分的商品名稱最多出現幾個關鍵詞,并且待替換的關鍵詞往往都是比較多的,可以將這么關鍵詞找出找出幾個有代表性能的詞,做前置判斷,商品名稱中是否存在;再進行全量替換;

如待替換的關鍵詞有:政府補貼、國補、支持國補; 那么我們并不是直接就循環這個待替換的關鍵詞組,而是找出這么關鍵詞中都有的關鍵字”補”先判斷商品名稱中是否存在“補”字后,再做處理; 這里的前置判斷,還可以使用布隆過濾器實現;


public String replaceKeywords (String skuName){
    Replacer replacer = new AhoCorasickReplacer(keyWords);
    if(skuName.contains("補")){
        return  replacer.replaceKeywords(skuName);
    } else {
        return skuName;
    }
}

參考

- [1] Aho-Corasick 算法 AC自動機實現?

- [2] Trie字典樹?

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4698

    瀏覽量

    94740
  • 字符串
    +關注

    關注

    1

    文章

    589

    瀏覽量

    21109
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    字符串在數據庫中的存儲方式

    數據庫是現代信息技術中存儲和管理數據的核心組件。字符串作為最常見的數據類型之一,在數據庫中的存儲方式對其性能和可擴展性有著重要影響。 數據類型 固定長度字符串 :如CHAR類型,它為每個字符串分配
    的頭像 發表于 01-07 15:41 ?698次閱讀

    字符串在編程中的應用實例

    字符串在編程中有著廣泛的應用,它們被用于表示文本數據、處理用戶輸入、構建動態內容等。以下是一些字符串在編程中的應用實例: 1. 用戶輸入與輸出 用戶輸入 :程序通常需要從用戶那里獲取輸入,這些輸入通
    的頭像 發表于 01-07 15:33 ?606次閱讀

    字符串字符數組的區別

    在編程語言中,字符串字符數組是兩種基本的數據結構,它們都用于存儲和處理文本數據。盡管它們在功能上有一定的重疊,但在內部表示、操作方式和使用場景上存在顯著差異。 1. 內部表示 字符串 字符串
    的頭像 發表于 01-07 15:29 ?989次閱讀

    字符串反轉的實現方式

    在編程中,字符串反轉是一個基礎而重要的操作,它涉及到將一個字符串中的字符順序顛倒過來。這個操作在多種編程語言中都有不同的實現方式,本文將探討幾種常見的字符串反轉方法。 1. 遞歸方法
    的頭像 發表于 01-07 15:27 ?699次閱讀

    字符串處理方法 字符串轉數字的實現

    在編程中,將字符串轉換為數字是一個常見的需求。不同的編程語言有不同的方法來實現這一功能。以下是一些常見編程語言中的字符串轉數字的實現方法: Python 在Python中,可以使用內置的 int
    的頭像 發表于 01-07 15:26 ?749次閱讀

    字符串處理:4G模組軟件指南精要!

    最近一直有朋友咨詢我關于4G模組的字符串處理,今天我便把相關指南展示給大家。
    的頭像 發表于 11-17 09:57 ?477次閱讀
    <b class='flag-5'>字符串</b>處理:4G模組軟件指南精要!

    base64字符串轉換為二進制文件

    Base64是一種編碼方法,用于將二進制數據轉換為ASCII字符串。這種編碼通常用于在不支持二進制數據的系統中傳輸數據,例如電子郵件或網頁。將Base64字符串轉換為二進制文件的過程相對簡單,但需要
    的頭像 發表于 11-10 10:55 ?2653次閱讀

    鴻蒙原生應用元服務開發-倉頡基礎數據類型字符串類型

    。{} 中可以包含一個或者多個聲明或表達式。 當插值字符串求值時,每個插值表達式所在位置會被 {} 中的最后一項的值替換,整個插值字符串最終仍是一個字符串。 下面是插值
    發表于 09-18 10:43

    MATLAB(5)--字符串處理

    s1和s2前n個字符串是否相等,如果相等,返回結果為1,否則返回0。 字符串的查找與替換 findstr(s1,s2):返回短字符串在長字符串
    發表于 09-06 10:22

    labview字符串數組轉化為數值數組

    在LabVIEW中,將字符串數組轉換為數值數組是一項常見的任務,尤其是在處理數據采集、信號處理或用戶輸入時。 1. 理解LabVIEW的數據類型 在開始之前,了解LabVIEW中的數據類型是非
    的頭像 發表于 09-04 17:47 ?4862次閱讀

    labview字符串如何轉換為16進制字符串

    在LabVIEW中,將字符串轉換為16進制字符串是一個常見的需求,尤其是在處理數據通信和硬件接口時。LabVIEW提供了多種方法來實現這一轉換,包括使用內置函數、編寫VI(Virtual
    的頭像 發表于 09-04 15:54 ?4673次閱讀

    labview中如何實現字符串換行

    1. 字符串換行的基本概念 在LabVIEW中,字符串換行通常指的是在字符串中插入換行符,使得字符串在顯示或輸出時能夠自動換行。這在創建用戶界面或處理文本數據時非常有用。 2.
    的頭像 發表于 09-04 15:47 ?3444次閱讀

    labview中如何實現字符串選擇輸出

    在LabVIEW中實現字符串選擇輸出是一項常見的任務,它涉及到字符串處理、條件判斷和用戶界面設計等多個方面。由于LabVIEW是一種圖形化編程語言,其編程方式與傳統的文本編程語言有所不同,因此實現
    的頭像 發表于 09-04 15:44 ?2004次閱讀

    labview中常用的字符串函數有哪些?

    在LabVIEW中,常用的字符串函數廣泛覆蓋了對字符串的各種操作,包括但不限于格式化、搜索、替換、連接、計算長度等。以下是一些常用的字符串函數及其簡要說明:
    的頭像 發表于 09-04 15:43 ?1668次閱讀

    labview字符串的四種表示各有什么特點

    。在LabVIEW中,字符串是一種基本的數據類型,用于表示文本信息。字符串在LabVIEW中有多種表示方式,每種方式都有其特定的應用場景和特點。以下是對LabVIEW中四種字符串表示方式的分析: 1.
    的頭像 發表于 09-04 15:40 ?1239次閱讀