日本熟妇在线观看中文,黄色视频免费国产

6000+字講透ElasticSearch 索引設(shè)計

ElasticSearch 索引設(shè)計

在MySQL中數(shù)據(jù)庫設(shè)計非常重要，同樣在ES中數(shù)據(jù)庫設(shè)計也是非常重要的

概述

我們創(chuàng)建索引就像創(chuàng)建表結(jié)構(gòu)一樣，必須非常慎重的，索引如果創(chuàng)建不好后面會出現(xiàn)各種各樣的問題

索引設(shè)計的重要性

索引創(chuàng)建后，索引的分片只能通過_split和_shrink接口對其進行成倍的增加和縮減

主要是因為es的數(shù)據(jù)是通過_routing分配到各個分片上面的，所以本質(zhì)上是不推薦去改變索引的分片數(shù)量的，因為這樣都會對數(shù)據(jù)進行重新的移動。

還有就是索引只能新增字段，不能對字段進行修改和刪除，缺乏靈活性，所以每次都只能通過_reindex重建索引了，還有就是一個分片的大小以及所以分片數(shù)量的多少嚴重影響到了索引的查詢和寫入性能，所以可想而知，設(shè)計一個好的索引能夠減少后期的運維管理和提高不少性能，所以前期對索引的設(shè)計是相當?shù)闹匾摹?br>
基于時間的Index設(shè)計

Index設(shè)計時要考慮的第一件事，就是基于時間對Index進行分割，即每隔一段時間產(chǎn)生一個新的Index

這樣設(shè)計的目的

因為現(xiàn)實世界的數(shù)據(jù)是隨著時間的變化而不斷產(chǎn)生的，切分管理可以獲得足夠的靈活性和更好的性能

如果數(shù)據(jù)都存儲在一個Index中，很難進行擴展和調(diào)整，因為Elasticsearch中Index的某些設(shè)置在創(chuàng)建時就設(shè)定好了，是不能更改的，比如Primary Shard的個數(shù)。

而根據(jù)時間來切分Index，則可以實現(xiàn)一定的靈活性，既可以在數(shù)據(jù)量過大時及時調(diào)整Shard個數(shù)，也可以及時響應(yīng)新的業(yè)務(wù)需求。

大多數(shù)業(yè)務(wù)場景下，客戶對數(shù)據(jù)的請求都會命中在最近一段時間上，通過切分Index，可以盡可能的避免掃描不必要的數(shù)據(jù)，提高性能。

時間間隔

根據(jù)上面的分析，自然是時間越短越能保持靈活性，但是這樣做就會導(dǎo)致產(chǎn)生大量的Index，而每個Index都會消耗資源來維護其元信息的，因此需要在靈活性、資源和性能上做權(quán)衡

常見的間隔有小時、天、周和月：先考慮總共要存儲多久的數(shù)據(jù)，然后選一個既不會產(chǎn)生大量Index又能夠滿足一定靈活性的間隔，比如你需要存儲6個月的數(shù)據(jù)，那么一開始選擇“周”這個間隔就會比較合適。

考慮業(yè)務(wù)增長速度：假如業(yè)務(wù)增長的特別快，比如上周產(chǎn)生了1億數(shù)據(jù)，這周就增長到了10億，那么就需要調(diào)低這個間隔來保證有足夠的彈性能應(yīng)對變化。

如何實現(xiàn)分割

切分行為是由客戶端（數(shù)據(jù)的寫入端）發(fā)起的，根據(jù)時間間隔與數(shù)據(jù)產(chǎn)生時間將數(shù)據(jù)寫入不同的Index中，為了易于區(qū)分，會在Index的名字中加上對應(yīng)的時間標識

創(chuàng)建新Index這件事，可以是客戶端主動發(fā)起一個創(chuàng)建的請求，帶上具體的Settings、Mappings等信息，但是可能會有一個時間錯位，即有新數(shù)據(jù)寫入時新的Index還沒有建好，Elasticsearch提供了更優(yōu)雅的方式來實現(xiàn)這個動作，即Index Template

分片設(shè)計

所謂分片設(shè)計，就是如何設(shè)定主分片的個數(shù)

看上去只是一個數(shù)字而已，也許在很多場景下，即使不設(shè)定也不會有問題（ES7默認是1個主分片一個副本分片），但是如果不提前考慮，一旦出問題就可能導(dǎo)致系統(tǒng)性能下降、不可訪問、甚至無法恢復(fù)，換句話說，即使使用默認值，也應(yīng)該是通過足夠的評估后作出的決定，而非拍腦袋定的。

限制分片大小

單個Shard的存儲大小不超過30GB

Elastic專家根據(jù)經(jīng)驗總結(jié)出來大家普遍認為30GB是個合適的上限值，實踐中發(fā)現(xiàn)單個Shard過大（超過30GB）會導(dǎo)致系統(tǒng)不穩(wěn)定。

其次，為什么不能超過30GB？主要是考慮Shard Relocate過程的負載，我們知道，如果Shard不均衡或者部分節(jié)點故障，Elasticsearch會做Shard Relocate，在這個過程中會搬移Shard，如果單個Shard過大，會導(dǎo)致CPU、IO負載過高進而影響系統(tǒng)性能與穩(wěn)定性。

評估分片數(shù)量

單個Index的Primary Shard個數(shù) = k * 數(shù)據(jù)節(jié)點個數(shù)

在保證第一點的前提下，單個Index的Primary Shard個數(shù)不宜過多，否則相關(guān)的元信息與緩存會消耗過多的系統(tǒng)資源，這里的k，為一個較小的整數(shù)值，建議取值為1,2等，整數(shù)倍的關(guān)系可以讓Shard更好地均勻分布，可以充分的將請求分散到不同節(jié)點上。

小索引設(shè)計

對于很小的Index，可以只分配1~2個Primary Shard的

有些情況下，Index很小，也許只有幾十、幾百MB左右，那么就不用按照第二點來分配了，只分配1~2個Primary Shard是可以，不用糾結(jié)。

使用索引模板

就是把已經(jīng)創(chuàng)建好的某個索引的參數(shù)設(shè)置(settings)和索引映射(mapping)保存下來作為模板，在創(chuàng)建新索引時，指定要使用的模板名，就可以直接重用已經(jīng)定義好的模板中的設(shè)置和映射

Elasticsearch基于與索引名稱匹配的通配符模式將模板應(yīng)用于新索引，也就是說通過索引進行匹配，看看新建的索引是否符合索引模板，如果符合，就將索引模板的相關(guān)設(shè)置應(yīng)用到新的索引，如果同時符合多個索引模板呢，這里需要對參數(shù)priority進行比較，這樣會選擇priority大的那個模板進行創(chuàng)建索引。

在創(chuàng)建索引模板時，如果匹配有包含的關(guān)系，或者相同，則必須設(shè)置priority為不同的值，否則會報錯，索引模板也是只有在新創(chuàng)建的時候起到作用，修改索引模板對現(xiàn)有的索引沒有影響，同樣如果在索引中設(shè)置了一些設(shè)置或者mapping都會覆蓋索引模板中相同的設(shè)置或者mapping

索引模板的用途

索引模板一般用在時間序列相關(guān)的索引中。

也就是說, 如果你需要每間隔一定的時間就建立一次索引，你只需要配置好索引模板，以后就可以直接使用這個模板中的設(shè)置，不用每次都設(shè)置settings和mappings.

創(chuàng)建索引模板

COPYPUT _index_template/logstash-village
{
"index_patterns": [
    "logstash-village-*" // 可以通過"logstash-village-*"來適配創(chuàng)建的索引
],
"template": {
    "settings": {
      "number_of_shards": "3", //指定模板分片數(shù)量
      "number_of_replicas": "2" //指定模板副本數(shù)量
    },
    "aliases": {
      "logstash-village": {} //指定模板索引別名
    },
    "mappings": {   //設(shè)置映射
      "dynamic": "strict", //禁用動態(tài)映射
      "properties": {
        "@timestamp": {
          "type": "date",
           "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
        },
        "@version": {
          "doc_values": false,
          "index": "false",
          "type": "integer"
        },
        "name": {
          "type": "keyword"
        },
        "province": {
          "type": "keyword"
        },
        "city": {
          "type": "keyword"
        },
        "area": {
          "type": "keyword"
        },
        "addr": {
          "type": "text",
          "analyzer": "ik_smart"
        },
        "location": {
          "type": "geo_point"
        },
        "property_type": {
          "type": "keyword"
        },
        "property_company": {
          "type": "text",
          "analyzer": "ik_smart"
        },
        "property_cost": {
          "type": "float"
        },
        "floorage": {
          "type": "float"
        },
        "houses": {
          "type": "integer"
        },
        "built_year": {
          "type": "integer"
        },
        "parkings": {
          "type": "integer"
        },
        "volume": {
          "type": "float"
        },
        "greening": {
          "type": "float"
        },
        "producer": {
          "type": "keyword"
        },
        "school": {
          "type": "keyword"
        },
        "info": {
          "type": "text",
          "analyzer": "ik_smart"
        }
      }
    }
}
}

模板參數(shù)

下面是創(chuàng)建索引模板的一些參數(shù)

參數(shù)名稱    參數(shù)介紹

index_patterns 必須配置，用于在創(chuàng)建期間匹配索引名稱的通配符（*）表達式數(shù)組
template 可選配置，可以選擇包括別名、映射或設(shè)置配置
composed_of 可選配置，組件模板名稱的有序列表。組件模板按指定的順序合并，這意味著最后指定的組件模板具有最高的優(yōu)先級
priority 可選配置，創(chuàng)建新索引時確定索引模板優(yōu)先級的優(yōu)先級。選擇具有最高優(yōu)先級的索引模板。如果未指定優(yōu)先級，則將模板視為優(yōu)先級為0（最低優(yōu)先級）
version 可選配置，用于外部管理索引模板的版本號
_meta 可選配置，關(guān)于索引模板的可選用戶元數(shù)據(jù)，可能有任何內(nèi)容
映射配置

上面我們配置了映射模板，但是我們用到了映射，下面我們說下映射

什么是映射

在創(chuàng)建索引時，可以預(yù)先定義字段的類型（映射類型）及相關(guān)屬性

數(shù)據(jù)庫建表的時候，我們DDL依據(jù)一般都會指定每個字段的存儲類型，例如：varchar、int、datetime等，目的很明確，就是更精確的存儲數(shù)據(jù)，防止數(shù)據(jù)類型格式混亂，在Elasticsearch中也是這樣，創(chuàng)建索引的時候一般也需要指定索引的字段類型，這種方式稱為映射（Mapping）

被動創(chuàng)建（動態(tài)映射）

此時字段和映射類型不需要事先定義，只需要存在文檔的索引，當向此索引添加數(shù)據(jù)的時候當遇到不存在的映射字段，ES會根據(jù)數(shù)據(jù)內(nèi)容自動添加映射字段定義。

動態(tài)映射規(guī)則

使用動態(tài)映射的時候，根據(jù)傳遞請求數(shù)據(jù)的不同會創(chuàng)建對應(yīng)的數(shù)據(jù)類型

數(shù)據(jù)類型 Elasticsearch 數(shù)據(jù)類型
null 不添加任何字段
true或者false boolean類型
浮點數(shù)據(jù) float類型
integer數(shù)據(jù) long類型
object object類型
array 取決于數(shù)組中的第一個非空值的類型。
string 如果此內(nèi)容通過了日期格式檢測，則會被認為是date數(shù)據(jù)類型如果此值通過了數(shù)值類型檢測則被認為是double或者long數(shù)據(jù)類型帶有關(guān)鍵字子字段會被認為一個text字段
禁止動態(tài)映射

一般生產(chǎn)環(huán)境下需要禁用動態(tài)映射，使用動態(tài)映射可能出現(xiàn)以下問題

造成集群元數(shù)據(jù)一直變更，導(dǎo)致不穩(wěn)定；

可能造成數(shù)據(jù)類型與實際類型不一致；

如何禁用動態(tài)映射，動態(tài)mapping的dynamic字段進行配置，可選值及含義如下

true：支持動態(tài)擴展，新增數(shù)據(jù)有新的字段屬性時，自動添加對于的mapping，數(shù)據(jù)寫入成功
false：不支持動態(tài)擴展，新增數(shù)據(jù)有新的字段屬性時，直接忽略，數(shù)據(jù)寫入成功
strict：不支持動態(tài)擴展，新增數(shù)據(jù)有新的字段時，報錯，數(shù)據(jù)寫入失敗
主動創(chuàng)建（顯示映射）

動態(tài)映射只能保證最基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)的映射

所以很多時候我們需要對字段除了數(shù)據(jù)結(jié)構(gòu)定義更多的限制的時候，動態(tài)映射創(chuàng)建的內(nèi)容很可能不符合我們的需求，所以可以使用PUT {index}/mapping來更新指定索引的映射內(nèi)容。

映射類型

我們要創(chuàng)建映射必須還要知道映射類型，否則就會走默認的映射類型，下面我們看看常用的映射類型

準備工作

我們先創(chuàng)建一個用于測試映射類型的索引

COPYPUT mapping_demo

字符串類型

字符串類型是我們最常用的類型之一，我們操作的時候字符串類型可以被設(shè)置為以下幾種類型

text

當一個字段是要被全文搜索的，比如Email內(nèi)容、產(chǎn)品描述，應(yīng)該使用text類型，text類型會被分詞

設(shè)置text類型以后，字段內(nèi)容會被分詞，在生成倒排索引以前，字符串會被分析器分成一個一個詞項，text類型的字段不用于排序，很少用于聚合

keyword

keyword類型不會被分詞，常用于關(guān)鍵字搜索，比如姓名、email地址、主機名、狀態(tài)碼和標簽等

如果字段需要進行過濾(比如查姓名是張三發(fā)布的博客)、排序、聚合，keyword類型的字段只能通過精確值搜索到，常常被用來過濾、排序和聚合

兩者區(qū)別

它們的區(qū)別在于text會對字段進行分詞處理而keyword則不會進行分詞

也就是說如果字段是text類型，存入的數(shù)據(jù)會先進行分詞，然后將分完詞的詞組存入索引，而keyword則不會進行分詞，直接存儲，這樣劃分數(shù)據(jù)更加節(jié)省內(nèi)存。

使用案例

我們先創(chuàng)建一個映射，name是keyword類型，描述是text類型的

COPYPUT mapping_demo/_mapping
{
"properties": {
    "name": {
        "type": "keyword"
     },
      "city": {
        "type": "text",
        "analyzer": "ik_smart"
     }
}
}
插入數(shù)據(jù)

COPYPUT mapping_demo/_doc/1
{
"name":"北京小區(qū)",
"city":"北京市昌平區(qū)回龍觀街道"
}

對于keyword的name字段進行精確查詢

COPYGET mapping_demo/_search
{
"query": {
    "term": {
      "name": "北京小區(qū)"
    }
}
}

對于text的city進行模糊查詢

COPYGET mapping_demo/_search
{
"query": {
    "term": {
      "city": "北京市"
    }
}
}
數(shù)字類型

數(shù)字類型也是我們最常用的類型之一，下面我們看下數(shù)字類型的使用

類型    取值范圍

long -263 ~ 263
integer -231 ~ 231
short -215 ~ 215
byte -27 ~ 27
double 64位的雙精度 IEEE754 浮點類型
float 32位的雙精度 IEEE754 浮點類型
half_float 16位的雙精度 IEEE754 浮點類型
scaled_float 縮放類型的浮點類型
注意事項

在滿足需求的情況下，優(yōu)先使用范圍小的字段，字段長度越小，索引和搜索的效率越高。

日期類型

JSON表示日期

JSON沒有表達日期的數(shù)據(jù)類型，所以在ES里面日期只能是下面其中之一

格式化的日期字符串，比如："2015-01-01" or "2015/01/01 12:10:30"

用數(shù)字表示的從新紀元開始的毫秒數(shù)

用數(shù)字表示的從新紀元開始的秒數(shù)（epoch_second）

注意點：毫秒數(shù)的值是不能為負數(shù)的，如果時間在1970年以前，需要使用格式化的日期表達

ES如何處理日期

在ES的內(nèi)部，時間會被轉(zhuǎn)換為UTC時間（如果聲明了時區(qū)）并使用從新紀元開始的毫秒數(shù)的長整形數(shù)字類型的進行存儲，在日期字段上的查詢，內(nèi)部將會轉(zhuǎn)換為使用長整形的毫秒進行范圍查詢，根據(jù)與字段關(guān)聯(lián)的日期格式，聚合和存儲字段的結(jié)果將轉(zhuǎn)換回字符串

注意點：日期最終都會作為字符串呈現(xiàn)，即使最開始初始化的時候是利用JSON文檔的long聲明的

默認日期格式

日期的格式可以被定制化的，如果沒有聲明日期的格式，它將會使用默認的格式：

COPY"strict_date_optional_time||epoch_millis"

這意味著它將會接收帶時間戳的日期，它將遵守strict_date_optional_time限定的格式（yyyy-MM-dd'T'HH:mm:ss.SSSZ 或者 yyyy-MM-dd）或者毫秒數(shù)

日期格式示例

COPYPUT mapping_demo/_mapping
{
"properties": {
    "datetime": {
        "type": "date",
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
     }
}
}
# 添加數(shù)據(jù)
PUT mapping_demo/_doc/2
{
"name":"河北區(qū)",
"city":"河北省小區(qū)",
"datetime":"2022-02-21 11:35:42"
}
日期類型參數(shù)

下面表格里的參數(shù)可以用在date字段上面
參數(shù)    說明

doc_values 該字段是否按照列式存儲在磁盤上以便于后續(xù)進行排序、聚合和腳本操作，可配置 true（默認）或 false
format 日期的格式
locale 解析日期中時使用了本地語言表示月份時的名稱和/或縮寫，默認是 ROOT locale
ignore_malformed 如果設(shè)置為true，則奇怪的數(shù)字就會被忽略，如果是false（默認）奇怪的數(shù)字就會導(dǎo)致異常并且該文檔將會被拒絕寫入。需要注意的是，如果在腳本參數(shù)中使用則該屬性不能被設(shè)置
index 該字段是否能快速的被查詢，默認是true。date類型的字段只有在doc_values設(shè)置為true時才能被查詢，盡管很慢。
null_value 替代null的值，默認是null
on_script_error 定義在腳本中如何處理拋出的異常，fail（默認）則整個文檔會被拒絕索引，continue：繼續(xù)索引
script 如果該字段被設(shè)置，則字段的值將會使用該腳本產(chǎn)生，而不是直接從source里面讀取。
store true or false(默認)是否在 _source 之外在獨立存儲一份
布爾類型

boolean類型用于存儲文檔中的true/false

范圍類型

顧名思義，范圍類型字段中存儲的內(nèi)容就是一段范圍，例如年齡30-55歲，日期在2020-12-28到2021-01-01之間等

類型范圍

es中有六種范圍類型：

integer_range

float_range

long_range

double_range

date_range

ip_range

使用實例

COPYPUT mapping_demo/_mapping
{
"properties": {
    "age_range": {
        "type": "integer_range"
     }
}
}

# 指定年齡范圍，可以使用 gt、gte、lt、lte。

PUT mapping_demo/_doc/3
{
"name":"張三",
"age_range":{
    "gt":20,
    "lt":30
}
}
分詞器

什么是分詞器

分詞器的主要作用將用戶輸入的一段文本，按照一定邏輯，分析成多個詞語的一種工具

顧名思義，文本分析就是把全文本轉(zhuǎn)換成一系列單詞（term/token）的過程，也叫分詞，在 ES 中，Analysis 是通過分詞器（Analyzer）來實現(xiàn)的，可使用 ES 內(nèi)置的分析器或者按需定制化分析器。

舉一個分詞簡單的例子：比如你輸入 Mastering Elasticsearch，會自動幫你分成兩個單詞，一個是 mastering，另一個是 elasticsearch，可以看出單詞也被轉(zhuǎn)化成了小寫的。

分詞器構(gòu)成

分詞器是專門處理分詞的組件，分詞器由以下三部分組成：

character filter
接收原字符流，通過添加、刪除或者替換操作改變原字符流

例如：去除文本中的html標簽，或者將羅馬數(shù)字轉(zhuǎn)換成阿拉伯數(shù)字等，一個字符過濾器可以有零個或者多個

tokenizer

簡單的說就是將一整段文本拆分成一個個的詞

例如拆分英文，通過空格能將句子拆分成一個個的詞，但是對于中文來說，無法使用這種方式來實現(xiàn)，在一個分詞器中，有且只有一個tokenizeer

token filters

將切分的單詞添加、刪除或者改變

例如將所有英文單詞小寫，或者將英文中的停詞a刪除等，在token filters中，不允許將token(分出的詞)的position或者offset改變，同時，在一個分詞器中，可以有零個或者多個token filters。

分詞順序

同時 Analyzer 三個部分也是有順序的，從圖中可以看出，從上到下依次經(jīng)過 Character Filters，Tokenizer 以及 Token Filters，這個順序比較好理解，一個文本進來肯定要先對文本數(shù)據(jù)進行處理，再去分詞，最后對分詞的結(jié)果進行過濾。

測試分詞

可以通過_analyzerAPI來測試分詞的效果，我們使用下面的html過濾分詞

COPYPOST _analyze
{
    "text":"<b>hello world<b>" # 輸入的文本
    "char_filter":["html_strip"], # 過濾html標簽
    "tokenizer":"keyword", #原樣輸出
}
什么時候分詞

文本分詞會發(fā)生在兩個地方：

創(chuàng)建索引：當索引文檔字符類型為text時，在建立索引時將會對該字段進行分詞。
搜索：當對一個text類型的字段進行全文檢索時，會對用戶輸入的文本進行分詞。

創(chuàng)建索引時指定分詞器

如果設(shè)置手動設(shè)置了分詞器，ES將按照下面順序來確定使用哪個分詞器

先判斷字段是否有設(shè)置分詞器，如果有，則使用字段屬性上的分詞器設(shè)置

如果設(shè)置了analysis.analyzer.default，則使用該設(shè)置的分詞器

如果上面兩個都未設(shè)置，則使用默認的standard分詞器

字段指定分詞器

為addr屬性指定分詞器，這里我們使用的是中文分詞器

COPYPUT my_index
{
"mappings": {
    "properties": {
     "info": {
        "type": "text",
        "analyzer": "ik_smart"
       }
    }
}
}
設(shè)置默認分詞器

COPYPUT my_index
{
"settings": {
    "analysis": {
      "analyzer": {
        "default":{
          "type":"simple"
        }
      }
    }
}
}

搜索時指定分詞器

在搜索時，通過下面參數(shù)依次檢查搜索時使用的分詞器，這樣我們的搜索語句就會先分詞，然后再來進行搜索

搜索時指定analyzer參數(shù)

創(chuàng)建mapping時指定字段的search_analyzer屬性

創(chuàng)建索引時指定setting的analysis.analyzer.default_search

查看創(chuàng)建索引時字段指定的analyzer屬性

如果上面幾種都未設(shè)置，則使用默認的standard分詞器。

指定analyzer

搜索時指定analyzer查詢參數(shù)

COPYGET my_index/_search
{
"query": {
    "match": {
      "message": {
        "query": "Quick foxes",
        "analyzer": "stop"
      }
    }
}
}
指定字段analyzer

COPYPUT my_index
{
"mappings": {
    "properties": {
      "title":{
        "type":"text",
        "analyzer": "whitespace",
        "search_analyzer": "simple"
      }
    }
}
}

指定默認default_seach

COPYPUT my_index
{
"settings": {
    "analysis": {
      "analyzer": {
        "default":{
          "type":"simple"
        },
        "default_seach":{
          "type":"whitespace"
        }
      }
    }
}
}
內(nèi)置分詞器

es在索引文檔時，會通過各種類型 Analyzer 對text類型字段做分析

不同的 Analyzer 會有不同的分詞結(jié)果，內(nèi)置的分詞器有以下幾種，基本上內(nèi)置的 Analyzer 包括 Language Analyzers 在內(nèi)，對中文的分詞都不夠友好，中文分詞需要安裝其它 Analyzer

分析器描述分詞對象結(jié)果
standard 標準分析器是默認的分析器，如果沒有指定，則使用該分析器。它提供了基于文法的標記化(基于 Unicode 文本分割算法，如 Unicode 標準附件 # 29所規(guī)定) ，并且對大多數(shù)語言都有效。The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. [ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog’s, bone ]
simple 簡單分析器將文本分解為任何非字母字符的標記，如數(shù)字、空格、連字符和撇號、放棄非字母字符，并將大寫字母更改為小寫字母。The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. [ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]
whitespace 空格分析器在遇到空白字符時將文本分解為術(shù)語 The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. [ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog’s, bone. ]
stop 停止分析器與簡單分析器相同，但增加了刪除停止字的支持。默認使用的是 _english_ 停止詞。The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. [ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]
keyword 不分詞，把整個字段當做一個整體返回 The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. [The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone.]
pattern 模式分析器使用正則表達式將文本拆分為術(shù)語。正則表達式應(yīng)該匹配令牌分隔符，而不是令牌本身。正則表達式默認為 w+ (或所有非單詞字符)。The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. [ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]
多種西語系 arabic, armenian, basque, bengali, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english等等一組旨在分析特定語言文本的分析程序。


IK中文分詞器

IKAnalyzer

IKAnalyzer是一個開源的，基于java的語言開發(fā)的輕量級的中文分詞工具包

從2006年12月推出1.0版開始，IKAnalyzer已經(jīng)推出了3個大版本，在 2012 版本中，IK 實現(xiàn)了簡單的分詞歧義排除算法，標志著 IK 分詞器從單純的詞典分詞向模擬語義分詞衍化

中文分詞器算法

中文分詞器最簡單的是ik分詞器，還有jieba分詞，哈工大分詞器等

分詞器    描述    分詞對象    結(jié)果

ik_smart    ik分詞器中的簡單分詞器，支持自定義字典，遠程字典    學(xué)如逆水行舟，不進則退    [學(xué)如逆水行舟,不進則退]

ik_max_word    ik_分詞器的全量分詞器，支持自定義字典，遠程字典    學(xué)如逆水行舟，不進則退    [學(xué)如逆水行舟,學(xué)如逆水,逆水行舟,逆水,行舟,不進則退,不進,則,退]

ik_smart

原始內(nèi)容

COPY傳智教育的教學(xué)質(zhì)量是杠杠的

測試分詞

COPYGET _analyze
{
"analyzer": "ik_smart",
"text": "傳智教育的教學(xué)質(zhì)量是杠杠的"
}

ik_max_word

原始內(nèi)容

COPY傳智教育的教學(xué)質(zhì)量是杠杠的

測試分詞

COPYGET _analyze
{
"analyzer": "ik_max_word",
"text": "傳智教育的教學(xué)質(zhì)量是杠杠的"
}

作者：陳燁123

歡迎關(guān)注微信公眾號：java知路

在线午夜精品自拍小视频_无码av无码专区线_亚洲无码精品人妻_人人澡欧美一区

java