V2EX  ›  英汉词典

Wordpiece

Definition 定义

WordPiece:一种常用于自然语言处理(NLP)的子词切分/分词方法,把单词拆成更小的“子词单元”(subword units),以便模型处理生僻词、词形变化和未登录词(OOV)。常见于现代语言模型的分词器中。(也可泛指“单词的一部分/词片段”,但最常见用法是指该算法与其生成的子词。)

Pronunciation 发音

/ˈwɝːd.piːs/

Etymology 词源

word(词、单词)+ piece(片、块)构成的复合词,字面意思是“单词的片段”。在计算语言学语境中,它被用作专有名词,指一种把词拆成“更小片段”的子词建模思路与实现。

Examples 例句

WordPiece breaks rare words into smaller units so the model can still understand them.
WordPiece 会把罕见词拆成更小的单元,这样模型仍然能理解它们。

In our pipeline, we train a WordPiece vocabulary and tokenize all texts before feeding them into the transformer.
在我们的流程中,我们先训练一个 WordPiece 词表,并在送入 Transformer 之前对所有文本进行 WordPiece 分词。

Related Words 相关词

Literary Works 文学作品

  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(Devlin et al.)——描述使用 WordPiece 分词的经典论文
  • Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation(Wu et al.)——讨论子词单元与相关分词策略的代表性论文
  • SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing(Kudo & Richardson)——常与 WordPiece 放在一起比较与讨论的分词研究作品
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   806 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 18:23 · PVG 02:23 · LAX 10:23 · JFK 13:23
♥ Do have faith in what you're doing.