附录：宏后继集歧义形式化规范

本页记录了声明宏后继规则的形式化规范。它们最初在 RFC 550 中指定，本文的大部分内容即复制自该 RFC，并在后续的 RFC 中进行了扩展。

[macro.ambiguity.convention]

定义和约定

[macro.ambiguity.convention.defs]

macro: 源代码中可调用为 foo!(...) 的任何内容。
MBE: 声明宏，由 macro_rules 定义的宏。
matcher: macro_rules 调用中规则的左侧，或其子部分。
macro 解析器: Rust 解析器中用于使用所有匹配器派生出的语法格式来解析输入的代码片段。
fragment: 给定匹配器将接受（或“匹配”）的 Rust 语法类别。
repetition: 遵循常规重复模式的片段。
NT: 非终结符，出现在匹配器中的各种“元变量”或重复匹配器，在 MBE 语法格式中以 $ 字符开头。
simple NT: “元变量”非终结符（下文将进一步讨论）。
complex NT: 重复匹配非终结符，通过重复运算符（*、+、?）指定。
token: 匹配器的原子元素；即标识符、运算符、开/闭分隔符，以及简单 NT。
token tree: 由词法单元（叶子）、复杂 NT 和有限词法单元树序列组成的树结构。
delimiter token: 用于分隔一个片段的结尾和下一个片段的开头的词法单元。
separator token: 复杂 NT 中可选的分隔符词法单元，用于分隔匹配重复中的每对元素。
separated complex NT: 具有自己分隔符词法单元的复杂 NT。
delimited sequence: 以适当的开闭分隔符开始和结束的词法单元树序列。
empty fragment: 分隔词法单元的不可见 Rust 语法格式类别，即空白符，或（在某些词法上下文中）空词法单元序列。
fragment specifier: 简单 NT 中指定 NT 接受哪个片段的标识符。
language: 上下文无关语言。

示例：

#![allow(unused)]
fn main() {
macro_rules! i_am_an_mbe {
    (start $foo:expr $($i:ident),* end) => ($foo)
}
}

[macro.ambiguity.convention.matcher]

(start $foo:expr $($i:ident),* end) 是一个匹配器。整个匹配器是一个分隔序列（带有开闭分隔符 ( 和 )），$foo 和 $i 是带有 expr 和 ident 作为其各自片段指定符的简单 NT。

[macro.ambiguity.convention.complex-nt]

$(i:ident),* 也是一个 NT；它是一个复杂 NT，匹配逗号分隔的标识符重复。, 是复杂 NT 的分隔符词法单元；它出现在匹配片段的每对元素（如果存在）之间。

复杂 NT 的另一个例子是 $(hi $e:expr ;)+，它匹配 hi <expr>; hi <expr>; ... 形式的任何片段，其中 hi <expr>; 至少出现一次。请注意，此复杂 NT 没有专用的分隔符词法单元。

（请注意，Rust 的解析器确保分隔序列总是以适当嵌套的词法单元树结构和正确的开闭分隔符匹配出现。）

[macro.ambiguity.convention.vars]

我们将倾向于使用变量 “M” 代表匹配器，变量 “t” 和 “u” 代表任意单个词法单元，变量 “tt” 和 “uu” 代表任意词法单元树。（“tt” 的使用确实可能与它作为片段指定符的额外角色产生歧义；但从上下文中可以清楚地看出其意图。）

[macro.ambiguity.convention.set]

“SEP” 将表示分隔符词法单元，“OP” 表示重复运算符 *、+ 和 ?，“OPEN”/“CLOSE” 表示围绕分隔序列的匹配词法单元对（例如 [ 和 ]）。

[macro.ambiguity.convention.sequence-vars]

希腊字母 “α”、“β”、“γ”、“δ” 代表可能为空的词法单元树序列。（但是，希腊字母 “ε”（epsilon）在表达中具有特殊作用，不代表词法单元树序列。）

这种希腊字母约定通常仅在序列的存在是技术细节时使用；特别是，当我们希望强调我们正在对词法单元树序列进行操作时，我们将使用符号 “tt …” 代表该序列，而不是希腊字母。

请注意，匹配器仅仅是词法单元树。如上所述，“简单 NT” 是一个元变量 NT；因此它不是一个重复。例如，$foo:ty 是一个简单 NT，但 $($foo:ty)+ 是一个复杂 NT。

另请注意，在此形式化上下文中，“词法单元” 一词通常包含简单 NT。

最后，读者需要记住，根据此形式化的定义，没有简单 NT 匹配空片段，同样也没有词法单元匹配 Rust 语法格式的空片段。（因此，唯一可以匹配空片段的 NT 是复杂 NT。）这实际上不是真的，因为 vis 匹配器可以匹配一个空片段。因此，为了形式化的目的，我们将把 $v:vis 视为 $($v:vis)?，并要求匹配器匹配一个空片段。

[macro.ambiguity.invariant]

匹配器不变式

[macro.ambiguity.invariant.list]

要有效，匹配器必须满足以下三个不变式。FIRST 和 FOLLOW 的定义将在后面描述。

在匹配器 M 中，对于任意两个连续的词法单元树序列（即 M = ... tt uu ...），且 uu ... 非空，我们必须有 FOLLOW(... tt) ∪ {ε} ⊇ FIRST(uu ...)。
在匹配器中，对于任何分隔复杂 NT，M = ... $(tt ...) SEP OP ...，我们必须有 SEP ∈ FOLLOW(tt ...)。
在匹配器中，对于未分隔的复杂 NT，M = ... $(tt ...) OP ...，如果 OP = * 或 +，我们必须有 FOLLOW(tt ...) ⊇ FIRST(tt ...)。

[macro.ambiguity.invariant.follow-matcher]

第一个不变式表示，无论匹配器之后实际出现什么词法单元（如果存在），它都必须在预定的后继集中。这确保了合法的宏定义将继续分配相同的确定，即 ... tt 在哪里结束，uu ... 在哪里开始，即使在语言中添加了新的语法格式形式。

[macro.ambiguity.invariant.separated-complex-nt]

第二个不变式表示，分隔复杂 NT 必须使用一个分隔符词法单元，该词法单元是 NT 内部内容的预定后继集的一部分。这确保了合法的宏定义将继续将输入片段解析为相同的 tt ... 分隔序列，即使在语言中添加了新的语法格式形式。

[macro.ambiguity.invariant.unseparated-complex-nt]

第三个不变式表示，当我们有一个复杂 NT 可以匹配两个或多个相同且没有分隔符的实体时，必须允许它们根据第一个不变式放置在一起。这个不变式还要求它们非空，这消除了可能的歧义。

注意：由于历史遗留问题和对行为的严重依赖，第三个不变式目前未强制执行。目前尚未决定下一步如何处理。不遵守该行为的宏在未来的 Rust 版次中可能会变得无效。参见跟踪 issue。

[macro.ambiguity.sets]

FIRST和FOLLOW，非正式地

[macro.ambiguity.sets.intro]

给定匹配器 M 映射到三个集合：FIRST(M)、LAST(M) 和 FOLLOW(M)。

这三个集合中的每一个都由词法单元组成。FIRST(M) 和 LAST(M) 还可以包含一个特殊的非词法单元元素 ε (“epsilon”)，它表示 M 可以匹配空片段。（但 FOLLOW(M) 始终只是词法单元集合。）

非正式地：

[macro.ambiguity.sets.first]

FIRST(M): 收集在将片段匹配到 M 时可能首先使用的词法单元。

[macro.ambiguity.sets.last]

LAST(M): 收集在将片段匹配到 M 时可能最后使用的词法单元。

[macro.ambiguity.sets.follow]

FOLLOW(M): 允许紧跟在 M 匹配的某个片段之后的词法单元集合。

换句话说：当且仅当存在（可能为空）词法单元序列 α、β、γ、δ，其中：
- M 匹配 β，
- t 匹配 γ，并且
- 拼接 α β γ δ 是一个可解析的 Rust 程序，
则 t ∈ FOLLOW(M)。

[macro.ambiguity.sets.universe]

我们使用简写 ANYTOKEN 表示所有词法单元（包括简单 NT）的集合。例如，如果任何词法单元在匹配器 M 之后都是合法的，那么 FOLLOW(M) = ANYTOKEN。

（为了回顾对上述非正式描述的理解，读者此时可能希望跳到 FIRST/LAST 示例之前阅读它们的正式定义。）

[macro.ambiguity.sets.def]

FIRST，LAST

[macro.ambiguity.sets.def.intro]

以下是 FIRST 和 LAST 的形式化归纳定义。

[macro.ambiguity.sets.def.notation]

“A ∪ B” 表示集合并集，“A ∩ B” 表示集合交集，“A \ B” 表示集合差集（即 A 中所有不在 B 中的元素）。

[macro.ambiguity.sets.def.first]

FIRST

[macro.ambiguity.sets.def.first.intro]

FIRST(M) 根据序列 M 及其第一个词法单元树（如果存在）的结构进行案例分析定义：

[macro.ambiguity.sets.def.first.epsilon]

如果 M 是空序列，则 FIRST(M) = { ε }，

[macro.ambiguity.sets.def.first.token]

如果 M 以词法单元 t 开头，则 FIRST(M) = { t }，

（注意：这涵盖了 M 以分隔词法单元树序列 M = OPEN tt ... CLOSE ... 开头的情况，在这种情况下 t = OPEN，因此 FIRST(M) = { OPEN }。）

（注意：这严重依赖于没有简单 NT 匹配空片段的属性。）

[macro.ambiguity.sets.def.first.complex]

否则，M 是以复杂 NT 开头的词法单元树序列：M = $( tt ... ) OP α，或 M = $( tt ... ) SEP OP α（其中 α 是匹配器剩余部分的（可能为空）词法单元树序列）。
- 如果 SEP 存在且 ε ∈ FIRST(tt ...)，则令 SEP_SET(M) = { SEP }；否则 SEP_SET(M) = {}。
如果 OP = * 或 ?，则令 ALPHA_SET(M) = FIRST(α)；如果 OP = +，则 ALPHA_SET(M) = {}。
FIRST(M) = (FIRST(tt ...) \ {ε}) ∪ SEP_SET(M) ∪ ALPHA_SET(M)。

复杂 NT 的定义值得一些解释。SEP_SET(M) 定义了分隔符可能作为 M 的有效第一个词法单元的可能性，当存在分隔符且重复片段可能为空时，就会发生这种情况。ALPHA_SET(M) 定义了复杂 NT 可能为空的可能性，这意味着 M 的有效第一个词法单元是紧随其后的词法单元树序列 α 的。这发生在使用了 * 或 ? 的情况下，此时可能存在零次重复。理论上，如果使用 + 且重复片段可能为空，也可能发生这种情况，但这被第三个不变式禁止。

从那里，显然 FIRST(M) 可以包含来自 SEP_SET(M) 或 ALPHA_SET(M) 的任何词法单元，如果复杂 NT 匹配非空，那么任何以 FIRST(tt ...) 开头的词法单元也可以。最后要考虑的是 ε。SEP_SET(M) 和 FIRST(tt ...) \ {ε} 不能包含 ε，但 ALPHA_SET(M) 可以。因此，此定义允许 M 接受 ε 当且仅当 ε ∈ ALPHA_SET(M) 时。这是正确的，因为对于复杂 NT 情况下的 M 要接受 ε，复杂 NT 和 α 都必须接受它。如果 OP = +，这意味着复杂 NT 不能为空，那么根据定义 ε ∉ ALPHA_SET(M)。否则，复杂 NT 可以接受零次重复，然后 ALPHA_SET(M) = FOLLOW(α)。因此，此定义对于 \varepsilon 也是正确的。

[macro.ambiguity.sets.def.last]

LAST

[macro.ambiguity.sets.def.last.intro]

LAST(M) 根据 M 本身（词法单元树序列）进行案例分析定义：

[macro.ambiguity.sets.def.last.empty]

如果 M 是空序列，则 LAST(M) = { ε }

[macro.ambiguity.sets.def.last.token]

如果 M 是单例词法单元 t，则 LAST(M) = { t }

[macro.ambiguity.sets.def.last.rep-star]

如果 M 是重复零次或多次的单例复杂 NT，M = $( tt ... ) *，或 M = $( tt ... ) SEP *
- 如果 SEP 存在，则令 sep_set = { SEP }；否则 sep_set = {}。
- 如果 ε ∈ LAST(tt ...)，则 LAST(M) = LAST(tt ...) ∪ sep_set
- 否则，序列 tt ... 必须非空；LAST(M) = LAST(tt ...) ∪ {ε}。

[macro.ambiguity.sets.def.last.rep-plus]

如果 M 是重复一次或多次的单例复杂 NT，M = $( tt ... ) +，或 M = $( tt ... ) SEP +
- 如果 SEP 存在，则令 sep_set = { SEP }；否则 sep_set = {}。
- 如果 ε ∈ LAST(tt ...)，则 LAST(M) = LAST(tt ...) ∪ sep_set
- 否则，序列 tt ... 必须非空；LAST(M) = LAST(tt ...)

[macro.ambiguity.sets.def.last.rep-question]

如果 M 是重复零次或一次的单例复杂 NT，M = $( tt ...) ?，则 LAST(M) = LAST(tt ...) ∪ {ε}。

[macro.ambiguity.sets.def.last.delim]

如果 M 是分隔词法单元树序列 OPEN tt ... CLOSE，则 LAST(M) = { CLOSE }。

[macro.ambiguity.sets.def.last.sequence]

如果 M 是非空词法单元树序列 tt uu ...，
- 如果 ε ∈ LAST(uu ...)，则 LAST(M) = LAST(tt) ∪ (LAST(uu ...) \ { ε })。
- 否则，序列 uu ... 必须非空；则 LAST(M) = LAST(uu ...)。

FIRST和LAST的示例

以下是 FIRST 和 LAST 的一些示例。（请特别注意 ε 元素是如何根据输入片段之间的交互引入和消除的。）

我们的第一个示例以树形结构呈现，以详细说明匹配器的分析如何组合。（一些更简单的子树已被省略。）

INPUT:  $(  $d:ident   $e:expr   );*    $( $( h )* );*    $( f ; )+   g
            ~~~~~~~~   ~~~~~~~                ~
                |         |                   |
FIRST:   { $d:ident }  { $e:expr }          { h }


INPUT:  $(  $d:ident   $e:expr   );*    $( $( h )* );*    $( f ; )+
            ~~~~~~~~~~~~~~~~~~             ~~~~~~~           ~~~
                        |                      |               |
FIRST:          { $d:ident }               { h, ε }         { f }

INPUT:  $(  $d:ident   $e:expr   );*    $( $( h )* );*    $( f ; )+   g
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~    ~~~~~~~~~~~~~~    ~~~~~~~~~   ~
                        |                       |              |       |
FIRST:        { $d:ident, ε }            {  h, ε, ;  }      { f }   { g }


INPUT:  $(  $d:ident   $e:expr   );*    $( $( h )* );*    $( f ; )+   g
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
                                        |
FIRST:                       { $d:ident, h, ;,  f }

因此：

FIRST($($d:ident $e:expr );* $( $(h)* );* $( f ;)+ g) = { $d:ident, h, ;, f }

但请注意：

FIRST($($d:ident $e:expr );* $( $(h)* );* $($( f ;)+ g)*) = { $d:ident, h, ;, f, ε }

以下是类似的示例，但现在针对 LAST。

LAST($d:ident $e:expr) = { $e:expr }
LAST($( $d:ident $e:expr );*) = { $e:expr, ε }
LAST($( $d:ident $e:expr );* $(h)*) = { $e:expr, ε, h }
LAST($( $d:ident $e:expr );* $(h)* $( f ;)+) = { ; }
LAST($( $d:ident $e:expr );* $(h)* $( f ;)+ g) = { g }

[macro.ambiguity.sets.def.follow]

FOLLOW(M)

[macro.ambiguity.sets.def.follow.intro]

最后，FOLLOW(M) 的定义如下构建。pat, expr 等表示具有给定片段指定符的简单非终结符。

[macro.ambiguity.sets.def.follow.pat]

FOLLOW(pat) = {=>, ,, =, |, if, in}。

[macro.ambiguity.sets.def.follow.expr-stmt]

FOLLOW(expr) = FOLLOW(expr_2021) = FOLLOW(stmt) = {=>, ,, ;}。

[macro.ambiguity.sets.def.follow.ty-path]

FOLLOW(ty) = FOLLOW(path) = {{, [, ,, =>, :, =, >, >>, ;, |, as, where, 块非终结符}。

[macro.ambiguity.sets.def.follow.vis]

FOLLOW(vis) = {,l 任何关键字或标识符，除了非原始 priv；任何可以开始一个类型的词法单元；标识符，类型和路径非终结符}。

[macro.ambiguity.sets.def.follow.simple]

FOLLOW(t) = ANYTOKEN 对于任何其他简单词法单元，包括块，标识符， tt，项，生命周期，字面量和元简单非终结符，以及所有终结符。

[macro.ambiguity.sets.def.follow.other-matcher]

FOLLOW(M)，对于任何其他 M，定义为 FOLLOW(t) 的交集，其中 t 遍历 (LAST(M) \ {ε})。

[macro.ambiguity.sets.def.follow.type-first]

可以开始一个类型的词法单元，截至本文撰写之时，有 {(, [, !, *, &, &&, ?, 生命周期，>, >>, ::, 任何非关键字标识符，super, self, Self, extern, crate, $crate, _, for, impl, fn, unsafe, typeof, dyn}，尽管此列表可能不完整，因为人们可能不会总是记得在添加新词法单元时更新附录。

复杂 M 的 FOLLOW 示例：

FOLLOW($( $d:ident $e:expr )*) = FOLLOW($e:expr)
FOLLOW($( $d:ident $e:expr )* $(;)*) = FOLLOW($e:expr) ∩ ANYTOKEN = FOLLOW($e:expr)
FOLLOW($( $d:ident $e:expr )* $(;)* $( f |)+) = ANYTOKEN

有效和无效匹配器的示例

有了上述规范，我们可以给出为什么特定匹配器合法而其他不合法的论证。

($ty:ty < foo ,)：非法，因为 FIRST(< foo ,) = { < } ⊈ FOLLOW(ty)
($ty:ty , foo <)：合法，因为 FIRST(, foo <) = { , } ⊆ FOLLOW(ty)。
($pa:pat $pb:pat $ty:ty ,)：非法，因为 FIRST($pb:pat $ty:ty ,) = { $pb:pat } ⊈ FOLLOW(pat)，并且 FIRST($ty:ty ,) = { $ty:ty } ⊈ FOLLOW(pat)。
( $($a:tt $b:tt)* ; )：合法，因为 FIRST($b:tt) = { $b:tt } ⊆ FOLLOW(tt) = ANYTOKEN，FIRST(;) = { ; } 也是。
( $($t:tt),* , $(t:tt),* )：合法（尽管任何实际使用此宏的尝试都会在展开期间发出本地歧义错误）。
($ty:ty $(; not sep)* -)：非法，因为 FIRST($(; not sep)* -) = { ;, - } 不在 FOLLOW(ty) 中。
($($ty:ty)-+)：非法，因为分隔符 - 不在 FOLLOW(ty) 中。
($($e:expr)*)：非法，因为 expr NT 不在 FOLLOW(expr NT) 中。

Keyboard shortcuts

Rust语言参考手册