递归DNS如何选择权威DNS的IP-SRTT优化及实践

本文主要介绍递归DNS的SRTT本身机制及如何进行更进一步的优化，来达到更好的递归效果。都是字，不想弄图、表和数字，格式也有点乱，不想整理了，凑合看吧

1. SRTT本身机制

本节仅对SRTT进行简单的介绍供了解，不进行特别深入和详细的分析。

SRTT（Smoothed Round-Trip Time，平滑往返时延）是在递归DNS系统里，用加权平均算法计算出的上游DNS服务器的“响应时延”估值，它用于优化解析性能和选择最快的上游服务器。

延伸阅读

BIND的SRTT机制总体做的还是相对比较好的，可以参考 https://developer.aliyun.com/article/622410。

而Unbound社区版的SRTT做的则不够好，基本就是可用权威IP完全随机，递归的平均延迟非常高，所以在实际业务使用前必须进行优化，具体算法优化可以参考相关论文或BIND的实现等。

虽说递归DNS选择权威服务器时都希望选择延迟更低，但在最大限度降低递归时延的前提下，也要遵循一定的规则，如

需要有一定的随机性选择非延迟最低的权威IP来自适应权威IP的RTT的波动和服务器的突然故障。
- 如某个权威IP正常RTT很低，但偶发丢包被惩罚延迟后，需要能够逐步平滑降低其RTT。
- 如果低RTT的权威IP突然故障，除了丢包惩罚延迟外，还需要随机性来选择其他权威DNS IP，防止单个IP不可用导致整个域名解析异常。
标记不可用的IP也需要定时发送DNS请求。
- 不可用的IP恢复可用后需要使用该机制探活标记为恢复可用
- BIND和UNBOUND都会在15或30分钟完全重置一次权威IP的相关状态，其中包括RTT，以及IP的EDNS支持状态等。
- 也可以低频率的对惩罚到标记不可用的IP做并发异步的DNS探活请求。
不能向单一权威IP发送过于集中的请求，降低被权威封禁递归IP的概率。
- 一个可探讨的方案介绍：如果本次不进行随机选择递归IP，选择最低RTT的IP时候再进行二次选择，1/2直接选择最低RTT的权威服务器，1/2在最低RTT差距一定范围内（如minrtt + 20ms，也认为有比较低的延迟）的其他权威服务器IP中随机选择。
- 国内的各大权威DNS服务商的服务只要不是真实的攻击，常规的SRTT优化很是很难触发递归IP被封禁的场景的，但是一些单位、机构等自建的权威DNS，如果单个IP请求量较大则比较容易触发，所以这里也是递归DNS必须要考虑的一种场景。

2. SRTT的配套机制优化

只有SRTT本身的选择机制对一个递归DNS是不够的，还必须配合多个其他配套系统来使用，而这些配套系统对递归DNS的整体递归时延也是非常重要的。

2.1 某个权威DNS IP的SRTT生效范围

在实际业务中，存在以下两种场景会使多个域名使用相同的权威DNS IP

不同的域名会使用相同的NameServer(NS)
不同的域名使用的NS不同，但NS对应的IP相同（如腾讯云解析/DNSPod提供的个性化NS功能）

在我们的常规认知中，既然权威DNS IP相同，那么统一进行SRTT的探测和选择即可，这样多个域名的平均递归延迟都可以有效降低，如在每次权威IP状态重置后快速重新探测到RTT最低的权威DNS IP，且对所有域名生效。

但现实是相反的，多数递归DNS对这种场景的权威DNS IP探测是域名相关的，不同域名的权威DNS IP即使相同，也是分别独立探测和存储状态的（如Unbound的）。

对于某些特殊场景，这种做法可能有一定用处，如同一个IP对域名A支持EDNS，对域名B不支持等，但这极大增加了递归DNS解析时延（也浪费了一些内存，虽然现代服务器不怎么在意了）。

目前腾讯云/DNSPod的递归服务器的做法是所有域名只要权威DNS IP相同即共享一份SRTT的探测和选择结果，可以大幅提高选择RTT低的权威DNS概率（尤其是请求量不大的域名），降低解析延迟，不考虑一些特别极端的场景（也可以解析，但可能不是最优的结果，且此类极端场景在国内的权威DNS服务商中基本不存在）。

2.2 权威DNS IP的GEO优化

大家都知道普通域名的DNS解析可以做智能解析(分线路、GEO、基于延迟等)，来给不同地域不同运营商的客户端分配不同的解析结果，达到降低延迟或节省成本的目的。那么对于给递归DNS使用的NameServer(NS)域名是否可以使用智能解析，来达到同样的目的呢？毕竟因为各种原因，国内大部分权威DNS服务商很难完全使用完全相同的Anycast IP在全球同时提供很高的高可用和很低的延迟，如果该方案可行，则权威DNS服务商有了一个变通的方式来同时满足高可用和低延迟的需求，如除了Anycast IP外还可以在不通地区提供一些本地的Unicast IP来降低本地递归DNS的访问延迟，比如目前腾讯解析/DNSPod和阿里云解析都做了该操作，那么效果如何呢。

答案是一半一半。

递归获取一个域名的权威DNS的NS IP有两个渠道，胶水记录和权威服务器的记录，其中NS域名在注册商/局设置胶水记录不支持智能解析，而在其本身权威DNS设置的解析记录则是可以支持设置智能解析线路的，下面分别进行介绍。

2.2.1 注册局的TLD服务器返回的glue record

胶水记录（Glue Record）是一种特殊的DNS记录，用于解决域名解析过程中的循环依赖问题。当域名的权威DNS服务器（NS记录）是当前域名的子域名时，胶水记录是必须存在的（如后续示例所示），由域名所有者直接在注册商/局（父域DNS，如.com的TLD服务器）中提供子域名服务器的IP地址，确保递归DNS能够正确找到目标的权威DNS服务器。

dig @a.gtld-servers.net ns3.dnsv5.com

; <<>> DiG 9.11.26-RedHat-9.11.26-6.tl3 <<>> @a.gtld-servers.net ns3.dnsv5.com
; (2 servers found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 45009
;; flags: qr rd; QUERY: 1, ANSWER: 0, AUTHORITY: 2, ADDITIONAL: 11
;; WARNING: recursion requested but not available

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;ns3.dnsv5.com.                 IN      A

;; AUTHORITY SECTION:
dnsv5.com.              172800  IN      NS      ns3.dnsv5.com.
dnsv5.com.              172800  IN      NS      ns4.dnsv5.net.

# 因为NS域名ns3.dnsv5.com是请求域名dnsv5.com的子域名，此时胶水几率是必须返回的，否则后续继续向TLD服务器请求ns3.dnsv5.com还是返回上面两条NS记录,造成死循环
# 只返回tld相同的ns3.dnsv5.com的胶水记录，而不返回ns4.dnsv5.net的胶水记录
;; ADDITIONAL SECTION:
ns3.dnsv5.com.          172800  IN      A       1.12.0.17
ns3.dnsv5.com.          172800  IN      A       1.12.0.18
ns3.dnsv5.com.          172800  IN      A       1.12.14.17
ns3.dnsv5.com.          172800  IN      A       1.12.14.18
ns3.dnsv5.com.          172800  IN      A       101.227.168.52
ns3.dnsv5.com.          172800  IN      A       108.136.87.44
ns3.dnsv5.com.          172800  IN      A       163.177.5.75
ns3.dnsv5.com.          172800  IN      A       220.196.136.52
ns3.dnsv5.com.          172800  IN      AAAA    2402:4e00:1470:2::f
ns3.dnsv5.com.          172800  IN      A       35.165.107.227

;; Query time: 217 msec
;; SERVER: 192.5.6.30#53(192.5.6.30)
;; WHEN: Fri Aug 15 15:59:20 CST 2025
;; MSG SIZE  rcvd: 255

TLD服务器一般只有请求的域名的TLD和本域名设置的NS的TLD一致，会返回胶水记录的（这里大部分其实是非必须的，但是同时返回了胶水记录可以减少一次额外的请求，降低延迟），否则一般不返回胶水记录。如example.com设置NS为ns1.example.com, ns2.example.net, 那么这时候向TLD服务器请求example.com的时候，TLD服务器就会返回example.com的NS记录ns1.example.com和ns2.example.net，且同时返回ns1.example.com的A和AAAA记录（TLD相同，都是.com)，但并不会返回ns2.example.net的胶水记录（TLD不同, .com vs .net)，如上述和下述请求所示

dig @a.gtld-servers.net dnsov.net

; <<>> DiG 9.11.26-RedHat-9.11.26-6.tl3 <<>> @a.gtld-servers.net dnsov.net
; (2 servers found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 8363
;; flags: qr rd; QUERY: 1, ANSWER: 0, AUTHORITY: 2, ADDITIONAL: 11
;; WARNING: recursion requested but not available

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;dnsov.net.                     IN      A

;; AUTHORITY SECTION:
dnsov.net.              172800  IN      NS      ns3.dnsv5.com.
dnsov.net.              172800  IN      NS      ns4.dnsv5.net.

# 只返回tld相同的ns4.dnsv5.net的胶水记录，而不返回ns3.dnsv5.com的胶水记录,但其实这里的胶水记录并不是必须要返回的，因为dnsov.net和dnsv5.net是两个不同的域名，再次请求并不会造成死循环，但是同时返回了胶水记录可以减少一次额外的请求，降低延迟
;; ADDITIONAL SECTION:
ns4.dnsv5.net.          172800  IN      A       1.12.0.16
ns4.dnsv5.net.          172800  IN      A       1.12.0.19
ns4.dnsv5.net.          172800  IN      A       1.12.14.16
ns4.dnsv5.net.          172800  IN      A       1.12.14.19
ns4.dnsv5.net.          172800  IN      A       112.80.181.106
ns4.dnsv5.net.          172800  IN      A       117.135.128.152
ns4.dnsv5.net.          172800  IN      A       124.64.205.152
ns4.dnsv5.net.          172800  IN      A       13.37.58.163
ns4.dnsv5.net.          172800  IN      AAAA    2402:4e00:111:fff::8
ns4.dnsv5.net.          172800  IN      A       49.7.107.152

;; Query time: 192 msec
;; SERVER: 192.5.6.30#53(192.5.6.30)
;; WHEN: Fri Aug 15 16:00:30 CST 2025
;; MSG SIZE  rcvd: 261

这里未介绍子域名授权场景的胶水记录，总体原则是一致的。

2.2.2 NS域名本身权威服务器返回的IP记录

NS域名（如ns3.dnsv5.com）在其权威DNS（如腾讯云解析/DNSPod）设置解析记录的时候，和普通域名可以一样设置智能解析(如境内设置一批IP，境外设置另一批IP等)，和普通域名的使用没有区别。

2.2.3 递归DNS的行为及优化

递归DNS在进行迭代查询时，有可能从TLD服务器直接获取到NS域名的胶水记录，也可能从权威DNS获取，且两处获取的记录可能不同（部分检测系统会告警，但忽略即可），而权威DNS设置的IP支持智能解析，提供了更大的优化空间，一般相比胶水记录是更好的选择（且非专业技术人员常常忽视对胶水记录的维护），那递归DNS如何使用和优化呢。

常规的递归DNS（如BIND和UNBOUND）一般是这种行为（会略有不同，总体行为类似）

如果向TLD服务器请求某个域名时，TLD服务器同时返回了NS的胶水记录，那么直接使用胶水记录作为NS的IP，不会再去向NS的权威请求记录
如果向TLD服务器请求某个域名时，TLD服务器没有返回NS的胶水记录，则再去正常查询NS域名的记录时，可能回会权威请求NS记录，获取到权威可能设置的分线路智能解析结果，从而后续优先使用权威返回的解析记录
有用户向递归DNS显示请求NS域名的A/AAAA记录，那么递归DNS必然会向NS域名的权威请求一次NS的A/AAAA记录（胶水记录不是其域名权威返回的，用户显式的请求去需要去获取权威设置的记录，而不能直接返回缓存的胶水记录），获取到权威可能设置的分线路智能解析结果，从而后续优先使用权威返回的解析记录
如果权威返回的解析记录全部不可用，则重新回退到使用胶水记录提升可用性

可以看出来，常规的递归DNS不会主动去获取权威DNS的分线路智能解析结果，只会在被动获取到权威返回结果的时候，代替胶水记录进行优先使用，从腾讯云解析/DNSPod使用的实际效果看，权威解析才会设置的解析IP的流量比例总体并不低，这样设置还是有比较好的效果的（具体数据就不提供了）。

那对递归DNS能不能更进一步的进行优化呢，当然可以

即使递归DNS从TLD服务器获取到了NS域名的胶水记录，在正常向胶水记录IP发起查询请求的同时，也自动异步去解析NS域名在权威的A/AAAA记录, 使用NS权威解析记录的比例可以大幅提高。
- 根域名、TLD域名以及海外大厂的NS等域名不必做这个操作，因为记录一般都是一致的Anycast IP
- 腾讯云/DNSPod所有对外提供服务的公共DNS、HTTPDNS、DoH、DoT、云内网DNS等的后端递归DNS都支持该项优化

2024年12月18日2024年12月18日

2024年某些”小众”递归DNS那些事儿

本文就不写运营商递归DNS和相对比较知名一些的公共DNS了，通过几个case聊聊2024年当前可以应答DNS请求、在国内用户量不小，但是又搜索不到什么公开信息的一些”小众“递归DNS的那些事儿，部分已经无法访问的递归DNS就不再包含进来了。这些递归DNS的用户体量并不比不少知名公共DNS小，只是基本不为人知，关注该领域的可以大概了解下。

使用这些DNS比较容易出现解析线路不准确（如国内用户解析到国外IP）、域名被劫持等场景，因为让所有用户修改DNS并不现实，一般还是更建议有端的客户端（如APP等）尽量使用HttpDNS或其他技术手段规避类似场景。

【注1】本文部分线索来自其他伙伴。

【注2】本文所有数据为简单测试，仅供参考。

case 1：183.2.x.x

该DNS疑似某供应商为园区、公司等场景提供的递归DNS，在本省的使用率不低。在24年5月的时候测试，使用该DNS会大概率将域名解析到国外的IP，会导致终端用户访问延迟升高，也造成该省份域名解析到国外IP的概率略微高于其他省份。但是在24年下半年测试没什么大的问题了，可以正常解析为本省份结果，只是解析结果没有区分运营商，基本不影响正常使用。

下图分别为24年5月和12月的测试递归DNS出口IP的结果对比

case 2：45.14.x.x、45.128.x.x

该组递归DNS分布于多个C段，多个海外其他国家，目前看国内各省份运营商皆有固网/wifi用户访问，设置比例大约在小万分之x，使用移动网络则不会访问该组递归DNS，疑似从2024.12.04 16:00+开始对外提供DNS解析服务。

该组递归DNS后端在进行递归请求时固定携带127.0.0.1作为ECS IP，大部分域名可以解析到默认线路，无省份运营商区分，解析到国外IP的概率倒是不高。

该组DNS貌似会随机劫持某些域名到其他IP，并302跳转到其他违规网站。历史测试截图如下。

【注3】截止本文时间（2024.12.18），之前历史被劫持域名已经没有被劫持，且之前被劫持到的相关IP也已经无法访问，疑似已经被处理。

case 3：154.86.x.x

该组递归DNS分布于多个C段，部署于中国香港，目前看国内各省份运营商皆有固网/wifi用户访问，设置比例大约在小千分之x，使用移动网络则不会访问该组递归DNS，具体对外提供服务时间则不确定。

该组递归DNS后端在进行递归请求时会随机转发给国内外多个其他公共DNS,且并未携带ecs，大部分域名的解析结果IP为国外IP，会导致终端用户访问延迟升高，递归DNS后端出口IP测试结果如下所示，其中包括Google、UltraDNS等其他的公共DNS的递归出口IP

该组DNS因为是纯转发，所以部分特征会测试到转发目标公共DNS的特征，如NeuStar家的UltraDNS，但实际并非该集群本身的版本特征，也并非转发目标公共DNS部署的DNS缓存转发服务，部分特征测试结果如下所示：

dig version.bind chaos txt @154.86.x.x +short
“1733297354.ultradns”
dig hostname.bind chaos txt @154.86.x.x +short
“rcrsv2.jptyo1.ultradns”

dig version.bind chaos txt @154.86.x.x
version.bind. 86400 CH TXT “PowerDNS Recursor 5.1.1 (built Jul 22 2024 13:49:14 by root@localhost)”

dig version.bind chaos txt @154.86.x.x +short
version.bind. 75428 CH TXT “Q9-P-7.6”

该组DNS貌似会随机劫持某些过期域名到其他IP，并302跳转到其他网站（有点类似纠错页），当前（2024.12.18）跳转的目标网站实测无法访问，也未找到历史网页内容，且很多安全情报都会报告风险并进行访问拦截，没有什么实质性的影响。

2023年5月17日2023年5月24日

乐观 DNS 缓存那些事

本文主要内容包括乐观 DNS 缓存的介绍，现网使用中的优缺点，国内部分递归 DNS（不包含境外 DNS）的使用情况数据，及如何规避乐观 DNS 等内容。

约60%的运营商递归 DNS 开启了乐观 DNS

乐观 DNS 缓存介绍

乐观 DNS 缓存（Optimistic DNS、RFC8767:Serving Stale Data to Improve DNS Resiliency等，本文后续以乐观 DNS 代替），简单的说就是在客户端向递归 DNS 发起一个域名的 DNS 查询请求时，如果递归 DNS 缓存中的记录已经过期（缓存时间超过了 TTL 时间）时，还是会应答该过期记录的行为。

【注意:】准确的说目前运营商的递归 DNS、南京信风公共 DNS（114.114.114.114）和阿里云公共 DNS（223.5.5.5）等使用过期缓存应答行为与 RFC8764 中乐观 DNS 的行为是冲突的，并不是真正的乐观 DNS 缓存，但此处也先以乐观 DNS 称呼。

RFC8767 中的对乐观 DNS 行为的是只有权威 DNS 解析失败时，比如DDoS 攻击、网络等其他原因导致的超时、REFUSE等错误时才向客户端应答过期的缓存记录数据，而目前部分国内支持乐观 DNS 行为的递归 DNS 则不关注权威应答成功或失败，直接给客户端应答缓存中的过期记录，再去异步向权威查询。
- 使用过期缓存应答的客户端查询超时时间在标准 RFC 中建议为 1.8 秒，但从个人的经验看，这个值在现网环境中明显有点高了，可以考虑酌情降低，个人建议低于 400 ms
最大过期时间（A maximum stale timer）即 TTL 过期多长时间内可以继续应答过期的记录，RFC 的建议是 1 – 3 天，而目前部分国内递归 DNS 在实践中该时间是无限的。

乐观 DNS 的优点

乐观 DNS 对终端用户的使用体验以及递归 DNS 服务提供商有一些好处，主要包括以下方面：

在缓存的记录 TTL 过期后降低客户端的 DNS 解析时延，尤其是请求量不是很大的冷域名没有了冷启动过程，因为省却了同步的向各级权威 DNS (包括根 DNS, TLD DNS, zone 域名 DNS等 ) 递归（迭代） DNS 查询的过程。
- 此处主要是部分国内非标准实现的乐观 DNS 的优点。
- 运营商递归 DNS 或云厂商等公共 DNS 中普遍使用缓存和递归分离的多级架构中，此方式工程实现上更为简单，缓存层可以无需保存递归过程中的客户端连接状态信息。
当权威 DNS (包括根 DNS, TLD DNS, zone 域名 DNS等 ) 遭受 DDoS 攻击或其他故障无法响应递归 DNS 的查询时，不影响客户端获取请求域名的记录，虽然 TTL 已经过期，但是比解析失败更好一些（”stale bread is better than no bread.”）。
- 此处可以减少递归 DNS 提供商的收到的无法解析等情况问题反馈、咨询工单等。
- 降低递归 DNS 的成本，包括网络带宽和计算资源成本等，权威失败时仅间隔性的重试到权威的请求。

乐观 DNS 的缺点

如果按照标准的 RFC8767 去实现乐观 DNS，这里其实并没有什么显著的缺点，因为只有在权威 DNS 不可用或不稳定时才会触发该功能，虽然可能会有一些解析错误的情况出现，但至少不会使情况变得更糟。

乐观 DNS 更多的缺点来自目前部分递归 DNS 的非标实现，主要包括以下方面：

过期的解析记录在递归 DNS 缓存中可能长期（数小时、数天、甚至数月）无法刷新，还可能解析到旧的记录，尤其是对平时解析量不大的冷域名，此时过期的记录很可能早已无法访问。
- 尤其是最大过期时间（A maximum stale timer）设置为无限时，而不是标准建议的 1-3 天或自行稍微斟酌修改的时间。
- 此处会增加递归 DNS 提供商的收到的解析错误等情况问题反馈、咨询工单等，具体最终工单量增加还是减少需视客户业务和网络等情况单独去看。
对需要频繁切换记录的域名不友好，如全局负载均衡或 CDN 调度等。
- 如果域名的 DNS 查询请求量足够大，则可以减轻该影响。

个人观点

基本支持标准 RFC 的乐观 DNS 行为。
强烈反对部分递归 DNS 的乐观 DNS 的非标实现，见之前乐观 DNS 介绍中的注意事项，降低解析时延不能以解析到错误甚至不可用的 IP 为代价。
使用开源软件等自建自用递归 DNS 的场景，根据个人需求自行设置缓存规则即可。

国内乐观 DNS 测试

测试范围及方法

测试范围：境内 31 个省份三大运营商（电信、联通、移动）共 93 个测试目标，及部分公共 DNS （119.29.29.29,114.114.114.114,223.5.5.5）共 3 个测试目标。
测试的大体步骤如下所示，该测试过程会重复测试多次：
- 步骤1，首先设置测试域名opt.test.example.com的 A 记录为1.1.1.1，并设置 TTL 为 600 秒。
  - 此处的测试域名和测试 IP 都非真实的测试域名和测试 IP，仅为说明测试过程。
- 步骤2，通过遍布全国的测试客户端（IDC 及 LastMile）请求测试域名，其中包括直接指定目标递归 DNS 进行解析（IDC）和 http 请求中包含的 DNS 解析（LastMile）。
  - 本过程的目的使客户端使用的递归 DNS 都解析并缓存过opt.test.example.com的 A 记录为1.1.1.1
- 步骤3，等待步骤2的全部测试全部结束后，修改测试域名opt.test.example.com的 A 记录为2.2.2.2，并设置 TTL 为 600 秒。
- 步骤4，等待不小于 1 小时（数倍 600 秒的 TTL ）后，确保递归 DNS 缓存记录的 TTL 已经过期。
- 步骤5，重复步骤2，通过全国各地的测试客户端重新请求测试域名。
  - 此处绝大部分测试客户端已经排除了客户端本地 DNS 缓存的影响，尽量直接向本地设置的递归 DNS 进行请求。
- 步骤6，过滤掉干扰 DNS（如 LastMile 的路由器的内网 IP段等），仅保留本地运营商实际的递归 DNS 和目标公共 DNS 的数据记录进行统计，如果仍然存在会解析到已经过期的旧 IP 1.1.1.1,则认为该递归 DNS 开启了乐观 DNS，如果所有记录都为新的 IP2.2.2.2,则认为该递归 DNS 未开启乐观 DNS。
  - 为减少偶然情况的影响，以上测试步骤会执行多次。

测试数据

从目前目前国内的主流的递归 DNS 测试数据看，过半数（约60%左右）已经开启了乐观 DNS，本文仅列出测试数据，不详细点评。

公共 DNS 乐观 DNS 开启情况

本次测试了三家公共 DNS，119.29.29.29,114.114.114.114和223.5.5.5，其中119.29.29.29未开启乐观 DNS，114.114.114.114和223.5.5.5则开启了乐观 DNS。

运营商递归 DNS（LocalDNS/LDNS）乐观 DNS 开启情况

运营商递归 DNS 开启了乐观 DNS 的总体比列大约在 60% 左右，以下为详细数据

该数据仅代表本次测试的统计情况。

IDC + LastMile 测试数据

在所有的 93 个测试目标中共有 57 个测试目标测试到开启了乐观 DNS，占比 57 / 93 = 61.29%
电信 15 个测试目标开启了乐观 DNS，占比 15 / 31 = 48.39%
联通 25 个测试目标开启了乐观 DNS，占比 25 / 31 = 80.65%
移动 17 个测试目标开启了乐观 DNS，占比 17 / 31 = 54.84%

IDC测试数据

虽然在 LastMile 的测试中，已经尽量规避了客户端本地 DNS 缓存的影响，但是我们仍不能保证一定未使用客户端本地缓存，所以单独列出 IDC 的测试数据。

在所有的 93 个测试目标我们通过各种渠道搜集到 81 个对应的 IDC 客户端，可以完全排除本地 DNS 缓存的影响，数据如下：

共 47 个测试目标开启了乐观 DNS，占比 47 / 81 = 58.02%
电信共测试了 27 个测试目标，其中 11 个测试目标开启了乐观 DNS，占比 11 / 27 = 40.74%
联通共测试了 28 个测试目标，其中 22 个测试目标开启了乐观 DNS，占比 22 / 28 = 78.57%
移动共测试了 28 个测试目标，其中 14 个测试目标开启了乐观 DNS，占比 14 / 28 = 50.00%

如何规避乐观DNS

如果业务域名的请求量较大，可以较快的触发递归 DNS 快速刷新到新的记录，那么乐观 DNS 可以微弱的降低解析时延，目前没有看到太明显的缺点，正常使用各递归 DNS 即可。

请求量大的热域名，则缓存命中率高，总体时延降低有限。

然而在很多实际的业务中，对切换实时性要求比较高，但是访问量又没有那么大的中小域名，目前如此高比例非标准实现的乐观 DNS肯定会对业务存在一定的影响，此时就需要一些其他技术手段来对乐观 DNS 进行规避，下面介绍一些方法，其中部分方法比较常见，外网已经有很多的公开信息可以查询参考，此处就不展开详细介绍。

提前修改解析记录/保留旧IP一段时间

如果是有规划的切换 IP 时，也可以考虑预留几天（如3天）的缓冲期，这段时间内新旧 IP 都保持可用，来降低 LocalDNS 会返回过期 IP 造成的影响。
- 类似于修改域名的 NS，需要留几天的缓冲期保持新旧NS的记录都可用并同步更新
- 不适用于临时或频繁的切换 IP
- 即使保留 3 天的缓存，也不能保证完全刷新掉旧的IP
- 感谢 @changlinli 提供

可以使用未开启乐观 DNS 的公共 DNS 来规避乐观 DNS，目前国内腾讯云 DNSPod 的公共 DNS 等是未开启乐观 DNS 可供选用。不同的使用方式有不同的接入方法，更多信息可以参考这里。

使用未开启乐观 DNS 的公共DNS

通用的公共 DNS

需要修改 WIFI/路由器等使用的 DNS IP，有一定使用门槛，且普通 DNS 请求容易被劫持。

DoH/DoT(DoQ)

需要较高的 PC 操作系统版本/浏览器/手机 OS（主流IOS/Android均支持）等支持，并进行配置，也有一定的使用门槛。

HttpDNS/HttpsDNS

近年来的常规方式，在各大 APP 中广泛使用，更多 HttpDNS 的介绍。

优点：可以指定 HttpDNS 服务器，绕开 LocalDNS，DNS 控制自由度较高，且有丰富的统计信息查看等，即使在 HttpDNS 故障时，也可以降级回本地 LocalDNS
缺点：使用场景受限，主要是在移动端 APP、PC 客户端等有端场景，其他的浏览器等场景使用受限；有改造接入门槛；请求次数收费等使用成本较高。

刷新递归 DNS 缓存

联系运营商主动刷新缓存

部分运营商（如天翼云域名无忧）提供了递归 DNS 缓存刷新接口，但是也存在比较多的问题价格很贵，使用不便等问题。

价格很贵：三大运营商的缓存刷新服务一般为数千元/次，可以刷新某域名在本运营商所有省份的递归 DNS 缓存，如重大业务重大故障的切换需要刷新可以考虑使用，但是如果普通的切换也使用的话则明显成本太高。
使用不便：一般需要单独联系各个渠道去购买或使用该功能，缺少一键全量刷新的手段。
覆盖不全：除了三大运营商外，其他中小运营商和公共 DNS 很少提供公开的缓存刷新服务。

通过拨测客户端被动刷新缓存

通过各种不同的客户端或拨测工具，大量请求目标域名，触发对应的递归 DNS 被动的刷新缓存。

公开免费的拨测工具对各种递归 DNS 的覆盖度不够完整。
使用商业拨测工具大量拨测的价格也不低。

2022年1月4日2022年1月27日

DNS 解析中的搜索引擎线路那些事儿

本文不会贴出任何搜索引擎蜘蛛实际的测试数据，仅作理论分析，感兴趣的同学可以根据一些公开的第三方工具和文章中提到的一些技术方案自行分析。

首先简单介绍下 DNS 解析中搜索引擎线路的作用，当代权威 DNS 的基本功能都包括分线路解析（也有智能解析、view、geo 等等名字），其中很多权威 DNS 服务商会提供针对搜索引擎蜘蛛抓取的线路（包括搜索引擎线路、SEO 优化、搜索引擎回源等等名字），主要目的是对普通用户返回 CDN 或其他通用的地址，而准对搜索引擎蜘蛛的抓取则直接返回源站的地址，可以提高权重、收录等目的。

搜索引擎蜘蛛在抓取网页前，首先要进行域名解析，获取目标域名的 IP 地址之后再进行抓取，此处需要涉及到蜘蛛使用的 LocalDNS 和目标域名使用的权威 DNS 两个部分的解析过程，首先介绍权威 DNS 解析过程。

权威 DNS 解析过程

权威 DNS 主要是依靠 LocalDNS 发送的 DNS 请求中的 IP 地址来进行分线路的解析的，而携带 IP 地址主要有两个位置，分别进行说明。

DNS 请求源地址

一个标准的 DNS 请求不管是 UDP 还是 TCP 协议，都必然要有其源 IP 地址，权威 DNS 服务器可以通过获取该地址来查询 IP 库和线路设置情况来进行分线路解析。

edns_client_subnet(ECS) 选项中携带 IP 地址

DNS 扩展协议中的 ECS 段可以在 DNS 请求包额外携带 IP 地址来供权威 DNS 获取并依此进行分线路解析，主要用于提升节点分布于全球的公共 DNS 来提升解析准确度，但是 ECS 的现状是大量权威 DNS 已经实现了对 ECS 的支持，但是 LocalDNS 对 ECS 的支持情况则很不乐观，除了 Google Public DNS 和 OpenDNS 有相对比较完整的支持外，其他包括运营商 DNS 和大部分其他公共 DNS 并没有很完整的支持 ECS 协议（ECS 协议支持情况可以参考之前的一篇文章《国内主要公共 DNS 支持 ECS 情况测试 – 20210315》）。

当然可知目前绝大部分的搜索引擎蜘蛛使用的 LocalDNS 也都是不支持 ECS 协议的，而权威 DNS 要正确解析蜘蛛访问的域名的线路主要就依赖蜘蛛使用的 LocalDNS 本身的外网出口 IP 来判断。下面再讨论蜘蛛使用的 LocalDNS 几种不同的场景。

蜘蛛使用的 LocalDNS

蜘蛛使用的 DNS 可能分为几种情况：

1. 使用蜘蛛独占的网段搭建 LocalDNS 进行解析

这种情况是对权威 DNS 的搜索引擎线路最友好的方式，该网段为蜘蛛独占，不与其他业务混用，尤其是公共DNS，目标域名的权威 DNS 只需要定期收集更新其蜘蛛使用的 LocalDNS 的外网出口 IP 即可达到很好的优化效果。

如果蜘蛛 IP 和 LocalDNS 的外网出口 IP 地址位于相同网段，通过搜索引擎官网公布或第三方收集的蜘蛛 IP、蜘蛛的 UA、IP 段的反解析结果等收集、验证、更新蜘蛛 IP 段即可。

如果 LocalDNS 的外网出口 IP 地址与蜘蛛 IP 位于不同网段，但是只要该网段依然是蜘蛛独占，可以通过一些技术手段来收集这些 LocalDNS 的外网出口 IP，如向 LocalDNS 请求 whoami.ip.dnspod.net，则返回结果即为该 LocalDNS 的外网出口 IP，如果 LocalDNS 支持 ECS，则会同时返回 LocalDNS 请求的源 IP 和携带的 ECS IP。

类似可以检测 LocalDNS 的外网出口 IP 的域名现网有多家大厂都有提供，仅返回结果的展示方式不一致。

但是想想就知道，蜘蛛全部独占相关的网段的可能性有多低，现网的相关测试数据也完全证明蜘蛛使用的网段大部分是也有其他业务在使用，其实大部分其他业务复用蜘蛛 IP 段不会对搜索引擎线路优化有什么影响，除了公共 DNS。

2. 蜘蛛 LocalDNS 的外网出口 IP 网段和公共 DNS 网段重合

这种场景对同时提供搜索引擎服务和公共 DNS 服务的厂商是非常常见的，此处也不再进行举例说明，仅说明存在的问题。

目前从各种渠道获取到的蜘蛛 IP（包括其使用的 LocalDNS 外网出口 IP）在 IPv4（IPv6 本文不额外讨论）中一般精度可达到 C 段 IP（/24），非常难达到非常准确的 /32 精度，这就导致权威 DNS 无法区分来访问的 IP 到底是蜘蛛来访问的还是普通用户使用公共 DNS 来访问的，从而无法给双方都解析到准确的结果，只能折衷选取一种策略。

举例说明，目前腾讯云 DNSPod 的解析策略是对此类 IP 不添加到蜘蛛 IP 库中，结果是蜘蛛很大概率无法获取搜索引擎线路设置的特定结果，但是也不会造成普通用户错误的获取到蜘蛛线路的解析结果，尤其是在其公共 DNS 服务的普通用户体量巨大的时候。

3. 直接使用公共 DNS 进行解析

公开的 LocalDNS 包括运营商 DNS 和其他公共 DNS，因为运营商 DNS 大多有源 IP 段必须为本运营商的限制，对于可能分布于各地的蜘蛛来说不是很好的选择，公共 DNS 则可以作为主要选择。

蜘蛛可以直接使用这些公共 DNS 进行解析或者自建的缓存 LocalDNS 本身不进行递归查询，只是将解析请求转发至公共 DNS 并缓存解析结果。

此类场景在蜘蛛中也是比较常见的，因为可以节省大量的 LocalDNS 的部署维护成本，导致的结果和策略选择也与第二种场景一致。

解决方案

如果想让权威 DNS 的搜索引擎线路更有效，解决目前存在的问题，可以考虑 2 种方案，但是都存在相同的问题，虽然理论上是有一定的可操作性的，但是实际中确较难达成，主要维护成本或资源成本，且依赖搜索引擎的部署策略，与权威 DNS 不是一家的^_^。

蜘蛛及其 LocalDNS 使用 IP 段不要与公共 DNS 复用
蜘蛛使用支持完整 ECS 的递归 DNS

方案 1 主要针对蜘蛛自建 LocalDNS ，实施难度本身不大，主要是在部署自己的 LocalDNS 时能够和公共 DNS 隔离即可，需要更多的IP段资源，且在后续变更时需要注意一直维护该策略不变才可。

方案 2 主要针对直接使用或者转发到公共 DNS 的蜘蛛，因为完整的 ECS 在 LocalDNS 中对域名的解析结果会按照网段进行缓存，即使蜘蛛与普通用户复用相同 DNS 也不会造成很大的影响，仅对蜘蛛 IP 同网段的其他业务可能产生一定的影响，范围非常有限，不会影响到大量的普通用户的访问。

此方案存在的问题主要是公共 DNS 支持完整 ECS 的少之又少，尤其是在国内短期内不一定会有长期持续而稳定支持完整 ECS 的公共 DNS，而 Google Public DNS 和 OpenDNS 则对国内使用者非常不友好，可操作性不如方案 1。

2021年10月8日2021年10月11日

DNS 控制面异常处理思考与实践

这个国庆假期互联网最大的新闻就是某不存在的公司 Facebook 全线业务宕机了 7 个小时，这其中有一个不起眼但是很关键的原因是其权威 DNS 节点在检测到部分网络异常（可以理解为控制面异常）后进行自我剔除操作，所有 DNS 节点“集体自杀”，从而导致 Facebook 自身及其他使用其权威 DNS 服务的业务全线异常。

这里会简单聊聊 DNSPod权威 DNS 的控制面异常时是如何处理的，包括曾经的思考与当前的实践经验，如何保障在出现类似问题的情况下尽量保障 DNS 服务的连续性，最终方案其实很简单，一点都不高大上，但好在简单实用。

权威 DNS 的控制面最主要的工作是同步用户记录的修改，不管是通过私有协议还是域传送，一旦控制面异常，边缘的 DNS 节点在故障期间无法同步用户最新的记录修改数据，终端用户就可能解析到旧的 IP 上，对业务造成一定影响，所以控制面故障时主要要解决的问题就是如何防止故障节点继续响应过期记录。

当前权威 DNS 大多使用多个 IP 同时提供服务，可能是 Anycast 集群，或者单地域集群，或者混合部署，都可以提供一定的容灾和负载均衡能力。而递归 DNS 对多个不同的权威 DNS 服务 IP 一般是通过 SRTT 方式来选择使用哪一个 IP 进行请求，可以自动剔除（减少请求）故障的权威 IP，一般只要权威的 IP 列表中有可用的 IP 且容量足够就可以正常进行递归解析。

所以最简单的处理方式就是直接踢掉控制面异常的权威 DNS 节点，即可保证递归不会解析到过期的数据，但是就是这最简单的踢掉故障节点的操作，其实也会涉及到很多的思考和实践经验，下面从头开始介绍。

控制面故障影响范围分类

按照影响 DNS 节点范围和处理方式来区分控制面故障的类型，主要就是两种类型，部分节点受影响和全部节点受影响。

部分节点受影响

这里可能有多种原因，最常见的如 DNS 节点与控制中心之间的网络异常，或者部分控制中心从节点故障，只影响少部分边缘的 DNS 节点的控制面数据同步，那么这时候故障 DNS 节点自救做自我剔除，将自己从服务集群中摘除貌似完全没有影响，然后自动/手动切换到其他正常的控制节点或者等待故障的控制节点恢复，再恢复 DNS 节点的对外服务即可。

当然这里没有影响是有一个前提的，那就是剩余节点必须有足够的服务能力，而故障节点本身因为控制面故障形成了一个孤岛节点，是没有足够的信息进行相关判断的，可见即使只有部分节点受影响，故障节点也是不能轻易进行自我剔除操作的。

全部节点受影响

这里最大的可能原因是控制中心节点故障，如控制中心主节点宕机，或者网络故障导致所有从节点数据同步落后，此时如果故障 DNS 节点还进行自我剔除，所有 DNS 节点“集体自杀”了，后果严重，就是这次 Facebook 事件中 DNS 节点服务器的操作了。

如何解决

从上面的分析可以得出一个结论：权威 DNS 节点在控制面故障时一定不能做自我剔除的操作，因为孤岛节点是没有足够的信息，无法得出正确的结论，是否应该进行自我剔除，下面是前两年时讨论这个问题的一个截图，当然这个结论在很多年前其实就已经分析得出了。

故障 DNS 节点能做的是告警、尝试切换寻找正常的控制节点等操作，很多时候故障节点已经可以自动恢复，比如单独某个控制从节点故障自动切换即可恢复。但是也有时候无法自动恢复，如 DNS 节点本身内网故障的时候，而且这时候节点本身的告警也是无法正常发出来的^_^。

那就只能通过权威 DNS 节点及控制面之外的外围监控来进行处理，目前 DNSPod 的实践经验是这样的：

控制面故障监控

在多个地区多个运营商部署了监控节点，对所有的权威 DNS 的 LB VIP 以及 RS 的物理 IP 持续进行拨测；
每一轮拨测前通过 API 对拨测域名添加一条 TXT 记录，记录值为当前拨测点当前时间戳；
正常情况下 DNSPod 所有的权威 DNS 节点的数据同步都是秒级的，所以一旦拨测结果与最新设置的记录值不一致，则可以判断该节点数据同步落后，并可以计算出落后的时长，汇总统计所有数据同步落后节点后发出告警，实现对 DNS 节点控制面是否正常的监控。
该监控可以同时对 DNS 节点的数据面是否能够正常解析进行监控告警。

控制面故障处理

接下来就需要对控制面故障的 DNS 节点进行处理，此处可以有多种处理方式，自动或手动，DNSPod 目前主要还是手动处理，主要由以下几个原因：

目前外部的监控节点对 DNS 服务器做的是完全黑盒拨测，很难自动判断 DNS 节点控制面故障的真实原因，从而无法确定处理方式。
监控节点无法直接控制 DNS 服务器的行为，而通过控制中心处理的话，但是此时控制面已经异常了，可能会陷入死锁无法处理，还是比如故障节点内网中断的这个场景。
大部分异常节点已经可以自动恢复，无法自动恢复的告警发生频率很低。

不同场景处理方式

本节列出几个常见的控制面故障场景，以及对应的处理方式

节点本身内网故障

此时故障节点处于一个网络孤岛，内网中断，外网因为安全原因禁止登陆，根据不同情况可以由以下几种处理方式：

如果只是 LB + RS 集群中单独某台 RS 故障，优先通过 LB 剔除；
如果LB异常或没有LB（如直接的 OSPF 集群），有带外，可以通过带外方式登陆服务器，将该服务器剔除，剔除方式优先选择停止 OSPF，如果没有 OSPF，则可以考虑封禁数据面 53 端口的请求以及停止服务程序等方式；
没有带外或者带外故障，如果该故障节点是 Anycast 节点，可以选择在交换机等处取消 BGP 广播下掉整个节点，需要能够快速联系到网络交换机相关负责人，且不会影响其他业务。
直接通过防护系统（宙斯盾）或运营商防护接口在某地域或全地域封禁该IP，此时虽然对应节点的 IP 不可用，但是 LocalDNS 可以通过文章开头提到的 SRTT 机制去其他正常节点请求，不影响总体解析。
前面的处理方式都有一个前提，就是其他节点容量足够，但是如果剩余节点容量不足怎么办，此时处理方案是不对 DNS 节点进行下线处理，虽然可能导致部分 DNS 请求会解析到过时的记录，但是有变化的记录毕竟是少数，需要优先保证整个大盘的解析正常。此场景在某些极端情况下有一定的出现的可能，比如整个平台遭受持续超大量的 DDoS 攻击时，同时这台服务器出现了控制面故障，根据具体情况评估影响后可能采取此不处理下线的方式。
在权威解析控制台及注册局（商）出删除该 IP，因为 TTL 很长，一般不考虑。

控制中心完全故障导致所有节点控制面故障

类似此次的 Facebook 的最初始故障，如判断确实是控制中心就是无法连接，无法同步数据，那么也只能降级服务，不对 DNS 节点进行下线处理，等待控制中心恢复。

参考阅读

https://www.thousandeyes.com/blog/facebook-outage-analysis

2021年8月30日2021年8月31日

基于 F-Stack 的权威 DNS 单机 1 亿 QPS 性能优化实践

腾讯云 DNSPod 的权威 DNS 解析目前包含两个版本，基于 F-Stack 的 FTDNS 和基于内核协议栈的 DPDNS，其中 FTDNS 目前性能远高于 DPDNS，是腾讯云对外提供权威 DNS 服务的主力，而 DPDNS 目前主要用作异构容灾及部分特殊场景的部署，如部分只能使用 CVM 或私有化部署的场景。

本文主要介绍 FTDNS 在对 100G 机型进行适配优化的过程，UDP DNS 如何达到单机 1 亿 QPS 的性能，主要涉及网络 I/O 的性能优化和 DNS 解析计算资源的平衡分配，对于 TCP DNS 和内核版的 DPDNS 的性能优化后续将专门进行介绍。

测试平台

测试程序：FTDNS，权威DNS解析程序
F-Stack: 1.21(DPDK 19.11)
OS: Tencent tlinux release 2.2 (Final)
Kernel: 4.14.105-1-tlinux3-0020
CPU: AMD EPYC 7K62 48-Core Processor * 2
NIC: Mellanox Technologies MT28800 Family [ConnectX-5 Ex]
Device type: ConnectX5
Name: MCX516A-CDA_Ax_Bx
Description: ConnectX-5 Ex EN network interface card; 100GbE dual-port QSFP28; PCIe4.0 x16; tall bracket; ROHS R6

Run to completion 架构

因为 DNS 解析的总体逻辑相对比较简单，除了网络 I/O 外只有查找本地缓存查找，所以 FTDNS 在常规架构下完全使用 RTC(Run to completion) 架构以达到更好的性能，网卡收发队列、协议栈、应用与 CPU 核心一一绑定，如下图所示

对于 UDP DNS 请求，直接通过网卡的 RSS 功能将请求包负载收包至已经绑定到各个队列和 CPU 的 FTDNS 业务进程中，并且使用 F-Stack lib 提供的 ff_regist_packet_dispatcher() 函数直接注册回调函数对 UDP 的 DNS 请求包直接进行应用层的解析处理，并直接回包，旁路掉同为用户态的 FreeBSD 的网络协议栈。

性能测试

在拿到 100G 的机器后，使用原有程序直接进行了性能测试，最优性能表现如下图所示

该测试机型单个 NUMA 节点的 CPU 为 48 核 96 线程，对应一张 100G 网卡，为了达到最优性能，正常只使用 48 个物理核进行测试，通过对不同核数分别进行测试，发现在使用 32 核左右时才能达到最优性能，但是也只有 76M 的 QPS，离一亿的小目标差距有点大，接下来进行瓶颈分析。

瓶颈分析

因为直接启动 48 个业务进程测得的性能很低，只有 35M QPS 左右，而此时 CPU 并没跑满，空闲都在一半以上，如下图所示

所以分别启动不同数量的业务进程分别测得性能数据，且为了排除 FTDNS 业务应用本身性能的影响，同时做了部分关闭 DNS 实际解析逻辑（其他处理逻辑保留）的 echo server 的对比测试，测试结果大致如下

进程数	空载性能(QPS）	DNS性能(QPS）
4	80 M	/
8	107 M	19 M
12	113 M	28 M
16	113 M	38 M
20	84 M	47 M
24	80 M	56 M
32	77 M	76 M
40	40 M	40 M
48	37 M	/

很明显，从以上数据可以得出几个结论：

收发包性能受队列数影响很大：当队列数较少时，收发包性能主要受 CPU 性能本身影响；当接近 16 个队列时，收发包性能最优，可以达到 113M QPS（非单纯收发的最高性能，因为还包括其他处理逻辑），之后性能急剧下降，分析主要是受 PCIE 通道数量为 16 个的影响，当队列数超过 16 后造成性能下降（此条以后如拿到其他配置机型后可做对比测试进行验证）。
DNS 解析查询性能可线性扩展：当进程数较少时，FTDNS 的性能主要受限于 CPU 的计算性能，在达到收发包极限前，性能可以随进程数增长而线性增长（纯内存缓存、无共享、无锁等），超过 32 进程之后则受收发包性能影响，CPU 出现大量空闲。

优化方向

1. 调整网卡相关参数

通过查看 MLX5 网卡的相关参数文档，对部分参数进行组合调整并压测验证，如 mprq_en, rxqs_min_mprq, mprq_log_stride_size, mprq_max_memcpy_len, txqs_min_inline, txq_mpw_en 等，期望可以达到在网卡开启更多接收队列（如 48 个）也能达到更高的收发包性能，最终通过大量的测试表明，在48队列时网卡的收发包性能依然很低，辅证是由 PCIE 通道数引起的性能下降，此处不再详细展开。

2. 架构优化

2.1 Pipeline

既然网卡开启 16 个接收队列时可以达到最好的接收性能，那么很自然的一个想法，将业务程序的架构由 Run to completion 改为 Pipeline 架构，只开启 16 个接收队列专门用于接收 DNS 请求，再通过 rte ring 将请求报转发到其他业务进程进行实际的 DNS 解析后再直接发送出去，虽然单进程性能会因为 CPU cache miss 的问题急剧下降，但是可以使用更多的 CPU 运行业务进程来弥补，架构简图如下所示。

F-Stack 本身已经提供了函数 ff_regist_packet_dispatcher() 用于对接收到的数据包进行重新分发，且 FTDNS 中已经使用来直接进行 UDP DNS 的解析，稍作修改前 16 个进程仅分发，不再处理 DNS 解析即可，但是实际测试发现转发性能太差，perf 分析主要是软分发回调函数是对数据包一个个进行处理的，性能较差。

所以不得不侵入式修改 F-Stack 的转发逻辑，在 F-Stack 的收发包主循环中，
前 16 个进程在接收到数据包后直接批量根据配置转发到业务进程中，转发到 ring 的性能得到提升，但业务进程单核性能也下降明显，实测结果如下图所示，

48 进程 Pipelie QPS
【注】该统计将 F-Stack 对流量信息统计进行了修改，软分发也统计到了 worker 进程上，更直观

此时 48 核为同一个 NUMA 节点的物理核心，全部使用后性能可以达到 68M QPS，单核性能下降约 12%，符合前期的心里预期，查看 perf 信息，热点也符合预期（如下图所示）。

如果有更多业务进程，是否就可以达到小目标了呢？因为机器架构限制的原因，本物理核的另外 48 个超线程核心很难使用到，且根据历史经验，即使使用性能提升也非常小，所以直接继续使用另一个 NUMA 节点的 CPU 的物理核心进行进一步测试，可以用到 80 个 CPU 核心，对应的收包分发线程调整为 20 进程，测试得到 Pipeline 的最优性能如下图所示。

80 进程 Pipeline QPS
【注】：此处 PPS 统计使用的是 F-Stack 原始统计方式，不够直观

性能有很大进展，已经达到了 95M QPS，离小目标不远了，但是也可以看出来进程 48 – 79 跨 NUMA 访问的 32 个进程 CPU 使用率是高于本 NUMA 节点的 CPU 的，查看 perf 信息同样证明了跨 NUMA 访问存在的问题。

此架构下继续调整尝试多次，包括继续增加 CPU 等，也无法达到更好的性能，只好尝试其他方向。

2.2 Run to completion + Pipeline

分析 48 进程 Pipeline 架构的 CPU 图可以发现，dispatcher 进程的 CPU 尚有一半空闲，是否也可以利用起来呢？

继续对分发部分代码进行稍微的修改， dispatcher 进程可以支持按照配置的分发进程数自动将收包分别交由本进程的应用层进行解析处理或者通过 Ring 转发到其他 worker 进程，架构如下图所示

RTC + Pipleline 架构
【注】：红色箭头表示与 Pipeline 架构不同的数据包流向

经过多次尝试调整不同进程的数量以及数据包分发比例，最终还是每个 dispatcher 与 worker 进程处理相同量的数据包，但是一个 dispatcher 进程可以根据配置自动对应多个 worker 进程，并测试得到了此时的最优性能，如下图所示

此处达到了 92M的性能，但是总性能还是略差于 Pipleline 性能，优势就是只使用了 48 个 CPU，使用 24 dispatcher + 24 worker 与 16 dispatcher + 32 worker 总体性能相当，此时虽然 dispatcher 进程依然有部分 CPU 空闲，但是增加其 DNS 处理比列并不能提升整体性能了，主要是因为如果分配更多的 CPU 时间片到 DNS 业务处理，则整体轮询次数减少，导致收包能力下降。

此时但是小目标依然没能实现，还需要考虑其他优化点。

2.3 单进程性能提升

在 RTC 测试中，单核 DNS 的性能虽然达到 2.38M QPS，已经很高了，但是通过 perf 分析在 DNS 业务处理逻辑中查询缓存时的 Hash 和 Key 的字符串比较函数占用 CPU 较高，依然有一定的优化空间，先看下 FTDNS 内存缓存结构，如下图所示

内存缓存是常规的 Hash 表结构，解决 Hash 冲突使用的是拉链法，存储的是写入时已经组好 DNS 应答包格式的数据，且无共享（无任何多写的数据结构）、无锁（类似 RCU 锁思想，但是并不加锁）等。

对 Hash 的 Key 进行优化，去除了部分不必包含和字符串比较函数进行优化，去除了部分非必要的字段，减少了需要进行 Hash 计算的 Key 长度。

因为大部分 Key 较短，暂未使用 memcmp() 进行比较，因为仅需要判断 Key 是否相等即可，所以自行实现字符串比较函数，去除标准比较函数中多余的操作。

优化完成后，Pipeline 和 RTC + Pipeline 架构的性能都达到了 1 亿(100M) QPS 的小目标，性能测试结果如下所示

虽然两种架构的性能都达到了目标，但是综合考虑 RTC + Pipeline 只需要使用一个 NUMA 节点的 48 个物理核心即可，可以节省大量的 CPU 计算资源，且性能只是略低，所以最终在 FTDNS 中采用 RTC + Pipeline 的架构，常规配置 dispatcher 进程数量为 0 表示使用 RTC 模式，如有需要可以随时修改配置切换为 RTC + Pipeline 模式。

其他问题

本次测试使用的是 AMD CPU + Mellanox 的网卡，对于其他组合后续拿到其他组合的机型（如 Intel 的 CPU，Intel 或 Broadcom 的网卡等）也需要进行对应的测试，测试性能及验证队列数多于 PCIE 通道数时性能下降的问题，该问题也与 Intel 工程师有过交流。
跨 CPU 核心访问数据性能下降问题 Intel 工程师表示后续会有新的指令集可能对性能提升会有帮助。
后续还需要对 TCP DNS，或者说 F-Stack 在 100GE 机型上的短/长链接 TCP 进行测试和优化。

2021年3月15日2021年3月15日

国内主要公共 DNS 支持 ECS 情况测试 – 20210315

本次测试仅通过黑盒测试分析不同公共 DNS 当前（20210315）是否支持 ECS，及方案上的一些差异，相关方案的优劣不进行额外说明。

结论

厂商	IP	是否支持ECS
腾讯云/DNSPod	119.29.29.29、119.28.28.28	是
阿里	223.5.5.5、223.6.6.6	是
DNS派	101.226.4.6、123.125.81.6等	是
OneDNS	117.50.11.11、52.80.66.66	否
114	114.114.114.114、114.114.115.115	否
CNNIC	1.2.4.8、210.2.4.8	否
百度	180.76.76.76	否

细节差异简析

腾讯云/DNSPod

绝大部分后端递归节点是支持 ECS 的节点，少部分递归节点为不支持 ECS 的节点；其中不支持 ECS 的节点仅会对本省本运营商的请求进行递归，支持 ECS 的递归节点可为所有线路进行递归。
支持 ECS 的递归节点携带用户的实际 IP 作为 ECS IP 向权威 DNS 进行请求，为防源 IP 泄漏，统一格式化为 x.x.x.1/32。
缓存层按照省份运营商线路(如广东电信)进行缓存，减少缓存量。

阿里

部分后端递归节点是支持 ECS 的节点，部分递归节点为不支持 ECS 的节点；；其中不支持 ECS 的节点仅会对本省本运营商的请求进行递归，支持 ECS 的递归节点为未部署后端递归节点的线路进行递归。
支持 ECS 的递归节点不会携带实际用户的 IP 向权威 DNS 请求，而是携带相关线路固定的 IP 作为 ECS IP 向权威 DNS 进行请求，并格式化为 x.x.x.0/24，目的可能是为了减少递归 DNS 节点的缓存量。
中国移动线路在未选择到后端递归节点的省份中，似乎都选择了相同的一个移动 IP 作为 ECS IP，没有为不同省份选择不同的 ECS IP。
缓存层按照省份运营商线路(如广东电信)进行缓存，减少缓存量。

DNS 派

绝大部分后端递归节点是支持 ECS 的节点，少部分递归节点为不支持 ECS 的节点。
支持 ECS 的递归节点携带用户的实际 IP 作为 ECS IP 向权威 DNS 进行请求，为防源 IP 泄漏，统一格式化为 x.x.x.0/24。
无缓存的应答结果可能返回多个 ECS 段。
缓存层按照省份运营商线路(如广东电信)进行缓存，减少缓存量。
海外转发至其他公共 DNS，如 CloudFlare 的 1.1.1.1。

OneDNS

本身的后端递归节点不支持 ECS，部分省份运营商会转发至腾讯云/DNSPod 的公共 DNS 进行解析。
海外请求全部转发至腾讯云/DNSPod 的公共 DNS 进行解析。

其他

测试的114、CNNIC、百度等公共 DNS 暂不支持 ECS。
支持 ECS 的公共 DNS 部分不支持 ECS 的递归节点不一定是真的不支持，不排除 DNS 请求被重定向的可能。

2021年3月4日2023年12月21日

IOS14对使用8.8.8.8进行DNS(CDN)调度的影响

2023-12-21更新：虽然8.8.8.8对MX、CAA以及其他类型等依然不支持ecs（符合RFC标准），但是在cname链中已经不会对A/AAAA等其他记录类型造成影响，看上去像是单独处理了，已经修复了该问题。

但是依然存在ecs失效的可能，比如8.8.8.8的递归到权威的请求偶发超时、请求权威跨国且请求了同权威IP被污染的域名等场景，依然可能造成递归判断权威的IP不支持ecs，导致后续一段时间内的ecs失效，暂无太好的办法。

2021-04-02 更新: Google 公共 DNS 已经对 HTTPS 和 SVCB 支持了 ECS，其他类型正在评估，测试正常。

2021-03-26 更新：标准化组织正在对该问题进行讨论，大体方案可能为：

如果递归 DNS 准备解析 HTTPS 记录指向的域名，并且在返回给客户端的应答附加段中添加 A/AAAA 记录，则递归在向权威请求HTTPS 记录时应携带 /0，表示递归支持 ECS，但对 HTTPS 记录类型禁用，此时权威在响应时不能在附加段中添加相关 A/AAAA 记录，以便递归 DNS 携带正常的 ECS 进行 A/AAAA 记录的请求。
如果递归 DNS 不准备执行上面的方案，则递归在向权威进行 HTTPS 类型的请求时应携带与请求 A/AAAA 类型相同的 ECS。

方案1实现较复杂，递归 DNS 需要对 HTTPS 记录类型进行单独处理，此处也要注意 HTTPS 记录类型也包括对应的 CNAME，但是可以减轻缓存压力；方案2简单粗暴，对应增加的就是递归 DNS 的缓存压力。

具体信息可以参考： https://issuetracker.google.com/issues/181593657 和 https://github.com/MikeBishop/dns-alt-svc/pull/308

我们一直的观点是在国内不要使用 Google 的公共 DNS（8.8.8.8），这里再从技术层面讨论下 IOS 14 更新后使用 8.8.8.8 进行 DNS 解析对 CDN 调度的影响。

结论

在国内任意地区都不应该系统上直接设置或转发到 8.8.8.8 进行 DNS 解析，这个结论依然有效。
IOS 14 更新后会对域名自动发出 TYPE HTTPS (TYPE65) 类型的请求，这会导致 8.8.8.8 对于包含 CNAME 记录的解析结果 ECS 判断失效的情况极大增多，调度不准确的情况会远多于 IOS 14 更新之前，CDN 调度受影响比较严重。
仅限于当前时间（2021.03.04）有效，如果后续相关 DNS 请求行为有变化，则结论可能不再准确。

解析过程

公共 DNS 的解析准确度一般是通过在尽量多的地区和运营商部署递归节点，以及是通过 ECS (EDNS Client Subnet，常简称为 EDNS) 技术来提示解析准确度，最主要的使用场景就是 CDN 的调度，所以一旦 ECS 失效，对 CDN 调度的影响也是最大的。

虽然任何 DNS 都不能保证完全解析准确，但是此前 8.8.8.8 做的还是不错的，但是从 20 年 IOS 14 更新后，解析准确度每况愈下，尤其是对部分使用 CDN 进行调度的域名影响较大，经常发生国内解析到国外、不同地区使用多家 CDN 时解析结果不符合预期等问题，下面分析下 IOS 14 对该现象的具体影响过程。

假设在权威 DNS 上对typehttps.example.com配置以下记录，并且权威 DNS 对 ECS 的支持正确，8.8.8.8 的自动检测也可以正确检测到权威 DNS 是支持 ECS 的。

typehttps   默认  600 CNAME   test1.example.com.
typehttps   境外  600 CNAME   test2.example.com.
test1       默认  600 A       8.8.8.8
test2       默认  600 A       8.8.4.4

当我们从国内向 8.8.8.8 请求 typehttps.example.com或携带国内IP（如 119.29.0.0/24）的 ECS IP 时，正常过程是这样的，

dig @8.8.8.8 typehttps.example.com +subnet=119.29.0.0/24

正常的结果应该是类似这样的，因为权威 DNS 是根据 8.8.8.8 请求时携带的119.29.0.0/24进行解析的,

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 512
; CLIENT-SUBNET: 119.29.0.0/24/24
;; QUESTION SECTION:
;typehttps.example.com.           IN      A

;; ANSWER SECTION:
typehttps.example.com.  550 IN  CNAME   test1.example.com.
test1.example.com       600 IN  A       8.8.8.8

但是现在你有很大概率拿到会是以下的错误结果，

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 512
; CLIENT-SUBNET: 119.29.0.0/24/24
;; QUESTION SECTION:
;typehttps.example.com.           IN      A

;; ANSWER SECTION:
typehttps.example.com.  590 IN  CNAME   test2.example.com.
test1.example.com       600 IN  A       8.8.4.4

解析到了境外的 CNAME 及其 IP，以前虽然也可能出现这种解析错误的情况，但是相对少很多，那是什么原因呢，此时如果我们指定请求 CNAME 类型再来看下有什么区别，

dig @8.8.8.8 typehttps.example.com +subnet=119.29.0.0/24 CNAME
;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 512
; CLIENT-SUBNET: 119.29.0.0/24/0
;; QUESTION SECTION:
;typehttps.example.com.           IN      CNAME

;; ANSWER SECTION:
typehttps.example.com.  590 IN  CNAME   test2.example.com.

此时可以看到 ECS 段中的 scope 为 0，这就表示 8.8.8.8 的缓存中将境外线路的 CNAME 记录作为全局结果缓存了，那为什么会出现这种错误的解析和缓存结果呢？

通过抓包分析可以发现，8.8.8.8 对权威 DNS 发起的查询请求中，即使权威是支持 ECS 的，8.8.8.8 也并不会对所有类型的请求记录携带 ECS 段，大部分常见的请求类型，如 A 记录（IPv4）、AAAA 记录（IPv6）、CNAME 记录等并不会出现问题，但是有部分请求类型则不会携带 ECS 进行请求，而这其中有部分类型可能会返回 CNAME 记录，比如 MX 、CAA 以及 HTTPS 类型，权威 DNS 就会按照 8.8.8.8 的递归 DNS 的 IP 所在地返回境外线路的 CNAME 记录，而后 8.8.8.8 就会按照全局 /0 的 scope 缓存该 CNAME。

所以这里就破案了，具体过程是如下两图所示，

IOS14 升级后会支持 TYPE HTTPS 的记录类型，解析一个域名时应同时请求 A/AAAA/HTTPS 记录类型。
则 A 和 AAAA 记录可以正常获得境内的 CNAME 和 IP 并正常按照 119.29.0.0/24 的 IP 段缓存，但该缓存仅对该 IP 段有效.
HTTPS 类型的返回的错误 CNAME 结果就会因为上述原因作为全局 /0 的缓存。
后续所有非119.29.0.0/24网段请求都会命中全局缓存的错误 CNAME 记录，然后再对 CNAME 记录进行正常的递归查询，客户端最后拿到的就是错误的境外结果。
虽然 MX 、CAA、HTTPS 类型都会造成此问题，但是在实际的网络环境中，普通域名的 MX 和 CAA 记录类型都是很少被请求到的，所以 8.8.8.8 虽然一直存在类似的问题，但是并不严重。直到 IOS14 更新后， HTTPS 记录类型默认被请求，该问题就变得比较严重了。

影响范围

对不同地区设置了不同 CNAME 记录的域名会有较大影响，一般常见于 CDN，所以对 CDN 影响比较大，具体分析话大概是这样的，

如果境内和境外使用了不同的 CNAME 记录，如国内使用国内的 CDN，国外使用国外的 CDN，则国内使用 8.8.8.8 会大概率解析到国外线路的 CNAME，很可能解析到国外节点影响访问体验。
如果未设置其他国家、大洲、境外等线路，只是不同省份运营商使用不同的 CNAME 记录进行负载均衡，则国内使用 8.8.8.8 会大概率会解析到默认线路上，虽然会造成负载均衡效果不符合预期，但在客户端的访问体验上总体影响不大。
对境外用户影响有限，因为虽然也存在一样的 ECS 失效问题，但根据递归 DNS IP 获取到的 CNAME 结果范围不会差距很大。

规避方法

在国内避免使用 8.8.8.8，当然这里有部分运营商已经帮忙搞定这一步了，移动端则可以考虑使用 HTTPDNS 等技术手段规避。
如果条件允许，不同地区应使用相同的 CNAME，如果必须使用不同的CNAME，则需要关注默认和境外相关线路的容量等问题，如境外线路的 CDN 能提供境内 CDN 节点则可以很大的缓解该问题。

其他公共DNS

OpenDNS 208.67.222.222 仅 CAA 记录可能存在此问题；腾讯云/DNSPod 119.29.29.29，各请求类型均不受影响；阿里云 223.5.5.5 不受影响。
1.1.1.1、9.9.9.9、180.76.76.76、114.114.114.114，默认未支持 ECS ，仅能通过后端递归节点的部署进行调度，不涉及该问题。

参考资料

draft-ietf-dnsop-svcb-httpssvc-03.