← Experimentos

P1_RC_GGL: teste rigoroso de fechamento da dinâmica de galáxias e do lenteamento fraco (curvas de rotação + GGL)

Estrutura de gravidade média da EFT vs. linha de base NFW mínima para matéria escura fria (DM)

Autor: Guanglin Tu
E-mail: riniky@energyfilament.org | ORCID: 0009-0003-7659-6138
Afiliação: EFT Working Group, Shenzhen Energy Filament Science Research Co., Ltd. (China)
Versão: v1.1 | Data: 2026-02-14

Preprint (não revisado por pares) | Esta versão destina-se à divulgação pública e à reprodutibilidade, e não representa a versão final publicada em periódico.

Licença: relatório (CC BY-NC-ND 4.0); pacote completo de reprodução (CC BY 4.0).

Relatório em nível de publicação (Concept DOI): https://doi.org/10.5281/zenodo.18526334
Pacote completo de reprodução (Concept DOI): https://doi.org/10.5281/zenodo.18526286

0 Resumo executivo

Este relatório é uma edição arquivada completa, em nível de publicação, depositada no Zenodo. Ele oferece uma cadeia integrada e auditável que cobre dados, registro de modelos, comparação justa, teste de fechamento e materiais de reprodução. O Apêndice B (P1A) atua como suplemento de robustez, concentrando-se em testes de estresse com uma “linha de base DM mais padrão + uma sistemática essencial de lenteamento”, a fim de avaliar a sensibilidade das conclusões principais a uma modelagem de DM mais realista e ao tratamento das sistemáticas de lenteamento.

Conclusões centrais (quatro enunciados diretamente citáveis; ver Seção 2.4):

(1) No ajuste de curvas de rotação (RC), a família EFT supera significativamente o DM_RAZOR em todas as combinações de núcleo/prior; o ganho típico é Δlog𝓛_RC ≈ 10^3 (ver Tabela S1a).
(2) No teste de fechamento RC→GGL, a EFT apresenta maior transferibilidade entre sondas: a força de fechamento Δlog𝓛_closure (True−Perm) é significativamente maior que a do DM_RAZOR, e a diferença é robusta a varreduras de shrinkage da covariância, R_min e σ_int (ver Fig. S3 e Tabela S1b).
(3) No ajuste conjunto (RC+GGL), a EFT mantém uma vantagem estável; sob o controle negativo que rompe o mapeamento compartilhado, essa vantagem colapsa, sustentando a interpretação de que o “efeito de gravidade média” vem do mapeamento compartilhado, e não de ajuste acidental (ver Fig. S4).
(4) Sem aumentar substancialmente a dimensionalidade, o Apêndice B (P1A) submete o lado DM a testes de estresse com módulos de linha de base DM mais padrão e um parâmetro nuisance essencial de sistemática de lenteamento; esses aprimoramentos não eliminam a vantagem de fechamento da EFT (ver Tabela B1 e Fig. B1).

Disponibilidade de dados e código: relatório Concept DOI 10.5281/zenodo.18526334; pacote completo de reprodução Concept DOI 10.5281/zenodo.18526286. As tags correspondentes ao Apêndice B (P1A) são run_tag=20260213_151233, closure_tag=20260213_161731 e joint_tag=20260213_195428.

1 Resumo

Realizamos uma comparação quantitativa reprodutível entre duas estruturas teóricas sob os mesmos dados e o mesmo protocolo estatístico: o modelo de “correção de gravidade média” proposto pela Teoria do filamento de energia (Energy Filament Theory, EFT; diferente da abreviação comum para teoria efetiva de campos), e um modelo de linha de base de halo NFW de matéria escura fria (DM_RAZOR). O DM_RAZOR é escolhido deliberadamente como uma “linha de base DM mínima”: halo NFW + relação c–M fixa (sem dispersão halo a halo), para oferecer um controle auditável e reprodutível. Ao mesmo tempo, é preciso enfatizar que este artigo trata a EFT como uma parametrização fenomenológica, semelhante à MOND, de campo efetivo/resposta efetiva, usada para teste sob um protocolo estatístico unificado, e não como uma derivação de seus primeiros princípios microscópicos neste artigo.

Os dados incluem 2.295 pontos de velocidade de curvas de rotação (RC) da SPARC, após pré-processamento e binagem uniformes (104 galáxias, 20 bins de RC), além da densidade superficial excedente ΔΣ(R) de lenteamento fraco galáxia–galáxia (GGL) do KiDS-1000 (4 bins de massa estelar × 15 pontos R por bin, 60 pontos no total, usando a covariância completa).

Executamos, em sequência, inferência RC-only, teste de fechamento RC→GGL, inferência GGL-only e inferência conjunta RC+GGL, usando auditorias de consistência para garantir que todos os números citados sejam rastreáveis. Sob um registro estrito de parâmetros e restrições de mapeamento compartilhado (DM: 20 parâmetros log M200_bin; EFT: 20 parâmetros log V0_bin + 1 log ℓ global), a família EFT supera significativamente o DM_RAZOR no ajuste conjunto: ΔlogL_total = 1155–1337 em relação ao DM_RAZOR. Mais importante, o teste de fechamento mostra que o posterior de RC tem poder preditivo não trivial para GGL: a força de fechamento da EFT é ΔlogL_closure = 172–281, superior aos 127 do DM_RAZOR. Quando o agrupamento RC-bin→GGL-bin é embaralhado aleatoriamente, o sinal de fechamento colapsa para 6–23, confirmando que o sinal não é acidente estatístico nem artefato de implementação. Nas varreduras sistemáticas de σ_int, R_min e shrinkage da covariância, a vantagem relativa da EFT permanece positiva e estável em ordem de grandeza. Para responder a objeções comuns como “a linha de base DM é fraca demais” ou “sistemáticas estão sendo tratadas como física”, o Apêndice B (P1A) fornece um teste de estresse de linha de base DM mais padrão, ainda de baixa dimensionalidade e auditável, incluindo dispersão c–M hierárquica + prior, um proxy de core de um parâmetro, lensing m e o modelo combinado DM_STD; sob o mesmo protocolo de fechamento, esses aprimoramentos não eliminam a vantagem de fechamento da EFT (ver Tabela B1/Fig. B1).

Palavras-chave: curvas de rotação; lenteamento fraco galáxia–galáxia; teste de fechamento; EFT; matéria escura fria; inferência bayesiana

2 Introdução e visão geral dos resultados

Curvas de rotação (RC) e lenteamento fraco galáxia–galáxia (GGL) são duas sondas gravitacionais complementares: RC restringe o potencial dinâmico no plano do disco e a relação de aceleração radial (RAR), enquanto GGL mede a distribuição de massa projetada e a resposta gravitacional em escala de halo. Para qualquer teoria candidata, a questão central não é saber se ela consegue ajustar separadamente os dois conjuntos de dados, mas se consegue explicá-los de modo consistente sob o mesmo mapeamento entre dados e as mesmas restrições compartilhadas.

Assim, este artigo toma o “teste de fechamento” como protocolo estatístico central: primeiro usa o posterior RC-only para predizer GGL para frente e, em seguida, compara-o com um controle negativo no qual o mapeamento RC-bin→GGL-bin é permutado/embaralhado. Isso avalia a transferibilidade preditiva entre dados e exclui sinais falsos causados por viés de implementação ou ajuste acidental.

Posicionamento teórico e escopo: este artigo não tenta apresentar uma derivação microscópica de primeiros princípios da EFT (Teoria do filamento de energia), nem uma formulação relativisticamente completa. Em vez disso, tratamos a EFT como uma parametrização de baixa dimensionalidade, semelhante à MOND, de campo efetivo/resposta efetiva (descrita por uma função-núcleo f(x) e uma escala global ℓ), e testamos sua consistência entre dados e sua capacidade de predição transferível por meio do teste de fechamento RC→GGL sob um registro estrito de parâmetros.

Programa de pesquisa e declaração de escopo: este artigo faz parte de um programa observacional contínuo da série P. Nos dados existentes em escala de galáxias, buscamos duas possíveis contribuições efetivas de fundo: (i) uma “base de gravidade média”, descritível por uma resposta gravitacional média após coarse-graining, e (ii) uma “base estocástica/de ruído”, associada a flutuações de processos microscópicos. Neste artigo (P1), focamos apenas a primeira: sem introduzir nenhuma hipótese sobre mecanismos microscópicos de produção, usamos o teste de fechamento RC→GGL para recuperar indícios observacionais de uma base de gravidade média e compará-los com uma linha de base DM auditável sob um protocolo de controle unificado. Como imagem física heurística, se existirem graus de liberdade de vida curta, seu decaimento/aniquilação pode converter massa de repouso em energia-momento carregada por outros graus de liberdade, o que, no nível efetivo, corresponde naturalmente a uma decomposição “contribuição média + contribuição flutuante”; este artigo, porém, não modela quantitativamente essa imagem microscópica.

Para evitar sobreinterpretação, os limites de escopo deste artigo são os seguintes:
• O que este artigo faz: sob restrições estritas de registro de parâmetros e mapeamento compartilhado, usa testes de fechamento para medir a transferibilidade preditiva entre dados e realiza uma comparação reprodutível entre a resposta de gravidade média da EFT e uma linha de base DM.
• O que este artigo não faz: não discute mecanismos microscópicos de produção, abundâncias/tempos de vida ou restrições cosmológicas; não modela o termo estocástico correspondente à “base de ruído”.
• O que este artigo não afirma: não tem como objetivo derrubar a matéria escura; P1 não dá um veredito final sobre a existência da “base”, mas relata evidência de estágio — no domínio de medição robusto escolhido neste artigo, os dados favorecem um modelo que inclui resposta gravitacional média.

Ao mesmo tempo, declaramos explicitamente que DM_RAZOR representa apenas uma linha de base NFW minimizada e auditável (c–M fixa, sem scatter; sem Adiabatic Contraction, core de feedback, não esfericidade ou termos ambientais). Portanto, a conclusão principal do texto é estritamente limitada a isto: sob essa linha de base mínima e sob restrições estritas de registro/mapeamento de parâmetros, a EFT apresenta consistência entre dados mais forte. Para responder a uma pergunta comum — se uma linha de base ΛCDM mais padrão e a modelagem de sistemáticas essenciais de lenteamento mudariam significativamente a conclusão — organizamos no Apêndice B (P1A: teste de estresse de padronização da linha de base DM) aprimoramentos DM mais padrão, mas ainda de baixa dimensionalidade e auditáveis, junto com um nuisance do lado do lenteamento, mantendo exatamente o mesmo mapeamento compartilhado e a mesma definição de teste de fechamento do texto principal (ver Tabela B1/Fig. B1).

2.1 Tab S1a–S1b: resumo das métricas principais (Strict)

A Tabela S1a apresenta as principais métricas de comparação do ajuste conjunto (RC+GGL): logL, ΔlogL, AICc e BIC. A Tabela S1b apresenta métricas de teste de fechamento e de varreduras de robustez: closure, shuffle como controle negativo e faixas de varredura de σ_int / R_min / cov-shrink. Todos os valores vêm da tabela mestra estrita Tab_Z1_master_summary e podem ser rastreados item a item no pacote arquivado da versão.

Tabela S1a | Principais métricas de comparação do ajuste conjunto (RC+GGL, Strict).

Modelo (workspace)

Núcleo W

k

logL_total conjunto (best)

ΔlogL_total vs DM

AICc

BIC

DM_RAZOR

none

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

none

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponential

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabela S1b | Métricas de fechamento e robustez (Strict).

Modelo (workspace)

ΔlogL de fechamento (true-perm)

ΔlogL após shuffle do controle negativo

Faixa de ΔlogL na varredura de σ_int

Faixa de ΔlogL na varredura de R_min

Faixa de ΔlogL na varredura de cov-shrink

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308


2.2 Fig. S3: força de fechamento (RC-only → predição de GGL)

A força de fechamento é definida como ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩: nos samples posteriores RC-only, prediz-se GGL para frente e compara-se com o controle negativo de “mapeamento RC-bin→GGL-bin permutado”.

Fig. S3 | Força de fechamento (quanto maior, melhor): vantagem média de log-verossimilhança da predição RC-only → GGL.


2.3 Fig. S4: comparação principal do ajuste conjunto (RC+GGL)

A vantagem do ajuste conjunto é definida como ΔlogL_total ≡ logL_total(model) − logL_total(DM_RAZOR). Com os mesmos dados, o mesmo mapeamento e escala de parâmetros aproximadamente igual, a família EFT obtém log-verossimilhança conjunta significativamente mais alta.

Fig. S4 | Vantagem do ajuste conjunto (quanto maior, melhor): best logL_total de RC+GGL relativo ao DM_RAZOR.


2.4 Quatro conclusões (diretamente citáveis)

(1) Na análise conjunta unificada das curvas de rotação SPARC + lenteamento fraco KiDS-1000, os modelos da estrutura de gravidade média da EFT superam sistematicamente o DM_RAZOR sob o protocolo de controle estrito: ΔlogL_total = 1155–1337 (relativo ao DM_RAZOR).

(2) O teste de fechamento RC→GGL mostra que a EFT tem consistência preditiva mais forte: ΔlogL_closure = 172–281, enquanto DM_RAZOR fica em 127; além disso, quando o agrupamento RC-bin→GGL-bin é embaralhado aleatoriamente, o sinal de fechamento colapsa para 6–23, mostrando que o sinal depende do mapeamento correto entre dados, e não de ajuste acidental.

(3) As varreduras sistemáticas de σ_int, R_min e shrinkage da covariância não alteram o sinal nem a ordem de grandeza de “EFT > DM_RAZOR”, indicando que a conclusão é robusta a perturbações sistemáticas comuns.

(4) Sob o mesmo protocolo de fechamento, o Apêndice B (P1A) aplica aprimoramentos “padronizados e auditáveis” à linha de base DM: preserva três aprimoramentos de um parâmetro (SCAT/AC/FB) e acrescenta dispersão c–M hierárquica + prior, proxy de core de um parâmetro e calibração de cisalhamento m no lado do lenteamento (bem como a combinação DM_STD). Os resultados mostram que apenas o ramo feedback/core traz uma pequena melhoria líquida na força de fechamento (122.21→129.45, ΔΔlogL_closure≈+7.25); os demais aprimoramentos contribuem de modo insignificante ou negativo para a força de fechamento. Portanto, a conclusão principal do texto não depende da hipótese de que o DM_RAZOR seja uma linha de base fraca demais.

3 Dados e pré-processamento

Este estudo usa dois tipos de dados públicos e, dentro do pipeline de engenharia, realiza download, verificação (sha256) e pré-processamento com scripts rastreáveis. Para garantir comparação justa entre modelos, todos os workspaces (EFT_BIN / EFT_WEXP / EFT_WYUK / EFT_WPOW / DM_RAZOR) compartilham exatamente os mesmos produtos de dados e o mesmo mapeamento de bins.


3.1 Curvas de rotação (RC, SPARC)

Os dados RC vêm da base SPARC Rotmod_LTG (175 arquivos rotmod). Após o pré-processamento, a amostra incluída na modelagem deste projeto contém 104 galáxias e 2.295 pontos (r, V_obs), divididos em 20 RC-bins segundo massa estelar e outras regras. Cada ponto de dados contém raio r (kpc), velocidade observada V_obs (km/s), erro σ_obs e as velocidades das componentes gás/disco/bojo (V_gas, V_disk, V_bul).


3.2 Lenteamento fraco (GGL, KiDS-1000 / Brouwer+2021)

Os dados GGL usam a densidade superficial excedente ΔΣ(R) da Fig. 3 de Brouwer et al. (2021) no KiDS-1000 (4 bins de massa estelar, 15 pontos R por bin), com a covariância completa fornecida. No pipeline, a covariância original em formato long-form é reconstruída em uma matriz 15×15 para cada bin, e a auditoria Stage-B verifica sua dimensionalidade e razoabilidade numérica.


3.3 Mapeamento RC-bin → GGL-bin e tamanho total da amostra

Os 4 bins de massa do GGL são conectados aos 20 bins de RC por um mapeamento fixo: cada GGL-bin corresponde a 5 RC-bins, e as contribuições dos RC-bins são agregadas por média ponderada pelo número de galáxias. Esse mapeamento permanece inalterado em todos os modelos e constitui a restrição central para uma comparação justa entre teste de fechamento e ajuste conjunto. O número final de pontos no conjunto é n_total = 2355 (RC=2295, GGL=60).

4 Modelos e métodos estatísticos


4.1 Especificação matemática mínima de EFT e DM (auditável/testável)

Esta seção apresenta a especificação matemática mínima que corresponde diretamente à implementação.

(a) Modelo de curvas de rotação (RC)

Para cada ponto RC (r, V_obs, σ_obs), usamos a soma das componentes: V_mod²(r) = V_bar²(r) + V_extra²(r). Aqui V_bar²(r) = V_gas²(r) + Υ_d·V_disk²(r) + Υ_b·V_bul²(r). Nos resultados principais deste manuscrito, usamos Υ_d = Υ_b = 0.5 (consistente com a recomendação empírica da SPARC e também útil para reduzir graus de liberdade desnecessários).

(b) Correção de gravidade média da EFT (EFT)

O termo extra da EFT é parametrizado em forma de “velocidade quadrática média”: V_extra²(r) = V0_bin² · f(r/ℓ). Aqui V0_bin é o parâmetro de amplitude de cada RC-bin (20 parâmetros), ℓ é a escala global (1 parâmetro), e f(x) é a função de forma do núcleo adimensional. As formas de núcleo comparadas neste artigo (todas sem introduzir liberdade contínua adicional) são:

Motivação física (expandida): a EFT interpreta a resposta gravitacional extra em escala de galáxias como uma resposta efetiva após coarse-graining/média de escala de interações mais microscópicas que atuam em escalas finitas. Neste artigo, não pressupomos nenhum mecanismo microscópico específico; adotamos uma parametrização mínima e auditável para comparação e teste controlados sob um protocolo estatístico unificado.

Para facilitar a intuição, o termo extra pode ser escrito em forma de aceleração: a_extra(r)=V_extra²(r)/r=(V0_bin²/r)·f(r/ℓ). Quando r≫ℓ, f→1 e V_extra→V0_bin, produzindo uma contribuição de velocidade extra aproximadamente plana na região externa; quando r≪ℓ e f(x)≈x, pode-se introduzir uma escala característica de aceleração a0,bin≈V0_bin²/ℓ (à parte um fator O(1) do núcleo), oferecendo uma intuição de transição interna–externa semelhante à MOND.

A família discreta de núcleos usada aqui (none/exponential/yukawa/powerlaw_tail) pode ser vista como proxies de baixa dimensionalidade para diferentes “inclinações iniciais/rapidez de transição/caudas de longo alcance” (por exemplo, blindagem do tipo Yukawa vs. resposta de cauda mais longa), voltados a testes de estresse de robustez, e não a esgotar o espaço de modelos. Na parte de lenteamento fraco, construímos uma massa e uma densidade de envelope equivalentes a partir de V_avg(r), projetando-as para obter ΔΣ(R); essa densidade equivalente deve ser entendida como uma descrição efetiva do potencial de lenteamento sob as hipóteses de simetria esférica e mapeamento de campo fraco (os detalhes completos foram movidos para o Apêndice A).

As formas de núcleo acima satisfazem f(x)→1 quando x→∞ (isto é, V_extra²→V0² satura), enquanto, para x≪1, produzem crescimento linear ou sublinear: por exemplo, exponential: f≈x; yukawa: f≈0.5x; powerlaw_tail: f≈0.5x. Assim, diferentes formas de núcleo exibem diferenças observáveis na “inclinação inicial”, na rapidez da transição e na cauda externa em pequenos raios, que podem ser distinguidas por ajuste conjunto RC+GGL e por testes de fechamento.

A predição EFT de ΔΣ(R) no lenteamento fraco é obtida invertendo V_avg(r) para massa e densidade de envelope, e então projetando por integração: M_enc(r)=r·V_avg²(r)/G, ρ(r)=(1/4πr²)·dM_enc/dr, Σ(R)=2∫_R^∞ ρ(r)·r/√(r²−R²) dr, ΔΣ(R)=Σ̄(<R)−Σ(R). A implementação numérica usa grade logarítmica e refinamento adaptativo quando aparecem anomalias, a fim de garantir estabilidade e repetibilidade.

(c) DM_RAZOR: linha de base de halo NFW para matéria escura fria

Declaramos explicitamente, ao mesmo tempo, que DM_RAZOR representa apenas uma linha de base NFW minimizada e auditável (c–M fixa, sem scatter; sem Adiabatic Contraction, core de feedback, não esfericidade ou termos ambientais). Para reduzir o risco de “strawman baseline”, este artigo não afirma que esses efeitos inexistam; ao contrário, eles são incorporados no Apêndice B (P1A), de modo auditável e de baixa dimensionalidade, como testes de estresse, incluindo tratamento hierárquico de c–M scatter, proxy de core e nuisance de calibração de cisalhamento no lado do lenteamento.


4.2 Registro de modelos e comparação justa (parâmetros compartilhados = definição de fechamento)

O número de parâmetros do conjunto principal de comparação é: DM_RAZOR k=20; família EFT k=21 (o parâmetro adicional é o log ℓ global). Todos os modelos compartilham os mesmos dados RC, os mesmos dados GGL e sua covariância, o mesmo mapeamento RC-bin→GGL-bin, o mesmo termo bariônico e as mesmas conversões de unidades. Além disso, as formas de núcleo (none / exponential / yukawa / powerlaw_tail) são escolhas discretas e não introduzem parâmetros contínuos adicionais, evitando que a vantagem venha de “mais um grau de liberdade”.


4.3 Likelihood, priors e amostrador

A likelihood de RC usa uma gaussiana diagonal: σ_eff² = σ_obs² + σ_int²; nos resultados principais, fixamos σ_int=5 km/s e, no Run-5, varremos σ_int. A likelihood de GGL usa a gaussiana com covariância completa para cada bin: logL_GGL = Σ_b log 𝒩(ΔΣ_obs^b | ΔΣ_mod^b, C_b). O objetivo conjunto é logpost(θ)=logprior(θ)+logL_RC(θ)+logL_GGL(θ). Os priors refletem principalmente fronteiras de viabilidade física (restrições de intervalo para log ℓ, log V0 e log M200); quando Υ livre e σ_int são ativados, usam-se priors fracamente informativos (ver detalhes na implementação e nas configurações do pacote de release).

O amostrador usa caminhada aleatória Metropolis adaptativa em blocos: em cada passo, atualiza apenas um sub-bloco aleatório do espaço de parâmetros para melhorar a aceitação em alta dimensão, com adaptação leve do tamanho de passo por taxa de aceitação em janela (taxa-alvo ≈ 0,25). Os resultados principais usam modo quick (por exemplo, n_steps=800) e, para cada workspace, exportam trace, resíduos e gráficos PPC para auditoria manual e por script.


4.4 Teste de fechamento e controle negativo (definição)

O teste de fechamento (Run-2) verifica, sem reajustar GGL, se o posterior RC-only consegue predizer GGL. O procedimento é: gerar para frente ΔΣ(R) dos 4 GGL-bins usando samples do posterior RC-only, calcular logL_true com a covariância completa e, em seguida, aplicar uma permutação aleatória ao mapeamento de grupos RC-bin→GGL-bin para obter logL_perm. A força de fechamento é definida como ΔlogL_closure≡⟨logL_true⟩−⟨logL_perm⟩. Além disso, o Run-10 reagrupa aleatoriamente os 20 RC-bins em 4×5 (shuffle) e recalcula o fechamento, para testar a dependência do sinal de fechamento em relação ao mapeamento correto.

5 Resultados principais e interpretação


5.1 Resultado principal do ajuste conjunto (RC+GGL)

O best logL_total do ajuste conjunto e a vantagem relativa ΔlogL_total (em relação ao DM_RAZOR) aparecem na Tabela S1a e na Fig. S4. No conjunto principal de comparação, o EFT_BIN apresenta a maior vantagem conjunta (ΔlogL_total=1337.210), e as demais formas de núcleo EFT também mantêm vantagem significativa (1154.827–1294.442). Nos critérios de informação (AICc/BIC), a família EFT também supera significativamente o DM_RAZOR, mostrando que a vantagem não vem de viés no número de parâmetros.

Nota: a maior parte de ΔlogL_total≈1337 vem do termo RC (na decomposição joint, ΔlogL_RC≈1065, cerca de 80%); isso pode ser entendido como uma melhoria moderada de Δχ²≈0,90 por ponto em N=2295 pontos RC, que se acumula naturalmente, sob likelihood gaussiana diagonal, em uma vantagem da ordem de 10^3. Ao mesmo tempo, GGL e o teste de fechamento oferecem restrições independentes entre conjuntos de dados, e a ordenação permanece estável nos testes de estresse de σ_int, R_min e cov‑shrink (ver Seção 6 e Tabela S1b).


5.2 Resultado do teste de fechamento (RC-only → GGL)

A quantidade-chave do teste de fechamento, ΔlogL_closure, aparece na Tabela S1b e na Fig. S3. A força de fechamento da família EFT fica em 171.977–280.513, acima dos 126.678 do DM_RAZOR. Isso significa que, sem permitir nenhum grau de liberdade extra entre conjuntos de dados, os samples posteriores obtidos pela EFT nos dados RC têm capacidade preditiva transferível mais forte para os dados GGL.

O controle negativo reforça a relevância física do sinal de fechamento: quando o agrupamento RC-bin→GGL-bin é embaralhado aleatoriamente, a força de fechamento da EFT cai para 6–15 (com pequenas diferenças entre núcleos), enquanto a força de fechamento de base fica em 172–281. Esse “colapso do sinal” exclui uma vantagem falsa causada por implementação numérica, erro de unidades ou tratamento inadequado de covariância.

Fig. R1 | Controle negativo: após embaralhar os grupos, o sinal de fechamento cai significativamente (gráfico baseado nas métricas Tab_Z1).


5.3 Significado e limites dos resultados

A conclusão deste estudo é: “neste conjunto de dados e sob este protocolo, a correção de gravidade média da EFT supera a linha de base DM_RAZOR testada”. É importante enfatizar que, do lado DM, usamos apenas uma linha de base NFW mínima com relação c(M) fixa, sem introduzir, por exemplo, core, não esfericidade, termos ambientais ou modelos mais complexos de conexão galáxia–halo. Portanto, este manuscrito não afirma excluir todas as famílias de modelos DM; ele oferece uma linha de base de comparação reprodutível, centrada em testes de fechamento, para avaliar se RC e GGL podem ser explicados de modo consistente pelo mesmo conjunto de parâmetros e mapeamentos entre dados.

Para responder a essa dúvida comum, concluímos um projeto independente de extensão, P1A (ver Apêndice B), que, sem alterar o mapeamento compartilhado RC-bin→GGL-bin nem o arcabouço de auditoria, fortalece a linha de base DM de modo “padronizado e auditável”: além de três aprimoramentos de um parâmetro (SCAT/AC/FB), acrescenta (i) c–M scatter hierárquico + mass–concentration prior (DM_HIER_CMSCAT), (ii) proxy de core de um parâmetro para baryonic feedback (DM_CORE1P) e (iii) nuisance m de calibração de cisalhamento no lado do lenteamento (DM_RAZOR_M), fornecendo ainda o modelo combinado DM_STD; EFT_BIN é mantido como referência de controle.

• DM_RAZOR_SCAT (c–M scatter) — introduz o parâmetro σ_logc de dispersão halo a halo na concentração, para testar se “c(M) fixo” subestima sistematicamente a capacidade explicativa de DM;
• DM_RAZOR_AC (Adiabatic Contraction) — usa um parâmetro único α_AC para interpolar continuamente entre “sem contração ↔ contração padrão”, capturando a tendência de contração interna induzida pelos bárions com custo mínimo;
• DM_RAZOR_FB (Feedback / core) — usa uma escala de core (como log r_core) para descrever o efeito de core no interior sobre a supressão da curva de rotação, mantendo a aproximação NFW na escala de lenteamento fraco.

O scoreboard quantitativo do P1A aparece na Tabela B1 / Fig. B1 do Apêndice B (gerado automaticamente por Tab_S1_P1A_scoreboard). Na métrica de fechamento, DM_RAZOR_FB apresenta uma pequena melhoria líquida (122.21→129.45, +7.25), enquanto os demais aprimoramentos contribuem de modo insignificante ou negativo para a força de fechamento. Já no ajuste conjunto, a inclusão de c–M scatter prior hierárquico (DM_HIER_CMSCAT) ou do modelo combinado (DM_STD) pode melhorar significativamente o joint logL, mas não traz aumento da força de fechamento, indicando que o ganho principal vem da flexibilidade do ajuste conjunto, e não da transferibilidade entre sondas. Portanto, a conclusão central do texto deve ser entendida assim: sob restrições estritas de mapeamento compartilhado e teste de fechamento, a vantagem de consistência entre dados da EFT não decorre da escolha de uma “linha de base fraca demais” no lado DM. O pacote de release P1A correspondente ao Apêndice B (tabelas/figuras suplementares e full_fit_runpack) será incluído como arquivo adicional no mesmo Zenodo Concept DOI do full_fit_runpack deste artigo: https://doi.org/10.5281/zenodo.18526286.https://doi.org/10.5281/zenodo.18526286

6 Robustez e experimentos de controle


6.1 Varredura de σ_int (Run-5)

Realizamos uma varredura sistemática da dispersão intrínseca σ_int de RC e, para cada σ_int, repetimos a inferência conjunta, calculando ΔlogL_total em relação ao DM_RAZOR. Os valores mínimo/máximo de ΔlogL_total de cada modelo ao longo da varredura aparecem na Tabela S1b.

Fig. R2 | Faixa de ΔlogL_total sob varredura de σ_int (quanto maior, melhor).


6.2 Varredura de R_min (Run-6)

Para testar o impacto de sistemáticas nos dados da região central (por exemplo, movimento não circular, resolução e modelagem bariônica insuficiente), aplicamos um corte por limiar R_min em RC e repetimos a inferência conjunta. A vantagem da família EFT permanece positiva e estável em ordem de grandeza ao longo da varredura de R_min.

Fig. R3 | Faixa de ΔlogL_total sob varredura de R_min (quanto maior, melhor).


6.3 Varredura de cov-shrink (Run-7)

Para testar a incerteza da covariância GGL, aplicamos shrinkage à matriz de covariância de cada bin de massa: C_α=(1−α)C+α·diag(C), e varremos α. Os resultados mostram que a vantagem da família EFT é pouco sensível a esse tratamento.

Fig. R4 | Faixa de ΔlogL_total sob varredura de cov-shrink (quanto maior, melhor).


6.4 Escada de ablação (Run-8)

Dentro do EFT_BIN, realizamos uma ablação aninhada: do modelo mínimo (sem parâmetros livres) para versões com apenas poucos graus de liberdade e, por fim, para o modelo completo com amplitude em 20 bins + escala global. AICc/BIC mostram que o EFT_BIN completo é significativamente necessário para explicar os dados.

Fig. R5 | Escada de ablação do EFT_BIN (AICc; quanto menor, melhor).


6.5 Predição leave-one-bin-out (Run-9)

Executamos ainda um teste leave-one-bin-out (LOO): entre os 4 bins de massa do GGL, deixamos 1 bin de fora de cada vez, inferimos novamente com os bins restantes (e todos os dados RC) e avaliamos a log-verossimilhança de teste no bin excluído. A métrica resumida aparece na tabela suplementar Tab_R3_leave_one_bin_out (produto do Run-9; o padrão de caminho do arquivo aparece na lista de produtos-chave da Seção 8.2). A família EFT permanece claramente superior ao DM_RAZOR mesmo no pior caso de bin excluído.

Fig. R6 | LOO: distribuição de log-verossimilhança do bin excluído (produto do Run-9).


6.6 Controle negativo: RC-bin shuffle (Run-10)

O Run-10 reagrupa aleatoriamente os 20 RC-bins em 4×5 e recalcula o fechamento mantendo o posterior RC-only inalterado. Os resultados mostram que, em comparação com o mapeamento original, o shuffle reduz significativamente o mean logL_true e o ΔlogL_closure do fechamento (ver Tabela S1b e Fig. R1), reforçando a interpretabilidade do sinal de fechamento.

Fig. R7 | Controle negativo: o shuffle do mapeamento reduz claramente o mean logL_true do fechamento (produto do Run-10).

7 Rastreabilidade e auditoria de consistência (Provenance)

Todos os valores citados neste artigo podem ser rastreados item a item nas tabelas estritas de resumo e nos registros de auditoria arquivados para a release. Para tornar a leitura do texto principal mais fluida, a cadeia completa de rastreabilidade (lista de tags, tabelas de auditoria, lista de checksums e método de verificação) foi movida para o Apêndice A.

8 Reprodutibilidade e arquivamento no Zenodo (Reproducibility & Archive)

Declaração de disponibilidade de dados e código: as curvas de rotação SPARC e os dados de lenteamento fraco KiDS-1000 usados neste artigo são dados públicos. O relatório em nível de publicação foi arquivado no Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526334), e o pacote completo de reprodução foi arquivado no Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526286). As etapas detalhadas de execução, o ambiente de dependências, a lista de arquivos arquivados e as informações de verificação por hash aparecem no Apêndice A; o desenho, as tags de execução e os produtos do teste de estresse de padronização da linha de base DM (P1A) aparecem no Apêndice B.

Sob o mesmo Concept DOI do pacote completo de reprodução (https://doi.org/10.5281/zenodo.18526286), fornecemos duas entradas reprodutíveis por finalidade:
• P1 (texto principal) full_fit_runpack: reproduz RC-only / closure / joint e as varreduras de robustez para EFT vs DM_RAZOR, gerando as tabelas S1a/S1b e as figuras S3/S4 do texto principal, entre outros ativos;
• P1A (Apêndice B) full_fit_runpack: reproduz o teste de estresse de padronização da linha de base DM (SCAT/AC/FB + c–M scatter prior hierárquico + core1p + lensing m + DM_STD; com controle EFT_BIN) e gera a Tabela B1 e a Fig. B1 do apêndice.
As tabelas/figuras suplementares e o full_fit_runpack do P1A serão incluídos como arquivos adicionais no mesmo Concept DOI, preservando uma única entrada de arquivamento.

9 Agradecimentos e declarações


9.1 Agradecimentos

Agradecemos às equipes SPARC e KiDS-1000 pelos dados públicos e pela documentação; agradecemos também aos participantes dos fluxos de reconstrução e auditoria deste projeto.


9.2 Contribuições do autor

Guanglin Tu foi responsável pela concepção do estudo, desenho do protocolo, implementação de engenharia, organização dos dados, análise formal, implementação do fluxo de reprodução e auditoria, bem como pela redação do manuscrito.


9.3 Financiamento

Financiamento pessoal do autor Guanglin Tu (sem apoio externo / sem número de grant).


9.4 Interesses concorrentes

O autor Guanglin Tu tem vínculo com o “EFT Working Group, Shenzhen Energy Filament Science Research Co., Ltd. (China)”; não há outros interesses concorrentes.


9.5 Assistência de IA

OpenAI GPT-5.2 Pro e Gemini 3 Pro foram usados para polimento linguístico, edição estruturada e organização do fluxo de reprodução; não foram usados para gerar ou modificar dados, resultados, figuras ou código; não foram usados para gerar referências. O autor assume plena responsabilidade pelo conteúdo integral e pela precisão das citações.

10 Referências

Apêndice A: detalhes de rastreabilidade e reprodutibilidade

Este apêndice reúne informações de rastreabilidade e reprodutibilidade para arquivamento de longo prazo (tags de execução, resultados de auditoria, lista de arquivos arquivados e pontos de checagem), permitindo que leitores verifiquem e reproduzam o estudo conforme necessário.


A.1 Detalhes de rastreabilidade e auditoria

Para garantir rastreabilidade de longo prazo, este projeto atribui uma tag temporal a cada execução e a cada saída, preservando os produtos históricos sem sobrescrevê-los. Os valores centrais citados neste manuscrito vêm da compilação estrita (compile_tag=20260205_035929) e passaram pelas seguintes auditorias de consistência:

• Todas as tabelas intermediárias carregam run_tag e tag de estágio; o script de compilação estrita seleciona, em report/tables, as fontes de tabelas canonical “completas e consistentes”.

• Os valores de Tab_Z1_master_summary e Tab_Z2_conclusion_highlights foram comparados item a item com as tabelas canonical selecionadas.

• Durante a geração do PDF, foi realizada uma auditoria de tags das “tabelas/figuras citadas” para garantir que produtos antigos não fossem misturados.

Tags-chave (para localizar todos os produtos intermediários): run_tag=20260204_122515; closure_tag=20260204_124721; joint_tag=20260204_152714; sigma_sweep_tag=20260204_161852; rmin_sweep_tag=20260204_195247; covshrink_tag=20260204_203219; ablation_tag=20260204_214642; LOO_tag=20260204_224827; negctrl_tag=20260204_234528; strict_compile_tag=20260205_035929; release_tag=20260205_112442.

Resultado da auditoria de consistência: Tab_AUDIT_checks_strict mostra pass=9, fail=0, skip=0 (ver detalhes no pacote de release).


A.2 Etapas de reprodutibilidade e lista de arquivamento

Este estudo adota um sistema de reprodução composto por “relatório em nível de publicação + suplemento de tabelas e figuras + pacote de execução completo e rerrodável”: os leitores podem consultar diretamente o Tables & Figures Supplement para conferir todos os ativos de tabelas/figuras citados neste artigo; quando for necessário reproduzir os valores e a cadeia de auditoria a partir do zero, podem usar o full_fit_runpack para baixar os dados e reexecutar todo o fluxo (após a execução, o script de comparação com tabelas de referência incluído no pacote permite verificar a consistência dos valores tabulares).


A.2.1 Quickstart de reprodução (RUN_FULL, Windows PowerShell)

Esta seção fornece uma rota de reprodução mais curta (Windows PowerShell). Para uma verificação rápida, recomenda-se consultar diretamente o Tables & Figures Supplement e conferir item a item as tabelas e figuras citadas neste artigo. Para uma reprodução ponta a ponta com geração de todas as tabelas/figuras e produtos de auditoria, use o full_fit_runpack: execute verify_checksums.ps1 e RUN_FULL.ps1 conforme o README/ONE_PAGE_REPRO_CHECKLIST do pacote (recomenda-se Mode=full).

Entrada de arquivamento no Zenodo (Concept DOI): https://doi.org/10.5281/zenodo.18526286.
Tags principais deste artigo: run_tag=20260204_122515, strict compile_tag=20260205_035929, release_tag: 20260205_112442.


A.2.2 Materiais arquivados e pontos-chave de verificação (Packages & checks)

O arquivamento no Zenodo fornece três tipos de materiais complementares: (1) relatório em nível de publicação (este artigo, v1.1; com Apêndice B: teste de estresse de padronização da linha de base DM P1A); (2) Tables & Figures Supplement (suplemento de tabelas e figuras, cobrindo todos os ativos de tabelas/figuras citados neste artigo, separadamente para P1 e P1A); (3) full_fit_runpack (pacote completo de reprodução: baixa dados a partir do zero e reexecuta todo o fluxo, separadamente para P1 e P1A). Os itens (1)–(2) apoiam leitura rápida e verificação independente; o item (3) oferece capacidade de reprodução completa ponta a ponta.

Categoria de material

Nome do arquivo (exemplo)

Uso e posicionamento (ordem de uso recomendada)

Relatório em nível de publicação (chinês e inglês)

P1_RC_GGL_report_EN_PUBLICATION_V1_1.pdf
P1_RC_GGL_report_CN_PUBLICATION_V1_1.pdf

Relatório completo arquivado no Zenodo; o texto principal apresenta as conclusões centrais e a auditoria de robustez, enquanto o Apêndice B traz o P1A (teste de estresse de padronização da linha de base DM).

Tables & Figures Supplement(P1)

P1_RC_GGL_supplement_figs_tables_V1_1.zip

Todas as tabelas (CSV) e figuras (PNG) citadas no texto principal, incluindo scripts de geração e arquivos de tags.

Tables & Figures Supplement(P1A)

P1A_supplement_figs_tables_v1.zip

Todas as tabelas e figuras citadas no Apêndice B (P1A), incluindo Tab_S1_P1A_scoreboard e Fig_S1_P1A_scoreboard.

full_fit_runpack(P1)

P1_RC_GGL_full_fit_runpack_v1_1.zip

Reprodução completa ponta a ponta: baixar os dados do zero e reexecutar RC-only/closure/joint e as varreduras de robustez.

full_fit_runpack(P1A)

P1A_RC_GGL_full_fit_runpack_v1.zip

Reprodução completa ponta a ponta (Apêndice B): reexecutar DM 7+1 + DM_STD (incluindo o controle EFT_BIN) e gerar os ativos do apêndice; o pacote contém script de comparação com tabelas de referência para verificar a consistência dos valores tabulares.

Sugestão de citação: ao citar este artigo ou os materiais de reprodução anexos, informe o Zenodo Concept DOI (https://doi.org/10.5281/zenodo.18526334).

Os principais produtos que devem aparecer após a reprodução e podem ser comparados incluem:

Apêndice B: P1A — teste de estresse de padronização da linha de base DM (DM 7+1 + DM_STD; com controle EFT)

Este apêndice registra um projeto de extensão de “teste de estresse de padronização da linha de base DM” (P1A), consistente com o protocolo de fechamento do texto principal. Sua função é elevar o DM_RAZOR mínimo usado no texto principal (NFW + c–M fixo, sem scatter/sem contração/sem core) a um conjunto de linhas de base DM mais próximo da prática astrofísica e mais resistente a objeções comuns, sem introduzir muitos graus de liberdade nem alterar o mapeamento compartilhado RC-bin→GGL-bin ou o arcabouço de auditoria. O P1A cobre e amplia os três ramos anteriores de teste de estresse: preserva SCAT/AC/FB e acrescenta c–M scatter + prior hierárquicos, proxy de core de um parâmetro e nuisance m de calibração de cisalhamento no lado do lenteamento, fornecendo ainda o modelo combinado DM_STD; EFT_BIN é mantido como referência de controle.

Nota complementar: valores como a força de fechamento no Apêndice B (P1A) usam orçamento Monte Carlo mais alto (por exemplo, ndraw=400, nperm=24), diferente do orçamento quick usado no texto principal para cobrir a família completa de núcleos EFT (por exemplo, ndraw=60, nperm=12). Portanto, os valores absolutos podem apresentar deriva de amostragem da ordem O(10), mas as comparações entre modelos dentro da mesma tabela e sob o mesmo orçamento são justas, e o sinal e a ordem de grandeza da vantagem permanecem estáveis entre diferentes orçamentos.


B.1 Objetivo e posicionamento (Why P1A, and why as an Appendix)

O P1A não tenta esgotar todas as possibilidades de modelagem de halos ΛCDM (por exemplo, não esfericidade, dependência ambiental, conexões galáxia–halo complexas ou baryon physics de alta dimensão). Em vez disso, o P1A adota o princípio de “baixa dimensionalidade, auditabilidade e reprodutibilidade”: cada módulo de aprimoramento introduz apenas ≤1 parâmetro efetivo essencial e continua sujeito às três restrições rígidas deste artigo:
(i) registro de parâmetros: qualquer novo parâmetro deve ser registrado explicitamente e relatado junto aos critérios de informação (AICc/BIC);
(ii) mapeamento compartilhado: o mesmo mapeamento de grupos RC-bin→GGL-bin continua sendo usado, sem permitir ‘ajustar o mapeamento’ separadamente para um único conjunto de dados;
(iii) teste de fechamento: qualquer aprimoramento deve mostrar ganho real na predição transferida RC→GGL, não apenas melhora no ajuste RC-only.


B.2 DM 7+1 + DM_STD: definições dos módulos, parâmetros e modo de entrada no posterior conjunto

Como runpack independente, o P1A fornece 8 workspaces DM (DM 7+1) mais 1 controle EFT: partindo do DM_RAZOR como linha de base, constrói três aprimoramentos legacy de um parâmetro (DM_RAZOR_SCAT / DM_RAZOR_AC / DM_RAZOR_FB), acrescenta três módulos defensivos mais padrão (DM_HIER_CMSCAT / DM_CORE1P / DM_RAZOR_M) e, em seguida, fornece o modelo combinado DM_STD. O objetivo comum desses módulos é cobrir as três críticas mais frequentes, aumentando a dimensionalidade o mínimo possível: (a) como a dispersão c–M e os priors entram em um modelo hierárquico; (b) se o efeito principal de baryonic feedback pode ser capturado por um proxy de core de um parâmetro; e (c) se sistemáticas essenciais do lado do lenteamento podem ser confundidas com sinal físico.

Workspace

dm_model

Novo(s) parâmetro(s) (≤1)

Motivação física (central)

Princípio de implementação (auditável)

DM_RAZOR

NFW (fixed c–M, no scatter)

Linha de base de halo ΛCDM mínima e auditável; usada para comparação estrita com a EFT

Mapeamento compartilhado fixo; registro de parâmetros estrito; como baseline, usado apenas para comparação relativa

DM_RAZOR_SCAT

NFW + c–M scatter(legacy)

σ_logc

A relação c–M apresenta dispersão; aproximada por um scatter log-normal de um parâmetro

≤1 novo parâmetro; ainda usa mapeamento compartilhado; ganho de fechamento como critério de aceitação

DM_RAZOR_AC

NFW + Adiabatic Contraction(legacy)

α_AC

A queda bariônica pode induzir contração adiabática do halo; aproximada por uma intensidade de um parâmetro

≤1 novo parâmetro; sem alterar o mapeamento; relata mudanças em AICc/BIC e ganho de fechamento

DM_RAZOR_FB

NFW + feedback core(legacy)

log r_core

O feedback pode formar um core na região interna; aproximado por uma escala de core de um parâmetro

≤1 novo parâmetro; mesmo protocolo para fechamento/controle negativo; melhora RC-only não é o único objetivo

DM_HIER_CMSCAT

Hierarchical c–M scatter + prior

σ_logc(hier)

Hierarquia mais padrão c_i∼logN(c(M_i),σ_logc); afeta simultaneamente o posterior conjunto de RC e GGL

Prior explícito; marginalização de c_i latentes; ainda mantém baixa dimensionalidade e auditabilidade

DM_CORE1P

1‑parameter core proxy (coreNFW/DC14‑inspired)

log r_core

Usa proxy de core de um parâmetro para o efeito principal de baryonic feedback, evitando detalhes de formação estelar de alta dimensão

Usa literatura padrão; ≤1 novo parâmetro; vinculado ao teste de fechamento

DM_RAZOR_M

NFW + lensing shear‑calibration nuisance

m_shear(GGL)

Absorve a sistemática essencial do lado do lenteamento fraco como parâmetro efetivo, reduzindo o risco de “tratar sistemáticas como física”

Nuisance registrado explicitamente; não pode retroagir sobre RC; a robustez de fechamento é a métrica principal

DM_STD

Standardized DM baseline (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Inclui simultaneamente as três objeções mais comuns em uma linha de base padrão ainda de baixa dimensionalidade

Relata registro de parâmetros e critérios de informação; fechamento como métrica principal; serve como controle defensivo DM mais forte

Observação: os nomes de parâmetros acima seguem a implementação de engenharia (por exemplo, σ_logc, α_AC, log r_core e m_shear). O foco de desenho do P1A é “fortalecer um pouco a linha de base DM, mas mantê-la auditável”, e não transformar o lado DM em um ajustador de alta dimensão incontrolável. Em particular, DM_HIER_CMSCAT introduz c–M scatter de forma hierárquica: a concentração c_i de cada halo recebe uma dispersão log-normal em torno de c(M_i), restringida pelo σ_logc global e pelo prior c(M); essa estrutura hierárquica afeta simultaneamente o posterior conjunto de RC e GGL.


B.3 Protocolo estatístico e convenções de produtos consistentes com o texto principal

O P1A reutiliza todos os produtos de dados, o mapeamento compartilhado e o arcabouço de auditoria do texto principal. A ordem de execução e as convenções de produtos permanecem consistentes:
(1) Run‑1: inferência RC-only (saídas posterior_samples.npz e metrics.json);
(2) Run‑2: teste de fechamento RC→GGL (saídas closure_summary.json e baseline permutada);
(3) Run‑3: ajuste conjunto RC+GGL (saída joint_summary.json).
Todos os números citados vêm da tabela compilada automaticamente (Tab_S1_P1A_scoreboard) e podem ser verificados após reexecutar todo o fluxo P1A usando o script integrado de comparação com tabelas de referência no P1A full_fit_runpack.


B.4 Resultados principais, entradas de tabelas/figuras e plano de arquivamento (mesmo DOI)

Esta seção apresenta as conclusões quantitativas centrais do P1A. A Tabela B1 resume métricas-chave para RC-only, fechamento RC→GGL e ajuste conjunto RC+GGL (os parênteses indicam diferenças em relação à linha de base DM_RAZOR). A força de fechamento é definida como ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩ (quanto maior, melhor). A Fig. B1 visualiza o mesmo scoreboard. Os principais pontos são:
• Entre os três ramos legacy, apenas DM_RAZOR_FB (feedback/core) oferece pequena melhoria líquida na força de fechamento: 122.21→129.45 (+7.25); SCAT e AC não trazem melhoria líquida;
• Os novos DM_HIER_CMSCAT e DM_RAZOR_M têm efeitos muito pequenos (~0) sobre a força de fechamento, e DM_CORE1P também não mostra melhoria líquida significativa;
• O modelo combinado DM_STD pode melhorar substancialmente o joint logL (aproximando-se mais do ótimo do ajuste conjunto), mas sua força de fechamento diminui, sugerindo que seu ganho vem sobretudo da flexibilidade do ajuste conjunto, e não da transferibilidade entre sondas;
• Como controle, EFT_BIN ainda mantém vantagem clara tanto na força de fechamento quanto no ajuste conjunto. Portanto, a conclusão principal é robusta à introdução de uma “linha de base DM mais forte + nuisance de lenteamento”.

Para comparação direta com os resultados do texto principal, as Tabelas S1a–S1b resumem a comparação estrita entre a família EFT e o DM_RAZOR: os modelos EFT melhoram o ajuste conjunto em ΔlogL_total≈1155–1337 em relação ao DM_RAZOR e alcançam ΔlogL_closure=172–281 no teste de fechamento. O P1A cria apenas um “controle mais difícil” do lado DM; seu propósito é reduzir preocupações como “linha de base strawman” ou “sistemáticas como física”, não substituir a comparação principal.

Tabela B1 | Scoreboard P1A (quanto maior, melhor; os parênteses indicam diferenças em relação à linha de base DM_RAZOR).

Ramo do modelo (workspace)

Δk

RC-only best logL_RC (Δ)

Força de fechamento ΔlogL_closure (Δ)

Joint best logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Fig. B1 | Scoreboard P1A: ΔlogL de fechamento e conjunto em relação à linha de base (quanto maior, melhor).

Tags de exemplo para o conjunto de execuções concluído correspondente a este apêndice (usadas para localizar produtos intermediários e tabelas/figuras do P1A):
P1A run_tag = 20260213_151233; P1A closure_tag = 20260213_161731; P1A joint_tag = 20260213_195428.


B.5 Forma sugerida de citação (nota de citação do apêndice)

Quando os leitores precisarem citar o “teste de estresse de padronização da linha de base DM” além das conclusões principais do artigo, recomenda-se citar a conclusão principal junto com a seguinte nota: “See Appendix B (P1A) for standardized DM-baseline stress tests (legacy SCAT/AC/FB + hierarchical c–M scatter prior + core proxy + lensing shear-calibration nuisance), under the same closure protocol.”