← Experimento

Versão explicativa para o público baseada em P1_RC_GGL: Teste estrito de fechamento entre dinâmica galáctica e lenteamento fraco (v1.1)

Relatório original do autor: Guanglin Tu | Base de versão: P1 v1.1 | Status: texto explicativo para o público / artigo não revisado por pares
Arquivos relacionados: DOI do relatório 10.5281/zenodo.18526334 | DOI do pacote de reprodução 10.5281/zenodo.18526286

Nota de leitura

Este texto é uma versão explicativa, não outro relatório acadêmico. Ele se baseia no relatório P1 original, preserva as figuras e tabelas principais e acrescenta explicações em linguagem comum sobre “o que isto significa” em cada etapa-chave.

Este documento explica apenas as conclusões alcançadas pelo P1 dentro de seus conjuntos de dados, registro de parâmetros e protocolo estatístico declarados: no teste conjunto de curvas de rotação galácticas (RC) e lenteamento fraco galáxia-galáxia (GGL), o modelo de resposta gravitacional média da EFT supera de modo claro a baseline mínima DM_RAZOR testada aqui.

Este documento não lê o P1 como uma afirmação de que ele “derruba a matéria escura”. O P1 é apenas o primeiro passo dos experimentos da série P. Ele testa uma camada observável da EFT — o “piso gravitacional médio” —, não a estrutura inteira da EFT.

0 | Entenda o P1 em cinco minutos: o que este teste está fazendo?

Pense no P1 como um teste de verificação cruzada entre sondas. Ele não pergunta apenas se um modelo consegue ajustar um conjunto de dados; coloca na mesma bancada de auditoria duas leituras gravitacionais muito diferentes: as curvas de rotação (RC) leem a dinâmica dentro dos discos galácticos, enquanto o lenteamento fraco galáxia-galáxia (GGL) lê a resposta gravitacional projetada em escalas maiores.

A frase central do P1

O P1 eleva o padrão de comparação de “ele ajusta bem uma sonda isolada?” para “ele fecha entre sondas?”. Bom desempenho sob o mapeamento correto, seguido por colapso do sinal sob mapeamento embaralhado, é o que sugere que um modelo pode estar capturando uma estrutura gravitacional compartilhada por RC e GGL.

Tabela 0 | Números centrais do P1 e leitura em linguagem comum

Métrica

Leitura em P1 / P1A

Significado em linguagem comum

ΔlogL_total do ajuste conjunto

Na comparação principal, a EFT fica 1155–1337 acima do DM_RAZOR

A diferença total de pontuação nos dois conjuntos de dados; quanto maior, melhor a explicação global.

Intensidade de fechamento ΔlogL_closure

Na comparação principal, a EFT fica em 172–281; o DM_RAZOR fica em 127

A capacidade de prever GGL após inferência apenas a partir de RC; quanto maior, maior a autoconsistência entre sondas.

Shuffle de controle negativo

Depois de embaralhar RC-bin→GGL-bin, o sinal de fechamento da EFT cai para 6–23

Se a correspondência correta é quebrada, a vantagem deve desaparecer; quanto mais nítida a queda, mais ela exclui um sinal espúrio.

Teste de estresse P1A multi-DM

DM 7+1 + DM_STD, com EFT_BIN mantido como controle

O P1A não examina apenas o DM_RAZOR mínimo; coloca vários ramos DM de baixa dimensão e auditáveis sob o mesmo protocolo de fechamento.


1 | Por que fazer o P1: onde a cosmologia em escala galáctica fica travada?

Os problemas em escala galáctica continuam difíceis porque a necessidade de “gravidade/massa extra” não é apenas um fenômeno de curvas de rotação. Muitas observações mostram uma ligação estreita entre a matéria bariônica visível nas galáxias e as leituras reais de dinâmica ou lenteamento. Para a rota da matéria escura, isso significa que halos escuros, feedback bariônico, histórias de formação galáctica e sistemáticas observacionais precisam ser coordenados com grande cuidado. Para rotas gravitacionais sem matéria escura, significa que um modelo não pode parecer bom apenas em RC; ele também precisa sobreviver ao lenteamento fraco, às relações de escala populacionais e aos controles negativos.

Essa é precisamente a motivação do P1. Ele não parte de “a matéria escura está errada” nem de “a EFT precisa estar certa”; leva à bancada de auditoria uma proposição testável: se a resposta gravitacional média da EFT deixa, no fechamento cruzado RC→GGL, um sinal reprodutível e transferível.

Contexto da literatura externa: por que a janela RC+GGL importa?

A relação de aceleração radial (RAR) proposta por McGaugh, Lelli e Schombert em 2016 mostra uma correlação estreita e de baixa dispersão entre a aceleração observada traçada pelas curvas de rotação e a aceleração prevista pela matéria bariônica. Isso torna o acoplamento bárions–resposta gravitacional incontornável para qualquer teoria em escala galáctica.

Brouwer et al. (2021) usaram o lenteamento fraco KiDS-1000 para estender a RAR a acelerações mais baixas e raios maiores, comparando MOND, a gravidade emergente de Verlinde e modelos LambdaCDM. Eles também observaram que diferenças entre galáxias de tipo inicial e tardio, halos gasosos e conexões galáxia–halo continuam sendo questões explicativas centrais.

Mistele et al. (2024) inferiram ainda curvas de velocidade circular de galáxias isoladas a partir do lenteamento fraco, relatando ausência de queda clara até centenas de kpc e até cerca de 1 Mpc, em concordância com a BTFR. Isso mostra que o lenteamento fraco está se tornando uma leitura externa importante para testar a resposta gravitacional em escala galáctica.

Portanto, o valor do P1 não está em ser “o primeiro a discutir RC e GGL juntos”, mas em colocá-los dentro de um protocolo auditável formado por mapeamento fixo, registro de parâmetros, fechamento RC-only→GGL, controle negativo por shuffle e teste de estresse P1A com múltiplos modelos DM.


2 | O que EFT significa no P1? Não é teoria efetiva de campos

Aqui, EFT significa Teoria do filamento de energia (Energy Filament Theory), e não a teoria efetiva de campos (Effective Field Theory) familiar na física. No relatório técnico P1, o uso de EFT é deliberadamente contido: ela não entra como uma teoria final completa, mas primeiro é comprimida em uma parametrização observável, ajustável e falseável da “resposta gravitacional média”.

Em linguagem simples, o P1 ainda não discute todas as fontes microscópicas da gravidade extra, nem tenta provar toda a estrutura da EFT em um único passo. Ele faz uma pergunta mais estreita e mais dura: se existe, em escala galáctica, alguma resposta gravitacional extra média, ela consegue primeiro explicar as RC e depois prever o GGL?

Que parte da EFT o P1 testa?

O P1 testa o “piso gravitacional médio” (mean gravity floor): uma contribuição média estatisticamente estável e transferível entre amostras.

O P1 ainda não trata do “piso de ruído” (stochastic / noise floor): termos aleatórios, variações de objeto para objeto ou scatter extra que podem surgir de processos de flutuação mais microscópicos.

O P1 também não discute o mecanismo microscópico completo, abundância, vida útil ou restrições cosmológicas globais. Ele é o primeiro passo dos experimentos da série P, não um veredito final.


3 | O plano da série P: por que começar pelo “piso médio”?

A série P pode ser entendida como o programa de recuperação observacional da EFT. Ela não coloca todas as proposições sobre a mesa de uma vez; primeiro isola a parte que dados públicos conseguem testar de forma mais direta. O P1 começa pelo termo médio: se a resposta gravitacional média não consegue fechar RC→GGL, não há uma entrada sólida para discutir termos de ruído ou mecanismos microscópicos mais complexos.

Tabela 1 | Posicionamento em camadas da série P

Camada

Pergunta feita

Papel no P1

P1

A resposta gravitacional média consegue fechar RC→GGL?

Pergunta principal do relatório atual

P1A

Se o lado DM for reforçado, a conclusão continua estável?

Apêndice B: teste de estresse DM 7+1 + DM_STD

Trabalhos posteriores da série P

O protocolo pode se estender a mais dados, mais sondas e sistemáticas mais complexas?

Direção de trabalho futuro

Perguntas mais profundas

Como o termo médio, o termo de ruído e o mecanismo microscópico se conectam?

Fora do escopo das conclusões do P1


4 | Quais são os dados? O que RC e GGL nos dizem?


4.1 Curvas de rotação (RC): o “medidor de velocidade” do disco galáctico

Uma curva de rotação registra a velocidade com que gás e estrelas orbitam o centro de uma galáxia em diferentes raios. Quanto mais rápido se movem, maior é a força centrípeta necessária naquele raio, isto é, mais forte deve ser a gravidade efetiva. O P1 usa a base SPARC; após o pré-processamento, inclui 104 galáxias, 2.295 pontos de velocidade e 20 RC-bins.


4.2 Lenteamento fraco (GGL): uma “balança gravitacional” em escalas maiores

O lenteamento fraco galáxia-galáxia mede como galáxias em primeiro plano curvam levemente a luz de galáxias de fundo. Ele corresponde à resposta gravitacional projetada em escalas maiores, semelhantes à escala de halo, e não depende dos detalhes da dinâmica do gás nos discos galácticos. O P1 usa os dados públicos de GGL do KiDS-1000 / Brouwer et al. 2021: quatro bins de massa estelar, 15 pontos radiais por bin, 60 pontos no total, com a matriz de covariância completa.


4.3 Mapeamento fixo: por que 20 RC-bins → 4 GGL-bins importa?

O P1 conecta os 20 RC-bins aos 4 GGL-bins por uma regra fixa: cada GGL-bin corresponde a cinco RC-bins e é calculado por média ponderada pelo número de galáxias. Esse mapeamento permanece igual para todos os modelos, funcionando como uma restrição rígida tanto para o teste de fechamento quanto para uma comparação justa.

Por que não ajustar o mapeamento depois do fato?

Se fosse possível escolher depois quais RC-bins correspondem a quais GGL-bins, um modelo poderia fabricar fechamento rearranjando as correspondências. O P1 trava antecipadamente o mapeamento 20→4 e depois o quebra deliberadamente com um controle negativo por shuffle, justamente para testar se o sinal de fechamento depende de uma correspondência fisicamente razoável.


5 | Modelos e método: o que o P1 está realmente comparando?


5.1 O lado EFT: resposta gravitacional média de baixa dimensão

No lado EFT, um termo extra de velocidade de baixa dimensão descreve a resposta gravitacional média. A forma desse termo extra é controlada por uma função núcleo adimensional f(r/ℓ), em que ℓ é uma escala global, e a amplitude é atribuída por RC-bin. Núcleos diferentes representam inclinações iniciais, velocidades de transição e caudas de longo alcance distintas, e são usados como testes de estresse de robustez.


5.2 O lado DM: a comparação principal e o Apêndice P1A devem ser lidos separadamente

Na comparação principal do texto, DM_RAZOR é uma linha de base NFW minimizada e auditável: usa uma relação c–M fixa e não inclui scatter halo-a-halo, contração adiabática, feedback core, não esfericidade ou termo ambiental. A vantagem é controlar os graus de liberdade e facilitar a reprodução; a limitação é que isso não representa todos os modelos LambdaCDM nem todos os modelos de halo de matéria escura.

Por isso, no Apêndice B (P1A), o lado DM é organizado como um conjunto de “testes de estresse padronizados”. Sem alterar o mapeamento compartilhado nem o protocolo de fechamento, ele adiciona progressivamente ramos de baixa dimensão como SCAT, AC, FB, HIER_CMSCAT, CORE1P, lensing m e a linha de base combinada DM_STD, mantendo EFT_BIN como controle. Você pode ler o P1A assim: em vez de comparar apenas com uma linha de base DM mínima, ele coloca vários mecanismos DM comuns e auditáveis sob o mesmo critério de fechamento.

Formulação precisa da conclusão usada aqui

Texto principal: a série EFT supera de modo significativo o DM_RAZOR mínimo na comparação principal.

Apêndice B / P1A: em vários ramos DM de aprimoramento de baixa dimensão e auditáveis, além do teste de estresse DM_STD, alguns ajustes conjuntos DM melhoram, mas a intensidade de fechamento não apaga a vantagem do EFT_BIN.

A formulação mais segura é, portanto: dentro dos dados, mapeamento, registro de parâmetros e protocolo de fechamento do P1/P1A, a resposta gravitacional média da EFT mostra consistência mais forte entre dados; isso não equivale a excluir todos os modelos de matéria escura.


5.3 Teste de fechamento: a lógica experimental mais importante do P1

1. Ajustar usando apenas RC, obtendo um conjunto de amostras posteriores RC-only.

2. Não reajustar com GGL; usar diretamente o posterior de RC para prever GGL.

3. Usar a covariância completa para calcular a pontuação preditiva de GGL sob o mapeamento correto, logL_true.

4. Permutar aleatoriamente a correspondência RC-bin→GGL-bin e calcular a pontuação de controle negativo, logL_perm.

5. Subtrair os dois valores para obter a intensidade de fechamento: ΔlogL_closure = <logL_true> − <logL_perm>.

Analogia simples

O teste de fechamento é como uma segunda prova em outra sala. O modelo primeiro aprende o padrão na sala RC e depois responde na sala GGL. Se aprendeu uma regra compartilhada, e não um truque local, deve continuar indo bem ao trocar de sala. Se a correspondência entre salas é embaralhada de propósito, a vantagem deve desaparecer.


5.4 Antes de ler as tabelas técnicas: quatro entradas para guardar

Tabela 5.4 | Roteiro de leitura para o próximo conjunto de tabelas técnicas horizontais

Ponto de entrada

O que observar

Por que importa

Tabela S1a

Pontuação total do ajuste conjunto RC+GGL

Responde: olhando os dois conjuntos de dados, qual explicação global é mais forte?

Tabela S1b

Intensidade de fechamento, shuffle, varreduras de robustez

Responde: o que foi aprendido em RC pode ser transferido para GGL?

Tabela B0

Definições de vários ramos DM de aprimoramento no P1A

Evita reduzir o P1 a “comparado apenas com o DM_RAZOR mínimo”.

Tabela B1

Placar de fechamento e ajuste conjunto do P1A

Verifica se a vantagem de fechamento desaparece depois que DM é reforçado.

Nota de layout

A próxima página muda para orientação horizontal para preservar as tabelas largas do relatório original sem apagar colunas nem comprimi-las até ficarem ilegíveis. O texto principal já ofereceu primeiro a leitura em linguagem comum; as tabelas técnicas horizontais são para leitores que precisam conferir números e ramos de modelo.

Figura 0.1 | O fluxo do teste de fechamento do P1 em uma única imagem

Nota: a cadeia superior é o “teste de fechamento” (ajustar apenas com RC → usar o posterior de RC para prever GGL); a cadeia inferior é o “ajuste conjunto” (pontuar RC+GGL juntos). À direita, o mapeamento verdadeiro é comparado ao mapeamento embaralhado para obter a intensidade de fechamento ΔlogL.


6 | Tabelas técnicas principais: tabelas do relatório original e tabelas do P1A

Tabela S1a | Métricas principais de comparação do ajuste conjunto (RC+GGL, Strict; mantidas do relatório original)

Modelo (workspace)

Núcleo W

k

logL_total conjunto (best)

ΔlogL_total vs DM

AICc

BIC

DM_RAZOR

none

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

none

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponential

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabela S1b | Métricas de fechamento e robustez (Strict; mantidas do relatório original)

Modelo (workspace)

ΔlogL de fechamento (true-perm)

ΔlogL de controle negativo após shuffle

Faixa de ΔlogL na varredura σ_int

Faixa de ΔlogL na varredura R_min

Faixa de ΔlogL na varredura cov-shrink

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308

Tabela B0 | Definições dos ramos de aprimoramento DM no P1A (mantidas do Apêndice B do relatório original)

Workspace

modelo_DM

Novos parâmetros (≤1)

Motivação física (núcleo)

Princípio de implementação (auditável)

DM_RAZOR

NFW (fixed c–M, no scatter)

Baseline mínima e auditável de halo LambdaCDM; usada para comparação estrita com a EFT

Mapeamento compartilhado fixo; registro de parâmetros estrito; usada como baseline apenas para comparação relativa

DM_RAZOR_SCAT

NFW + c–M scatter (legacy)

σ_logc

Permite scatter na relação c–M; aproximado por um scatter log-normal de um parâmetro

≤1 novo parâmetro; ainda usa o mapeamento compartilhado; o ganho de fechamento é o critério de aceitação

DM_RAZOR_AC

NFW + contração adiabática (legacy)

α_AC

A queda de bárions pode induzir contração adiabática do halo; aproximada por um parâmetro de intensidade

≤1 novo parâmetro; mapeamento inalterado; relatar mudanças em AICc/BIC e ganho de fechamento

DM_RAZOR_FB

NFW + feedback core (legacy)

log r_core

O feedback pode formar um core interno; aproximado por uma escala de core de um parâmetro

≤1 novo parâmetro; mesmo protocolo de fechamento/controle negativo; a melhora RC-only não é o único objetivo

DM_HIER_CMSCAT

Hierarchical c–M scatter + prior

σ_logc (hier)

Uma forma hierárquica mais padrão c_i∼logN(c(M_i), σ_logc); afeta o posterior conjunto de RC e GGL

Prior explícito; c_i latente marginalizado; permanece de baixa dimensão e auditável

DM_CORE1P

1‑parameter core proxy (coreNFW/DC14‑inspired)

log r_core

Usa um proxy de core de um parâmetro para o principal efeito do feedback bariônico, evitando detalhes de formação estelar de alta dimensão

Cita literatura padrão; ≤1 novo parâmetro; vinculado ao teste de fechamento

DM_RAZOR_M

NFW + lensing shear‑calibration nuisance

m_shear (GGL)

Absorve uma sistemática-chave do lado do lenteamento fraco com um parâmetro efetivo, reduzindo o risco de tratar sistemática como física

O nuisance é registrado explicitamente; não pode retroagir sobre RC; os resultados são julgados principalmente pela robustez do fechamento

DM_STD

Standardized DM baseline (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Coloca as três objeções mais comuns em uma única baseline padronizada que ainda é de baixa dimensão

Relata registro de parâmetros e critérios de informação; fechamento é a métrica principal; usado como controle DM defensivo mais forte

Tabela B1 | Placar P1A (quanto maior, melhor; mantido do Apêndice B do relatório original)

Ramo de modelo (workspace)

Δk

RC-only best logL_RC (Δ)

Intensidade de fechamento ΔlogL_closure (Δ)

Joint best logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Como ler a Tabela B1 (placar P1A)

• Δk: novos graus de liberdade; maior significa um modelo mais complexo, não automaticamente melhor.

• Foque em duas colunas: intensidade de fechamento ΔlogL_closure(Δ) (maior significa mais autoconsistência de transferência) e Joint best logL_total(Δ) (a pontuação total do ajuste conjunto).

• O (Δ) entre parênteses indica a diferença em relação ao DM_RAZOR, para comparação direta.

• A pergunta principal desta tabela é: quando a baseline DM é “razoavelmente reforçada”, a vantagem de fechamento desaparece?

• Dica de leitura: o DM_STD melhora bastante a pontuação conjunta, mas a intensidade de fechamento cai; o EFT_BIN continua mais alto em intensidade de fechamento.

Resumo em uma frase: dentro deste conjunto DM de aprimoramentos de baixa dimensão e auditáveis, melhorar o ajuste conjunto não produz automaticamente fechamento mais forte; o fechamento, isto é, a transferibilidade, continua sendo o critério-chave.


7 | Como ler os principais resultados?

7.1 Ajuste conjunto: olhando os dois conjuntos de dados, a EFT pontua mais alto na comparação principal

A Tabela S1a e a Fig. S4 mostram que, com os mesmos dados, o mesmo mapeamento compartilhado e escala de parâmetros aproximadamente semelhante, a série EFT tem ΔlogL_total conjunto de 1155–1337 em relação ao DM_RAZOR. Em linguagem simples: sob uma mesma regra de pontuação aplicada a RC e GGL juntos, os modelos EFT da comparação principal obtêm pontuação total mais alta.


7.2 Teste de fechamento: o ponto que o P1 mais enfatiza é a transferibilidade

Uma alta intensidade de fechamento significa que os parâmetros inferidos apenas de RC conseguem prever melhor o GGL sem olhar novamente para GGL. No relatório P1, o ΔlogL_closure da EFT é 172–281, enquanto o do DM_RAZOR é 127. Esse resultado é mais importante do que dizer que cada modelo ajusta bem seus próprios dados, porque limita a liberdade do modelo no segundo conjunto de dados.


7.3 Controle negativo: por que o “colapso do sinal” é uma boa notícia?

Depois que o P1 embaralha aleatoriamente a correspondência de agrupamento RC-bin→GGL-bin, o sinal de fechamento da EFT cai para a faixa de 6–23. Para o leitor geral, essa etapa funciona como um teste “antitrapaça”: se a vantagem de fechamento viesse apenas de código, unidades, tratamento de covariância ou acaso de ajuste, a correspondência embaralhada talvez também mostrasse vantagem. O resultado real é o colapso da vantagem, indicando que ela depende do mapeamento correto.

Figura S3 | Intensidade de fechamento (quanto maior, melhor): vantagem média de log-verossimilhança na previsão RC-only → GGL.

Como ler esta figura

Esta figura é central para o P1. Quanto mais alta a barra, melhor a informação aprendida em RC se transfere para GGL.

A série EFT fica globalmente acima do DM_RAZOR, indicando fechamento entre sondas mais forte no experimento “aprender RC primeiro, depois prever GGL”.

Figura S4 | Vantagem do ajuste conjunto (quanto maior, melhor): best logL_total de RC+GGL em relação ao DM_RAZOR.

Como ler esta figura

Esta figura mostra a pontuação total depois que RC e GGL são ajustados conjuntamente.

Todas as variantes EFT ficam substancialmente acima de 0, mostrando que a vantagem da EFT na comparação principal não é um efeito local de um ponto, mas o comportamento global da análise conjunta.

Figura R1 | Controle negativo: o sinal de fechamento cai fortemente após o agrupamento por shuffle.

Como ler esta figura

Esta figura mostra que, quando a relação correta de binagem RC↔GGL é embaralhada, o sinal de fechamento cai fortemente.

Isso faz o resultado do P1 parecer mais uma consistência real no mapeamento entre dados, e não uma coincidência numérica obtida sob qualquer mapeamento.


8 | Robustez e controles: como o P1 evita parecer apenas um bom ajuste de parâmetros?

As perguntas mais naturais para qualquer relatório técnico são: a vantagem vem de uma configuração de ruído, de um trecho de dados da região central, de um tratamento específico da covariância ou de sobreajuste? O P1 responde com múltiplos testes de estresse.

Tabela 2 | Como ler os testes de robustez e os controles negativos do P1

Teste

Dúvida que tenta excluir

Leitura

Varredura σ_int

Se RC contiver scatter desconhecido adicional, a conclusão continua estável?

Depois de afrouxar os erros de RC, a ordem da EFT e a escala da vantagem permanecem estáveis.

Varredura R_min

Se não confiarmos totalmente na região central das galáxias, a conclusão continua estável?

Depois de recortar a região central, a EFT ainda mantém vantagem positiva.

Varredura cov-shrink

Se a estimativa de covariância do GGL for incerta, a conclusão continua estável?

Depois de contrair a covariância em direção à diagonal, a vantagem não é sensível.

Escada de ablação

A EFT ganha por complexidade desnecessária?

O EFT_BIN completo é necessário sob os critérios de informação.

Previsão LOO com bins retidos

O modelo só explica dados que já viu?

Bins GGL deixados de fora ainda mostram generalização relativamente forte.

Shuffle de RC-bin

O fechamento vem do mapeamento verdadeiro?

O fechamento cai depois que o agrupamento é embaralhado, apoiando a dependência do mapeamento.

Figura R2 | Faixa de ΔlogL_total sob a varredura σ_int (quanto maior, melhor).

Como ler esta figura

Verifica se a liderança da EFT permanece após alterar a hipótese de scatter intrínseco em RC.

Figura R3 | Faixa de ΔlogL_total sob a varredura R_min (quanto maior, melhor).

Como ler esta figura

Verifica se a vantagem da EFT permanece estável após aparar a região central complexa.

Figura R4 | Faixa de ΔlogL_total sob a varredura cov-shrink (quanto maior, melhor).

Como ler esta figura

Verifica se a ordenação é sensível a mudanças no tratamento da covariância do lenteamento fraco.

Figura R5 | Escada de ablação do EFT_BIN (AICc; quanto menor, melhor).

Como ler esta figura

Verifica se o EFT_BIN completo é necessário para explicar os dados, em vez de apenas adicionar parâmetros.

Figura R6 | LOO: distribuição da log-verossimilhança para bins deixados de fora.

Como ler esta figura

Verifica se o modelo ainda prevê bins GGL que não viu.

Figura R7 | Controle negativo: o mapeamento por shuffle leva a uma queda clara em closure mean logL_true.

Como ler esta figura

Mostra ainda, do ponto de vista de mean logL_true, que o fechamento depende do mapeamento correto entre dados.


9 | P1A: por que os “vários modelos DM no apêndice” importam?

Esta seção não pergunta “a EFT venceu apenas um DM_RAZOR mínimo?”. Ela pergunta se as conclusões do teste de fechamento e do ajuste conjunto mudam quando a linha de base DM é reforçada em um cenário de baixa dimensão, reprodutível e com registro de parâmetros claro (P1A). Em outras palavras, o P1A reduz a crítica de que a comparação escolheu uma linha de base DM fraca demais e desloca a discussão para saber se o desempenho de fechamento ainda difere sob um conjunto auditável de aprimoramentos DM.

O desenho do P1A não tenta esgotar todas as possibilidades de modelagem de halos LambdaCDM, nem transforma o lado DM em um ajustador de alta dimensão e impossível de auditar. Ele escolhe aprimoramentos de baixa dimensão, reprodutíveis e com registro de parâmetros claro: scatter de concentração, contração adiabática, feedback core, prior hierárquico de scatter c–M, proxy de core de um parâmetro, nuisance de calibração de cisalhamento no lenteamento fraco e o ramo combinado DM_STD.

Leitura principal do P1A

Entre os três ramos legacy, apenas feedback/core produz pequeno ganho líquido na intensidade de fechamento; SCAT e AC não produzem ganho líquido de fechamento.

DM_HIER_CMSCAT, DM_RAZOR_M e DM_CORE1P têm pouco efeito sobre a intensidade de fechamento ou não mostram ganho líquido significativo.

DM_STD pode melhorar substancialmente o joint logL, mas sua intensidade de fechamento diminui, sugerindo que ele aumenta principalmente a flexibilidade do ajuste conjunto, e não a força de previsão transferida RC→GGL.

Na Tabela B1 do P1A, EFT_BIN ainda mantém intensidade de fechamento mais alta e vantagem de ajuste conjunto. Portanto, a afirmação central do P1 não deve ser simplificada para “venceu apenas o DM_RAZOR mínimo”.

Figura B1 | Placar P1A: ΔlogL de fechamento e conjunto em relação à baseline (quanto maior, melhor).

Como ler esta figura

Esta figura mostra o desempenho de vários ramos DM de aprimoramento em relação à baseline.

Seu significado não é “excluir todo DM”. Ela mostra que, dentro dos aprimoramentos DM de baixa dimensão e auditáveis escolhidos pelo P1A, reforçar DM não apaga a vantagem de fechamento do EFT_BIN.


10 | Por que o experimento P1 vale a pena?

10.1 Significado metodológico: colocar o fechamento entre sondas acima do ajuste de uma única sonda

Teorias em escala galáctica facilmente ficam presas à pergunta de saber se um modelo consegue ajustar um conjunto de curvas de rotação. O P1 eleva o padrão: parâmetros aprendidos com RC conseguem prever o lenteamento fraco sem reajuste em GGL? Isso transforma o P1 de uma competição de ajuste em um teste de previsão transferida.


10.2 Significado de transparência: tratar a cadeia reprodutível como parte do resultado

Uma contribuição importante do P1 é publicar juntos os dados, tabelas e figuras, rótulos de execução, controles negativos, pacote de reprodução e cadeia de auditoria. Isso importa tanto para apoiadores quanto para críticos: a discussão pode voltar aos mesmos dados públicos, ao mesmo mapeamento, aos mesmos scripts e às mesmas métricas, em vez de comparar apenas slogans.


10.3 Significado físico: um teste de estresse forte para gravidade sem matéria escura

Na direção da gravidade sem matéria escura, muitos modelos conseguem explicar parte das curvas de rotação ou da fenomenologia RAR. A tarefa mais difícil é passar ao mesmo tempo pelas leituras de lenteamento fraco e mostrar, por controles negativos, que o sinal depende do mapeamento correto. A importância do P1 está em colocar a resposta gravitacional média da EFT dentro de um protocolo parecido com uma prova externa: RC é o campo de treino, GGL é o campo de transferência, e shuffle é o campo antitrapaça.


10.4 Este é um experimento importante para a gravidade sem matéria escura?

Uma resposta cautelosa é esta: se o tratamento de dados, o pacote de reprodução e o protocolo de fechamento do P1 se mantiverem após revisão externa, ele poderá ser tratado como um experimento de fechamento RC+GGL que merece atenção séria na pesquisa sobre gravidade sem matéria escura / gravidade modificada. Sua importância não está em afirmar que “derruba a matéria escura”, mas no fato de oferecer um critério entre sondas que pode ser reproduzido, desafiado e ampliado.

Já existe uma estrutura de fechamento preditivo RC+GGL igualmente forte?

Já existem tradições observacionais e estruturas relacionadas. MOND/RAR organiza bem muitos fenômenos de curvas de rotação; o trabalho RAR de lenteamento fraco KiDS-1000 também compara MOND, a gravidade emergente de Verlinde e modelos LambdaCDM. O LambdaCDM também pode explicar parte da fenomenologia dinâmica/de lenteamento fraco por meio de conexões galáxia–halo, halos gasosos e modelagem de feedback.

Mas a afirmação precisa do P1 não é que nenhum outro arcabouço consegue explicar RC+GGL. Ela é que, sob o próprio protocolo público do P1 — mapeamento fixo, fechamento RC-only→GGL, controle negativo por shuffle, registro de parâmetros e teste de estresse P1A com múltiplos DM —, a EFT relata desempenho de fechamento mais forte.

Em outras palavras, o que mais merece teste externo no P1 é seu protocolo concreto e reprodutível de comparação. Um próximo passo muito valioso é testar se MOND/RAR, LambdaCDM/HOD, simulações hidrodinâmicas ou outros arcabouços de gravidade modificada conseguem alcançar pontuações de fechamento iguais ou mais altas sob o mesmo protocolo.


11 | O que o P1 pode concluir, e o que não pode concluir?

Tabela 3 | Fronteiras das conclusões do P1

Pode concluir

Sob os dados RC+GGL, o mapeamento fixo e o protocolo de comparação principal do P1, a série EFT apresenta maior ajuste conjunto e maior intensidade de fechamento do que o DM_RAZOR mínimo.

Pode concluir

Dentro da faixa de aprimoramentos DM de baixa dimensão e auditáveis do P1A, vários aprimoramentos DM não apagam a vantagem de fechamento do EFT_BIN.

Pode concluir

O controle negativo por shuffle mostra que o sinal de fechamento depende do mapeamento correto entre dados, e não pode ser obtido de mapeamentos arbitrários.

Não pode concluir

O P1 não derruba todos os modelos de matéria escura. O P1A ainda não esgota não esfericidade, dependência ambiental, conexões galáxia–halo complexas, feedback de alta dimensão ou simulações cosmológicas completas.

Não pode concluir

O P1 não prova a teoria EFT completa a partir de primeiros princípios. Ele testa apenas a camada fenomenológica da resposta gravitacional média.

Não pode concluir

O P1 não exclui todas as sistemáticas. Ele fornece evidências de robustez apenas dentro dos testes de estresse e do escopo de auditoria listados.


12 | Perguntas frequentes para leitores gerais

Q1: Isso quer dizer que “a matéria escura não existe”?

Não. As conclusões do P1 precisam ser limitadas aos dados, ao protocolo e aos modelos de comparação usados aqui. O P1A vai além da baseline mínima DM_RAZOR, mas ainda não representa todos os modelos possíveis de matéria escura.

Q2: Isso quer dizer que “a EFT já foi provada”?

Também não. O P1 testa a EFT como uma parametrização da resposta gravitacional média e mostra desempenho mais forte no fechamento RC→GGL. Mecanismos microscópicos e a teoria completa não são conclusões do P1.

Q3: Por que não declarar diretamente um valor de significância em σ?

O P1 usa pontuações de verossimilhança unificadas, critérios de informação e diferenças de fechamento. ΔlogL é uma vantagem relativa sob a mesma regra de pontuação; não é o mesmo que um único valor σ.

Q4: Por que embaralhar o mapeamento RC-bin→GGL-bin?

É um controle negativo. Um sinal genuíno entre sondas deve depender do mapeamento correto. Se o sinal permanecesse igualmente forte depois do shuffle, isso sugeriria viés de implementação ou artefato estatístico.

Q5: Qual deveria ser o próximo passo do P1?

Estender o mesmo protocolo a mais dados, mais controles DM, sistemáticas mais complexas e mais estruturas de gravidade modificada — especialmente em uma forma que permita a equipes externas testá-lo novamente sob a mesma métrica de fechamento.


13 | Miniglossário

Tabela 4 | Miniglossário

Termo

Explicação em uma frase

Curva de rotação (RC)

Relação raio–velocidade no disco de uma galáxia, usada para inferir a gravidade efetiva no plano do disco.

Lenteamento fraco (GGL)

Mede a distribuição média de gravidade/massa ao redor de galáxias em primeiro plano por distorções estatísticas nas formas de galáxias de fundo.

Teste de fechamento

Usa o posterior de RC para prever GGL e depois compara com o controle negativo de mapeamento embaralhado.

Controle negativo

Quebra deliberadamente uma estrutura-chave para ver se o sinal desaparece; usado para excluir sinais espúrios.

Halo NFW

Perfil de densidade de halo de matéria escura comumente usado em modelos de matéria escura fria.

Relação c–M

Relação entre a concentração c do halo e sua massa M; permitir scatter afeta a flexibilidade do modelo.

DM_STD

Ramo padronizado de teste de estresse DM no P1A que combina vários aprimoramentos DM de baixa dimensão com um parâmetro nuisance de lenteamento.

ΔlogL

Diferença de log-verossimilhança entre dois modelos sob a mesma regra de pontuação; valor positivo significa que o primeiro tem desempenho melhor.

Covariância

Descrição matricial das correlações entre pontos de dados; dados de lenteamento fraco geralmente exigem a matriz de covariância completa.


14 | Roteiro de leitura sugerido e pontos de entrada para citação

1. Leia primeiro as seções 0–2 para entender a pergunta do P1 e o papel contido da EFT dentro do P1.

2. Depois leia a Fig. S3, a Fig. S4 e as Tabelas S1a/S1b para entender a intensidade de fechamento, o ajuste conjunto e os controles negativos.

3. Se a sua preocupação é se a baseline DM é fraca demais, vá diretamente à Seção 9 e à Tabela B1 / Fig. B1.

4. Para revisão técnica, volte ao relatório técnico P1 v1.1, ao Tables & Figures Supplement e ao full_fit_runpack.

Principais pontos de entrada do arquivo

Relatório técnico P1 (nível de publicação, Concept DOI): 10.5281/zenodo.18526334

Pacote completo de reprodução do P1 (Concept DOI): 10.5281/zenodo.18526286

Base de conhecimento estruturada da EFT (opcional, Concept DOI): 10.5281/zenodo.18853200

Nota de licença: o relatório técnico usa CC BY-NC-ND 4.0; o pacote completo de reprodução usa CC BY 4.0 (conforme o relatório técnico e os registros de arquivo no Zenodo).


15 | Referências e contexto externo

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.