Q: Quando devo usar uma regex em vez de métodos de cadeia simples?

Para pesquisas simples de cadeias fixas, String.prototype.includes() ou indexOf() é mais rápido e legível do que uma regex. Recorre a uma regex quando precisares de correspondência de padrões (por exemplo, 'começa por um dígito'), alternância (corresponder a 'cat' ou 'dog'), classes de caracteres (corresponder a qualquer vogal), quantificadores (corresponder a um ou mais dígitos) ou grupos de captura para extrair subcorrespondências. A regex destaca-se em tarefas de validação, extração e transformação onde o padrão alvo tem uma estrutura que não pode ser expressa como uma única cadeia literal.

Q: Em que difere a regex do JavaScript da PCRE (Python, PHP, Perl)?

A variante de regex do JavaScript é semelhante à PCRE mas tem algumas diferenças notáveis. O JavaScript não suporta grupos atómicos, quantificadores possessivos nem padrões recursivos. A asserção \K (keep) disponível na PCRE está ausente no JavaScript. Os grupos de captura nomeados usam a sintaxe (? ...) no JavaScript, em vez de (?P ...) no Python. A flag global (g) no JavaScript afeta a propriedade com estado lastIndex do objeto RegExp, o que pode provocar erros subtis ao reutilizar um objeto regex num ciclo.

Q: Quais são as flags disponíveis e o que fazem?

As principais flags de regex do JavaScript são: g (global), encontrar todas as correspondências em vez de parar na primeira; i (sem distinção entre maiúsculas e minúsculas), tratar maiúsculas e minúsculas como equivalentes; m (multilinha), fazer ^ e $ corresponderem aos limites de linha em vez dos limites de cadeia; s (dotAll), fazer o ponto (.) corresponder às mudanças de linha; u (Unicode), ativar a correspondência Unicode completa e os escapes de ponto de código; e d (índices), incluir os índices de início e fim de cada correspondência e grupo de captura no resultado.

Q: Existe um limite para o comprimento da cadeia de teste ou do padrão?

Não há um limite rígido imposto pela ferramenta, mas padrões muito longos ou cadeias de teste muito grandes podem fazer o navegador deixar de responder, sobretudo se o padrão incluir quantificadores aninhados que possam desencadear um retrocesso catastrófico. Padrões com retrocesso não limitado em entradas grandes podem consumir CPU indefinidamente. Se o separador do navegador congelar, fecha-o e volta a abri-lo. Para uso em produção, testa sempre os padrões de regex em relação a entradas adversárias antes de os implementares.

Q: Posso usar isto para testar um padrão de substituição?

Sim. Introduz uma cadeia de substituição no campo de substituição e a ferramenta mostrará uma pré-visualização ao vivo da saída após aplicar String.prototype.replace (para a primeira correspondência) ou replaceAll (com a flag g). É suportada a sintaxe de substituição padrão: $1 e $2 para os grupos de captura numerados, $ para os grupos de captura nomeados, $& para toda a cadeia correspondida, $` para o texto anterior à correspondência e $' para o texto posterior à correspondência.

Question 1

A minha entrada é enviada para um servidor?

Accepted Answer

Não. A expressão regular é avaliada inteiramente no teu navegador usando o motor nativo RegExp do JavaScript. O teu padrão, a tua cadeia de teste e qualquer modelo de substituição nunca saem do teu dispositivo e nunca são transmitidos pela rede.

Question 2

Que variante de regex usa esta ferramenta?

Accepted Answer

Esta ferramenta usa o motor de regex do JavaScript (ECMAScript) através do construtor nativo RegExp. Suporta todas as funcionalidades padrão do ES2024, incluindo os grupos de captura nomeados (?<name>...), as asserções de retrospeção lookbehind ((?<=...) e (?<!...)), a flag dotAll (s), a flag Unicode (u), a flag de índices (d) e a recém-acrescentada flag v para a notação de conjuntos Unicode. Não suporta funcionalidades específicas de PCRE como os padrões recursivos ou os quantificadores possessivos.

Question 3

Quando devo usar uma regex em vez de métodos de cadeia simples?

Accepted Answer

Para pesquisas simples de cadeias fixas, String.prototype.includes() ou indexOf() é mais rápido e legível do que uma regex. Recorre a uma regex quando precisares de correspondência de padrões (por exemplo, 'começa por um dígito'), alternância (corresponder a 'cat' ou 'dog'), classes de caracteres (corresponder a qualquer vogal), quantificadores (corresponder a um ou mais dígitos) ou grupos de captura para extrair subcorrespondências. A regex destaca-se em tarefas de validação, extração e transformação onde o padrão alvo tem uma estrutura que não pode ser expressa como uma única cadeia literal.

Question 4

Em que difere a regex do JavaScript da PCRE (Python, PHP, Perl)?

Accepted Answer

A variante de regex do JavaScript é semelhante à PCRE mas tem algumas diferenças notáveis. O JavaScript não suporta grupos atómicos, quantificadores possessivos nem padrões recursivos. A asserção \K (keep) disponível na PCRE está ausente no JavaScript. Os grupos de captura nomeados usam a sintaxe (?...) no JavaScript, em vez de (?P...) no Python. A flag global (g) no JavaScript afeta a propriedade com estado lastIndex do objeto RegExp, o que pode provocar erros subtis ao reutilizar um objeto regex num ciclo.

Question 5

Quais são as flags disponíveis e o que fazem?

Accepted Answer

As principais flags de regex do JavaScript são: g (global), encontrar todas as correspondências em vez de parar na primeira; i (sem distinção entre maiúsculas e minúsculas), tratar maiúsculas e minúsculas como equivalentes; m (multilinha), fazer ^ e $ corresponderem aos limites de linha em vez dos limites de cadeia; s (dotAll), fazer o ponto (.) corresponder às mudanças de linha; u (Unicode), ativar a correspondência Unicode completa e os escapes de ponto de código; e d (índices), incluir os índices de início e fim de cada correspondência e grupo de captura no resultado.

Question 6

Existe um limite para o comprimento da cadeia de teste ou do padrão?

Accepted Answer

Não há um limite rígido imposto pela ferramenta, mas padrões muito longos ou cadeias de teste muito grandes podem fazer o navegador deixar de responder, sobretudo se o padrão incluir quantificadores aninhados que possam desencadear um retrocesso catastrófico. Padrões com retrocesso não limitado em entradas grandes podem consumir CPU indefinidamente. Se o separador do navegador congelar, fecha-o e volta a abri-lo. Para uso em produção, testa sempre os padrões de regex em relação a entradas adversárias antes de os implementares.

Question 7

Posso usar isto para testar um padrão de substituição?

Accepted Answer

Sim. Introduz uma cadeia de substituição no campo de substituição e a ferramenta mostrará uma pré-visualização ao vivo da saída após aplicar String.prototype.replace (para a primeira correspondência) ou replaceAll (com a flag g). É suportada a sintaxe de substituição padrão: $1 e $2 para os grupos de captura numerados, $<name> para os grupos de captura nomeados, $& para toda a cadeia correspondida, $` para o texto anterior à correspondência e $' para o texto posterior à correspondência.

Question 8

O que é o retrocesso catastrófico e como o evito?

Accepted Answer

O retrocesso catastrófico ocorre quando um motor de regex explora um número exponencial de possíveis caminhos de correspondência numa cadeia que não corresponde ao padrão. Surge normalmente de quantificadores aninhados sobre classes de caracteres que se sobrepõem, por exemplo, (a+)+ numa longa cadeia de caracteres 'a' seguida de um carácter que não pode corresponder. Para o evitar: prefere padrões atómicos, usa quantificadores possessivos se estiverem disponíveis, evita a ambiguidade naquilo a que cada parte do padrão pode corresponder e testa sempre com entradas concebidas para falhar, além de entradas concebidas para ter êxito.

Question 9

Qual é a diferença entre um grupo de captura e um sem captura?

Accepted Answer

Um grupo de captura (...) corresponde ao padrão dentro dos parênteses e armazena o texto correspondido para que possa ser referenciado mais tarde através de $1, $2 ou dos índices de grupo. Um grupo sem captura (?:...) agrupa o padrão para fins de quantificação ou alternância sem armazenar a correspondência, o que o torna ligeiramente mais eficiente. Os grupos nomeados (?...) são grupos de captura que podem ser referenciados pelo nome ($ nas substituições, match.groups.name no código JavaScript) em vez de pelo índice.

Question 10

Qual é um erro comum de principiante com as expressões regulares?

Accepted Answer

Um dos erros mais comuns é esquecer-se de escapar o ponto (.) quando se pretende um ponto literal. O ponto numa regex corresponde a qualquer carácter (exceto a mudança de linha, por predefinição), por isso um padrão como 3.14 também corresponderá a 3X14 ou 3-14. Escreve 3\.14 para corresponder a um ponto literal. Outro erro frequente é omitir a flag global (g) e questionar-se por que só a primeira correspondência é realçada. Uma terceira armadilha é ancorar com ^ e $ e surpreender-se por corresponderem aos limites de linha apenas quando a flag multilinha (m) está ativada.

Testador e Depurador de Regex

Exemplos

Perguntas frequentes

Sobre Testador e Depurador de Regex

Da teoria das linguagens formais ao grep

Testador e Depurador de Regex

Exemplos

Perguntas frequentes

Sobre Testador e Depurador de Regex

Da teoria das linguagens formais ao grep

Ferramentas relacionadas

Validador e Formatador JSON

Validador e formatador de XML