Prévia do material em texto
Uma Introdução às Redes RBF André da Motta Salles Barreto andremsb@lncc.br “Experience is not what happens to a man; it is what a man does with what happens to him.” Aldous Huxley As redes de função de base radial vêm sendo seriamente consideradas como uma alternativa de modelo não linear para problemas de regressão e classificação de padrões. Grande parte desse interesse é proveniente do fato de essa arquitetura contar com um forte embasamento estatístico, podendo ser considerada como um aproximador universal. Além disso, a estrutura das redes de função de base radial permite que a configuração de suas camadas seja desacoplada em duas fases, o que lhe confere um desempenho na aprendizagem sensivelmente superior ao de outras arquiteturas conhecidas atualmente. Finalmente, a natureza desse tipo de rede permite uma interpretação de suas unidades ocultas que lhe atribui um papel fundamental como uma intrigante metáfora para o sistema neuronal biológico. Esse trabalho trata dos principais aspectos referentes às redes de função de base radial. Partindo de uma nova interpretação para a idéia de aprendizagem (seção1), discute-se nas seções 2, 3 e 4 conceitos fundamentais para o estudo dessa arquitetura de rede, que é efetivamente apresentada na seção 5. Grande parte do trabalho é dedicada à descrição de diferentes possibilidades de treinamento das redes de função de base radial (seção 7). Algumas aplicações desse modelo de rede são apresentadas na seção 8, com três exem- plos interessantes descritos em detalhes. Finalmente, a seção 9 discute a plausibilidade e possíveis implicações biológicas desse tipo de rede neural. 1 A aprendizagem vista como um problema de recons- trução de hipersuperfície Quando se fala em redes neurais artificiais, a aprendizagem é invariavelmente menci- onada, direta [69, 29, 63] ou indiretamente [46, 17]. Mas o que é, de fato, essa capacidade de “aprender”, tão festejada pelos entusiastas da neurocomputação? Uma Introdução às Redes RBF Uma discussão aprofundada sobre a natureza da aprendizagem é deveras pretensiosa e foge ao escopo desse trabalho. Não custa, porém, tentar delimitar o conceito nesse contexto. Para tal, o relato de uma experiência realizada na Hahnemann University pode ser interessante. Se não servir para esclarecer a idéia, que sirva para entreter o leitor. A experiência citada acima foi desenvolvida em 1990 pelos professores Miguel Nico- lelis e John Chapine [49]. Pesquisando sobre a possibilidade de aplicação das interfaces homem-máquina (ICM ou neuropróteses) na restauração de funções motoras, os cientis- tas realizaram o seguinte experimento: primeiramente, eles treinaram um rato, colocado dentro de uma gaiola, para empurrar uma barra com uma das patas dianteiras. A barra es- tava ligada eletricamente a uma alavanca situada fora da caixa. Quando o rato empurrava a barra, a alavanca acionava um dispositivo que liberava uma gota d’água para o animal. Depois, eles conectaram uma série de microfios a diversas regiões do córtex motor do rato, o tecido do cérebro que planeja os movimentos e envia instruções para as células nervosas da espinha. Cada um dos microfios —mais finos que um fio de cabelo— estava colocado junto a um neurônio motor e era capaz de capturar a sua descarga elétrica (ou “potencial de ação”). Durante um certo tempo, toda vez que o animal comandava sua pata dianteira para empurrar a barra, os pesquisadores gravavam simultaneamente os potenci- ais de ação gerados por 46 neurônios. Programaram então uma série de resistores para pesar e processar os dados desses neurônios, a fim de gerar uma saída analógica única que descreveria muito bem o movimento de sua pata. O próximo passo é previsível: os cientistas simplesmente desligaram a barra da ala- vanca. Em um primeiro momento, o rato ficou frustado ao perceber que o movimento tão arduamente aprendido não lhe rendia mais a recompensa. Porém, após alguma insistên- cia, a alavanca surpreendentemente voltou a se inclinar e liberou a água. O rato não fazia a menor idéia disso, mas os seus 46 neurônios geraram o mesmo padrão de acionamento usado antes, o que levou os resistores a ativarem a alavanca. A próxima etapa da experiência é, sem dúvida, a mais surpreendente: após algumas horas, o rato percebeu que não precisava de fato empurrar a barra. Bastava olhar para ela e imaginar sua pata dianteira empurrando-a. Dessa forma, seus neurônios exprimiriam o mesmo padrão e a alavanca seria ativada. A conclusão extraordinária é que o rato havia aprendido a mover a alavanca com a força da mente! Essa experiência interessantíssima ilustra duas categorias de aprendizagem diferentes. A primeira, mais óbvia, se refere ao desempenho do rato: primeiramente, associando o movimento de sua pata dianteira com o bônus e, posteriormente, percebendo que um sim- ples pensamento poderia lhe render o mesmo benefício. A segunda categoria de aprendi- zagem é um pouco mais sutil, mas essencial para o sucesso da experiência: a detecção do padrão de sinais gerados pelos 46 neurônios quando o rato fazia o movimento desejado. Embora diferentes, ambos os exemplos de aprendizagem envolvem um fator comum: algum tipo de associação. No primeiro caso, o animal aprendeu a associar um movimento —ou um pensamento— com uma recompensa, no caso, uma gota d’água. No segundo caso, um conjunto de 46 níveis potenciais de ação específicos é relacionado a uma única saída analógica. Pode-se, portanto, definir conhecimento nesse contexto como sendo uma representação interna de uma porção da realiadade através de um mapeamento. Os resis- 2 c� André da Motta Salles Barreto Uma Introdução às Redes RBF tores da experiência, por exemplo, foram configurados de tal forma a mapear um padrão específico de atividade neuronal em uma saída contínua que ativava a alavanca. Mas se o mapeamento havia sido corretamente absorvido, por que nos primeiros mo- mentos os sinais emitidos pelos neurônios do rato não ativaram a alavanca? Porque, embora muitíssimo parecidos, os padrões emitidos pelo cérebro do pequeno animal a cada vez que ele empurrava a barra não eram idênticos. A posição do rato em relação à alavanca ou a força exercida pelos seus músculos, por exemplo, poderiam distorcer mi- nimamente os sinais. Isso significa que um conhecimento limitado armazenado na forma de uma tabela de consultai pode não ser muito útil. O mundo em que vivemos é —considerando o nível de abstração adequado— re- dundante [56, 57]. Isso significa que existem padrões que se repetem no tempo e que apresentam alguma coerência no espaço. Se não fosse dessa forma, seria impossível ex- traírmos qualquer conhecimento da experiência. Como exemplo, Poggio e Girosi citam em [56] o caso de um catálogo telefônico: pode-se decorar uma quantidade infinitamente grande de números de telefones, que isso em nada ajudaria na estimativa do telefone de uma pessoa que não constasse na lista. Felizmente, os eventos não são totalmente locais: padrões parecidos tendem a gerar respostas parecidas. De certa forma, pode-se dizer que é possível extrair um mapeamento suave que descreva porções da realidade. Esse é na verdade o verdadeiro objetivo da aprendizagem: como os padrões raramente se repetem de forma idêntica, ao invés de armazenar um número limitado desses, deve-se desenvolver um mapeamento tal que seja possível inferir o valor de padrões nunca vistos. Isso é o que costuma-se chamar de generalização. Talvez seja por isso que o rato da experiência de Nicolelis e Chapine não tenha conse- guido mover a alavanca em um primeiro momento. Como o mapeamento do seu padrão neuronal em um movimento estava sendo feito de maneira artificial (através dos resisto- res), pode-se supor que não existia flexibilidade suficiente para a detecção de movimentos muito diferentes dos originais. No início, como o objetivo era empurrar o bastão e não repetir o padrão mental, ele podeter tentado fazê-lo de uma maneira nova. Depois de algum tempo ele “percebeu” que a maneira como ele a empurrava, mesmo não sendo uma cópia perfeita de nenhuma das anteriores, era fundamental para o sucesso da operação. Evidentemente, essas são apenas suposições. O objetivo aqui não é discutir a fundo a experiência com o rato, mas usá-la como forma de ilustração do assunto em questão1. Talvez esse ponto da discussão seja adequado para se relacionar algumas idéias apre- sentadas com conceitos matemáticos. Até agora, o termo “mapeamento” foi utilizado para descrever as associações envolvidas no processo de aprendizagem. Matematicamente, a idéia de mapeamento pode ser modelada através do conceito de função. Voltando à expe- riência, a relação entre o estado de ativação dos 46 neurônios e a saída analógica poderia iLookup-table (ao longo do trabalho, os termos cujos correspondentes em inglês mereçam ser apresen- tados serão destacados com o símbolo “i”, diferenciando a tradução das notas de rodapé convencionais. As siglas serão sempre derivadas dos nomes em inglês, a fim de manter a homogeneidade com a terminologia comumente utilizada na literatura). 1Para uma discussão mais detalhada e o relato de outras experiências do mesmo tipo, aconselha-se a consulta do trabalho [49] e das referências nele contidas. 3 c� André da Motta Salles Barreto Uma Introdução às Redes RBF ser descrita por uma função � , da seguinte forma: ��������� � ���� ������� (1) onde os valores de � representariam os movimentos do braço do animal, dos quais um valor específico ativaria a alavanca para liberar a água. Pode-se considerar a função � como sendo uma hipersuperfície ��� � ��� [9, 29]. A superfície � é um gráfico multidimensional da saída em função das entradas. Essa super- fície foi construída a partir de alguns pontos de exemplo (obtidos enquanto os cientistas gravavam os níveis de ativação neuronal do rato). A motivação dessa postura é a idéia de que existe uma hipersuperfície, provavelmente suave, que descreve o fenômeno real perfeitamente. Os padrões de exemplo são pontos —possivelmente contaminados com ruído— que pertencem a � . Dessa forma, “a aprendizagem é vista como um problema de reconstrução de uma hipersuperfície, dado um conjunto de pontos que podem ser espar- sos” [29]. Essa é a idéia fundamental por trás das redes de função de base radial, e será detalhada na próxima seção. 2 A teoria da regularização Para discutir o assunto dessa seção, deixemos o rato na gaiola por algum tempo para que um outro exemplo possa ser apresentado. Suponha uma situação tão simples quanto inusitada: pretende-se criar um modelo que preveja a distância percorrida por um corpo em queda livre em função do tempo de queda. Embora essa questão possa parecer inve- rossímil, ela constitui um dos principais assuntos estudados pelos sábios da Antigüidade e, mais tarde, pelo notável Galileo Galilei [41]. Sabe-se que —desprezando a resistên- cia do ar— a posição ff de um corpo em queda livre em função do tempo fi é dada pela seguinte expressão: ff � fi �fl� ff�ffi! #"$ffi%fi& (')�fi�* (2) onde ff�ffi é a posição inicial, "+ffi é a velocidade escalar inicial e ' é a aceleração. Considera-se que o corpo parte do repouso ( ",ffi �.- ) e, como deseja-se determinar a distância percorrida, orienta-se a trajetória no sentido da queda e com origem em ff/ffi . Sabendo que a aceleração é constante e positiva (aproximadamente 02143/5768ff * ), conclui-se que o gráfico dessa função seria aquele mostrado na figura 1. Na situação hipotética apresentada, essa função é desconhecida e deve ser estimada. Imagine, por exemplo, que os únicos dados disponíveis são provenientes de 10 observa- ções ruidosas, como mostrado na figura 2. O problema pode ser formulado, então, da seguinte maneira: dado o conjunto de pontos 9 �(: � fi�;<1=ff � fi>; �%� � �@?A�CB D �(E 1 )GFHFIF E�-GJ , deve-se encontrar a função Kff que melhor 4 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 0 50 100 150 200 250 300 350 400 450 500 0 2 4 6 8 10 s (m etr os ) t (segundos) Figura 1: Gráfico da função ff aproxime a função original ff geradora dos pontos2. Em primeiro lugar, pode-se observar que trata-se de um problema inverso. Além disso, sob uma perspectiva matemática, pode-se dizer que o problema é mal-formulado. Isso porque os dados disponíveis não são suficientes para que o mapeamento seja reconstruído de maneira única [56]. Outras características que impõe ao problema essa classificação são o fato de não existir necessariamente uma saída distinta para cada entrada e essas últimas poderem estar —e provavelmente estarão— contaminadas com ruído [29]. Para lidar com problemas mal-formulados, o teórico russo Andre Tikhonov propôs uma técnica matemática conhecida como regularização [52, 29, 56]. A idéia da regulari- zação é tentar incorporar alguma informação prévia à solução do problema. No contexto de reconstrução de hipersuperfícies, supõe-se, em geral, que a função do mapeamento de entrada-saída seja suave3. Essa é uma das restrições mais fracas que torna a aproximação possível. Outras restrições mais fortes podem ser consideradas, como por exemplo: a função ser linear, estar restrita a um determinado intervalo ou ser invariável em relação a algum grupo de transformações. Evidentemente, deve-se levar em consideração toda informação de que se tenha conhecimento a priori. De qualquer maneira, a informação prévia é incorporada ao problema através de al- gum funcional não negativo. Basicamente, a teoria de Tikhonov envolve dois termos: Termo de erro padrão Este termo, representado por ��� � Kff � , mede o erro (ou distância) entre o padrão desejado ff � fi�; � e a resposta obtida Kff � fi�; � . O termo de erro padrão seria definido no exemplo dado da seguinte maneira: 2É importante observar que a função � foi escolhida de forma a facilitar a exposição, e todas as obser- vações podem ser facilmente estendidas para o caso de mapeamentos do tipo ����� �� . 3De acordo com [56], se nenhuma informação sobre uma função de alta dimensionalidade está dispo- nível, a única opção pode ser assumir um alto grau de suavidade. Caso contrário, o número de exemplos necessários para reconstruir o mapeamento seria proibitivamente grande. 5 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 0 50 100 150 200 250 300 350 400 450 500 0 2 4 6 8 10 s (m etr os ) t (segundos) Dados Figura 2: Informação disponível sobre ff � � � Kff � � � ffi � ;�� ��� ff � fi>; ��� Kff � fi>; � * (3) Termo de regularização Este segundo termo, representado por ��� � Kff � , depende das pro- priedades “geométricas” da função aproximativa Kff . Especificamente, pode-se defini- lo como: � � � Kff ������� Kff � * (4) onde � é um operador diferencial linear. A informação prévia sobre a forma da solução é incorporada nesse operador. O problema passa a ser, então, encontrar a função Kff que minimiza o chamado funcional de Tikhonov: � � Kff �fl� � � � Kff � �� � � � Kff � � � Kff �fl��� � ffi ;�� � � ff � fi>; ��� Kff � fi>; �� * �� ��� Kff � * (5) onde � é o parâmetro de regularização. O parâmetro de regularização � controla o compromisso entre o grau de suavidade da solução Kff e a sua distância aos pontos dados. Um valor pequeno para � implica que o ajuste aos pontos pode ser muito preciso, sem que isso gere uma penalização muito severa. Por outro lado, quando � assume um valor muito grande, o ajuste deve ser sacrificado em detrimento de uma função mais simples. O parâmetro de regularização está, dessa forma,diretamente relacionado com o grau de generalização que será alcançado pela solução Kff . A figura 3 ilustra dois casos extremos. No primeiro deles (figura 3(a)), o valor de � foi superestimado, e o resultado é uma função linear que mal se ajusta aos dados conhecidos. A figura 3(b), por outro lado, apresenta a situação oposta: observe que embora a função de aproximação passe por todos os pontos dados, ela não generalizaria bem em algumas 6 c� André da Motta Salles Barreto Uma Introdução às Redes RBF -100 0 100 200 300 400 500 0 2 4 6 8 10 Dados s(t) (a) � grande 0 100 200 300 400 500 600 0 2 4 6 8 10 Dados s(t) (b) � pequeno Figura 3: Efeitos do parâmetro de regularização regiões do intervalo. Essa situação é geralmente referenciada na literatura de redes neu- rais como excesso de ajustei. Ela ocorre quando o modelo é excessivamente sensível às peculiaridades do conjunto de dados (como ruído ou a escolha dos pontos de exemplo). Evidentemente, o valor adequado de � encontra-se entre os dois valores extremos mostrados na figura 3. Aliás, se o valor ótimo ��� para o parâmetro de regularização puder ser definido, pode-se interpretá-lo como sendo um indicador da suficiência do conjunto de dados fornecidos como exemplos. Explica-se: no caso extremo em que ��� � - , poderia- se afirmar que trata-se de um problema irrestrito e que a solução Kff estaria totalmente determinada pelos dados. O outro caso limite ocorreria quando ��� � , o que implicaria que a informação prévia incorporada pelo operador � já seria suficiente para resolver o problema, que equivale a dizer que os dados não fornecem nenhuma informação para sua solução. Uma outra maneira interessante de se analisar o parâmetro de regularização é interpretá- lo como sendo uma abordagem prática para o dilema bias-variância [29, 52]. Quanto maior o valor de � , maior será o bias do modelo. Na verdade, existe uma forma de re- gularização conhecida como ridge regression que é equivalente a uma das técnicas mais comuns com que os estudiosos de redes neurais atacam esse problema, conhecida como decaimento de pesoi [52, 66] . Pode-se dizer que um valor adequado para o parâmetro � resulta em um balanço satisfatório entre o bias e a variância no modelo. Uma vez formulado o problema de reconstrução de hipersuperfície sob a perspectiva da teoria da regularização, surge uma questão importante: quais classes de funções ff podem ser efetivamente aproximadas por quais funções de aproximação Kff ? Em outras palavras, dada a função ff , qual deve ser a estrutura de Kff ? Pode-se mostrar que a solução para o problema de regularização é dada pela seguinte expansão [56, 29]: iOverfitting iWeight-decay 7 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Kff � fi �fl� � ffi � ;�� � � ; � � fi=1%fi>; � (6) A equação 6 afirma que a solução Kff de minimização para o funcional de Tikhonov é uma superposição linear de E�- funções de Green4. Os fi�; representam os centros da expansão e os pesos � ; são os coeficientes da expansão. Pode-se dizer, então, que a so- lução para esse problema de regularização se encontra em um subespaço 10-dimensional do espaço de funções suaves, e o conjunto de funções de Green � � fi=1%fi%; � centradas em fi�; , D � E 1 )GFIFHF E�- formam uma base para esse subespaço. Observando a forma da solução 6, nota-se uma relação direta com uma importante técnica de aproximação conhecida como funções de base radial. Esse é o assunto da próxima seção. 3 Funções de base radial As funções de base radiali —ou simplesmente RBF’s— são funções em geral não- lineares cujo valor cresce ou decresce monotonicamente à medida que a distância a um ponto central aumenta. A esse ponto costuma-se chamar de centro da função de base radial. O uso das RBF’s no contexto de aproximação de funções tem sua origem na teoria da interpolação multivariada [58, 59]. No seu sentido estrito, o problema de interpolação pode ser formulado da seguinte maneira: Dado um conjunto de � pontos diferentes : � ;�� ��� B D � E 1 ) FIFHF � J e um con- junto de escalares correspondentes :�� ;�� �CB D � E 1 )GFHFIF � J , encontre uma fun- ção K �A�,��� � que satisfaça a condição de interpolação: K �!�� � ; �fl��� ; 1 D � E 1 )GFHFIF � (7) A técnica das RBF’s consiste em escolher uma função de aproximação K � que tem a seguinte forma: K ���� ��� � � � ;�� � � ; $; �=B B � � � ; B B � (8) onde BIB F B B representa uma norma (em geral euclidiana) e 8; são as funções de base radial cujos centros coincidem com os pontos � ; dados. A semelhança com a equação 6 é aparente. Com os parâmetros das RBF’s definidos, basta determinar os coeficientes � ; . Inse- rindo as condições de interpolação da equação 7 em 8, obtém-se o seguinte conjunto de 4Para a definição formal de uma função de Green, aconselha-se a leitura de [29] e das referências pertinentes nele contidas. Vale observar que essa definição não é indispensável para a presente discussão. iRadial basis functions 8 c� André da Motta Salles Barreto Uma Introdução às Redes RBF equações lineares: �� � � � � � � � * ����� � � * � *>* ����� * � . . . . . . . . . . . . � � � * ����� � � ��� � � � � �� � � � � � � � * . . . � � ��� � � � � � �� � � � � � � � * . . . � � ��� � � � � � � (9) onde � �; � $; �� � � , � é a chamada matriz de interpolação e � e � correspondem, respec- tivamente, ao vetor de pesos lineares e ao vetor de respostas desejadas. Assumindo que � seja não-singular, o vetor de pesos lineares � pode ser obtido da seguinte forma: � � �� � � (10) A questão que surge é: como se pode ter certeza da não-singularidade da matriz � ? Para respondê-la, pode-se mencionar um importante teorema, chamado de Teorema de Micchelli, que garante que para uma classe de funções de base radial a matriz � é não singular. A seguir algumas das funções pertencentes a essa classe são apresentadas. Função gaussiana $; �� ���fl��������� � BIB � � � ; B B * � * ; � (11) Função multiquadrática ; �� ��� �ff� B B � � � ; B B * � * ; (12) Função multiquadrática inversa ; �� ��� � E � B B � � � ; B B * � * ; (13) onde, em todos os casos, � ; representa o centro da função de base radial e � ; é a sua largura. O parâmetro � ; pode ser interpretado como um fator de escala para a distância BIB � � � ; BIB * . No caso da função gaussiana, por exemplo, o valor de 8; �� � � descresce mais rapidamente quando � ; - . A definição das larguras � ; tem um forte impacto sobre as características da função de aproximação [24, 10, 53]. A função gaussiana e a multiquadrática inversa são funções locais, ou seja, fornecem uma resposta significativa apenas na vizinhança do centro � ; . A função multiquadrática, por sua vez, é global, uma vez que o seu valor /; �� ��� torna-se ilimitado quando a distância ao centro tende ao infinito. A figura 4 ilustra essa diferença para o caso unidimensional com centro na origem e � ; �(E . As funções locais, especialmente a gaussiana, são mais comumente usadas do que as que apresentam respostas globais [52]. Uma característica que as torna particularmente 9 c� André da Motta Salles Barreto Uma Introdução às Redes RBF0 0.5 1 1.5 2 2.5 3 3.5 -3 -2 -1 0 1 2 3 Multiquadratica inversa Multiquadratica Gaussiana Figura 4: Funções de base radial que são cobertas pelo Teorema de Micchelli atraentes é a sua maior plausibilidade biológica (discutida na seção 9). Em contrapartida, alguns resultados citados em [29] indicam que as funções que tendem ao infinito podem ser adotadas para aproximar um mapeamento de entrada-saída suave com maior precisão do que as funções locais. Para o problema de interpolação estrita como aqui formulado, a superfície de inter- polação é obrigada a passar por todos os pontos dados. A generalização significa, nesse caso, interpolar a superfície nas regiões onde não há exemplos disponíveis [9]. A figura 5 mostra uma possibilidade de aproximação da curva ff (equação 2) utilizando-se 10 fun- ções gaussianas centradas nos pontos de exemplo mostrados na figura 2 e com larguras � ;�� )GF 3 � . -400 -300 -200 -100 0 100 200 300 400 500 600 0 2 4 6 8 10 Figura 5: Aproximação de ff utilizando-se E�- funções gaussianas 10 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Como bem observado em [56], é possível estruturar quase todos os esquemas de apro- ximação como algum tipo de rede que pode ser considerada uma rede neural. As redes neurais, afinal de contas, podem ser interpretadas como sendo uma notação gráfica para uma grande classe de algoritmos. Na próxima seção, será apresentada uma arquitetura de rede que pode ser sugerida como um método de implementação da teoria da regularização discutida na seção 2. 4 Redes de regularização Muitos dos conceitos utilizados por teóricos e praticantes de redes neurais parecem ser uma releitura de conceitos estatísticos [67, 52]. Como, então, explicar a verdadeira explo- são que ocorreu nessa área, especialmente na década de 80 [29]? A diferença fundamental é que as redes neurais oferecem um arcabouço gráfico e, possivelmente mais importante do que isso, uma analogia biológica para esses conceitos. Parece, portanto, justificável tentar encontrar tais sustentações para a teoria da regularização (seção 2). Nessa seção, é apresentada uma rede que implementa essa teoria. Na seção 9 sua plausibilidade biológica é discutida. A rede de regularização é uma rede neural alimentada adiantei com apenas uma ca- mada oculta, como mostrado na figura 6. A primeira camada da rede consiste de unidades de entrada (ou nós-fonte) cujo número é igual à quantidade de variáveis independentes do problema —em outras palavras, igual à dimensão � do vetor de entrada � . G1 G2 Gp G3 n x1 x 2 xn f w1 w2 w3 wp Figura 6: Rede de regularização A segunda camada —ou camada oculta— é composta por unidades não-lineares to- talmente conectadas aos nós de entrada. Existe uma unidade oculta para cada ponto dado � ;�� � � ; � 1 � ; * 1 FHFHF � ; � � . O ponto � ; corresponde ao centro da i-ésima unidade oculta, e suas coordenadas estão representadas na rede através de suas conexões com os nós de entrada. Isso significa que a conexão entre a i-ésima unidade oculta e o j-ésimo nó-fonte representa iFeedforward neural network 11 c� André da Motta Salles Barreto Uma Introdução às Redes RBF a coordenada � ; . As funções de ativação [29, 17] de cada unidade oculta correspondem às funções de Green da expansão6, ou seja, a saída da i-ésima unidade oculta é � �� � 1 � ; � . Finalmente, a camada de saída, também totalmente conectada à camada oculta, con- siste de uma ou mais unidades lineares. Por “linearidade” entenda-se que a resposta da rede é uma soma linearmente ponderada das ativações das unidades ocultas. Os “pesos” � ; da camada de saída são os coeficientes desconhecidos da equação 6. É interessante observar que a arquitetura da rede de regularização é totalmente defi- nida pelo problema de aprendizagem (ou aproximação). Além disso, ao contrário do que acontece com a maioria das arquiteturas de redes atuais, todos os pesos entre a camada de entrada e a camada oculta são conhecidos. Do ponto de vista da teoria de aproximação, as redes de regularização apresentam três propriedades altamente desejáveis [56, 26, 29]: � Em [26], Girosi e Poggio mostram que uma rede de regularização pode aproximar arbitrariamente bem qualquer função multivariada contínua em um domínio com- pacto, dado um número suficientemente grande de unidades na camada oculta. � Como o esquema de aproximação derivado da teoria da regularização é linear em relação aos coeficientes desconhecidos � ; , pode-se mostrar que ele tem a chamada propriedade da melhor aproximação. Isso significa que, dada uma função desco- nhecida � , sempre existe uma escolha de coeficientes que aproxima � melhor do que todas as outras escolhas possíveis. Essa propriedade não é compartilhada, por exemplo, pelos perceptrons de múltiplas camadasi —ou MLP’s [46, 29]— geral- mente adotados com o algoritmo de retropropagação do erroi [65]. � A solução computada pela rede de regularização é ótima no sentido que ela mini- miza um funcional que mede o quanto ela oscila. Isso elimina soluções que inter- polam perfeitamente os pontos dados mas oscilam excessivamente em regiões onde não há dados conhecidos (como no exemplo da figura 3(b)). Embora a rede de regularização apresente essas características positivas, existem al- gumas questões em relação à sua estrutura que podem torná-la um pouco menos atrativa. Especificamente, o fato de existir um centro para cada ponto de exemplo pode tornar sua implementação impraticável. O cálculo dos pesos lineares � ; requer a inversão de uma matriz de dimensão � ? � , e esse processo cresce de forma polinomial —de acordo com [60], é possível implementá-lo na ordem de � �������� . Além disso, a possibilidade de mau condicionamento é maior para matrizes maiores. Dessa forma, pode-se pensar em uma arquitetura mais geral, em que esses problemas não ocorram (ou pelo menos não de maneira tão severa). Esse é o assunto da próxima seção. iMultilayer perceptrons iError backpropagation 12 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 5 Redes RBF As redes de função de base radial (ou redes RBF) podem ser interpretadas como sendo uma aproximação da solução regularizada. Especificamente, a exigência de uma corres- pondência de um-para-um entre os dados de entrada e os nós da camada oculta é relaxada. A abordagem se baseia na busca por uma solução sub-ótima � � que aproxime K � . A solução aproximada � � tem a seguinte forma: � �!�� ���fl� � � ;�� ffi � ; ; �� ��� (14) onde : $; �� ��� B D � E 1 ) FIFHF 5 J é um conjunto de 5 funções de base radial linearmente inde- pendentes e � ; , como no caso anterior, são coeficientes lineares a serem determinados. A figura 7 esquematiza a arquitetura das redes RBF. Nota-se claramente que essa arquitetura pode ser facilmente estendida para o caso em que exista mais de uma variável de saída. Nota-se também que nessa rede prevê-se o uso de uma variável independente dos dados, em geral chamada de tendência ou bias. Ela é aplicada à unidade de saída simplesmente igualando-se um dos pesos lineares (nesse caso, � ffi ) da camada de saída ao valor do bias e tratando a função de base radial associada como uma constante igual a E . Em geral, a adição de uma tendência é feita para compensar a diferença entre o valor médio das ativações das RBF’s sobre todo o conjunto de dados e dos correspondentes valores-alvo. Tipicamente, o número 5 de RBF’s é menor do que a quantidade � de pontos dados. Isso acrescenta uma dificuldade ao problema: o número de unidades ocultas da rede passa a ser um parâmetro desconhecido e tem que ser determinado.O valor de 5 está intimamente ligado à complexidade da função computada pela rede. Se o número de RBF’s na camada oculta for subestimado, a função � � resultante pode ser muito simples e incapaz de aproximar bem o fenômeno gerador dos pontos conhecidos (veja o exemplo da figura 3(a)). Por outro lado, um número muito grande de unidades ocultas provê a rede com uma capacidade computacional excessiva, e a generalização bem-sucedida passa a depender diretamente do parâmetro de regularização � . O interessante a se notar é que, se existir uma forma de se estimar um número ade- quado de RBF’s na rede, pode-se tornar a complexidade da função aproximativa � � com- patível com o fenômeno gerador dos pontos. Nesse caso, a presença de um termo de regularização explícito pode se tornar dispensável [54, 24], o que evitaria o problema de se encontrar um valor adequado para � . O tamanho da rede passa a estar, portanto, mais relacionado com a complexidade da função a ser aproximada do que com o tamanho do conjunto de dados propriamente dito. Esse tipo de estratégia está diretamente relacionada com técnicas de podai na área de redes neurais [66, 45, 30, 40] e com os critérios de seleção de modelo da estatística [68, 52]5. iPrunning 5Vale observar que em [25], Federico Girosi afirma que a suavização com a regularização tradicional é diferente daquela obtida controlando-se o número de unidades ocultas da rede. Ele afirma, inclusive, que para alguns casos, quando ��� � a solução encontrada é sempre sub-ótima. 13 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 3 x 1 x 2 x n f w 1 w 2 w 3 w m w 0 θ1 θ2 θ3 θ m +1 Figura 7: Rede RBF Além do número 5 de funções na camada oculta, essa nova estrutura de rede depende da determinação de um outro parâmetro que antes estava definido pelo problema: a posi- ção dos centros das RBF’s. Ao contrário do que acontecia com a rede de regularização, nas redes RBF os centros das unidades ocultas não são coincidentes com os pontos de exemplo. Sua definição passa então a ser parte do problema e deve ser feita de maneira tal que os centros sejam uma amostra representativa da distribuição dos dados conhecidos. Pode-se, ainda, acrescentar mais um grau de liberdade ao modelo, permitindo que as larguras das funções de base radial façam parte do processo de aprendizagem. Isso signi- fica que os parâmetros � ; podem ser ajustados às peculiaridades do problema, de maneira conjunta —em que todas as RBF’s têm a mesma largura— ou de forma independente, em que cada uma tem um valor � ; específico. Em [56], Poggio e Girosi apresentam a possibilidadde de, ao invés de se utilizar na equação 14 uma norma euclidiana convencional, utilizar-se uma norma ponderada gené- rica, cuja forma quadrática é dada por: B B � � � ; B B * � � �� � � � ; ��������� �� � � � ; � (15) 14 c� André da Motta Salles Barreto Uma Introdução às Redes RBF onde � é uma matriz quadrada de ponderação de norma e � � � se refere à operação de transposição. No caso mais simples em que � fosse diagonal, os elementos � ; ; atribuiriam um peso específico para cada coordenada do espaço de entrada. A norma euclidiana padrão poderia ser recuperada quando � fosse uma matriz identidade. A definição dos pesos da matriz de ponderação estaria associada com a questão de redução da dimensionalidade do problema [25]. Existe, no entanto, alguma evidência na literatura de que a utilização de uma norma ponderada e o uso de centros móveis são duas maneiras distintas de se obter o mesmo efeito. O estudo realizado por Wettschereck e Diettwrich em [70] demonstra que a im- portância relativa de cada dimensão da entrada pode ser extraída pelo posicionamento dos centros das RBF’s. Nessa hipótese, o posicionamento dos centros seria guiado pelas co- ordenadas que representassem as características mais importantes do problema. Embora essa pesquisa não seja conclusiva, o uso de uma norma ponderada não será considerada aqui como parte da arquitetura das redes RBF. As redes RBF podem, portanto, ser consideradas como uma arquitetura de rede mais geral do que as redes de regularização, na medida em que dispõe de um número maior de parâmetros configuráveis. A rede de regularização pode ser recuperada como uma con- figuração específica dessa arquitetura [56, 29]. Se, por um lado, isso acrescenta alguma dificuldade ao problema —que antes se restringia a uma inversão de matriz—, por outro lado esses parâmetros extras provêm a rede RBF com uma enorme flexibilidade. Apenas como forma de ilustração, a figura 8 apresenta uma possibilidade de aproxi- mação da função ff —definida pela equação 2— por uma rede RBF com centros móveis e larguras � ; independentes. Comparando-a com a figura 5, em que foram utilizadas E�- fun- ções gaussianas, nota-se que é possível alcançar uma função aproximativa com a mesma qualidade utilizando-se apenas � funções desse tipo. -600 -400 -200 0 200 400 600 0 2 4 6 8 10 Figura 8: Aproximação de ff utilizando-se uma rede RBF com � unidades ocultas 15 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Terminada a descrição das redes RBF, pode-se dizer que trata-se de uma arquitetura altamente flexível e poderosa. Resumindo, pode-se enumerar os seguintes parâmetros ajustáveis em uma rede desse tipo: Número de RBF’s O número 5 de funções de base radial na camada oculta está direta- mente ligado à complexidade da função � � computada pela rede, e pode ser inter- pretado como uma maneira de se controlar o nível de suavidade da aproximação. Posição dos centros Os centros das funções de base radial são determinados como parte do processo de aprendizagem, ao invés de estarem restritos à posição dos dados conhecidos. O número e posição dos centros deve compor um conjunto que seja representativo da amostra de pontos dada. Largura das RBF’s Os parâmetros � ; também podem ser adaptados, permitindo que a função aproximativa se adeqüe às peculiaridades do problema, como por exemplo níveis de suavidade diferentes em regiões distintas. Coeficientes lineares Os coeficientes � ; representam os pesos que compõem a soma ponderada executada pelas unidades de saída e também devem ser determinados. Esses são os parâmetros afetados caso se utilize a regularização. Pode-se mostrar que a flexibilidade adicionada à rede pela mobilidade dos centros é suficiente para torná-la um aproximador universal para funções contínuas [26]. Isso significa que ela pode aproximar arbitrariamente bem qualquer função desse tipo, desde que possua um número adequado de unidades na camada oculta. Esse teorema é de suma importância ao fornecer as bases teóricas sobre as quais se fundamentarão as aplicações reais. Ele não oferece, no entanto, um procedimento prático para a construção de tais aproximadores. Esse assunto é discutido na seção 7. 6 Reconhecimento de padrões Como foi visto, toda a teoria sobre redes RBF é fundamentada em conceitos prove- nientes da teoria de aproximação. No entanto, uma boa parte dos problemas em que as redes neurais têm sido aplicadas com sucesso pode ser caracterizada como tarefas de re- conhecimento de padrões. O reconhecimento de padrões pode ser formalmente definido como sendo o processo pelo qual um ponto (ou padrão) recebido é atribuído a uma classe dentre um número pré-determinado dessas [29]. Felizmente, o problema de classificação pode ser visto como um caso particular de um mapeamento real contínuo, do tipo que as redes RBF foram projetadas para reali- zar [47]. No reconhecimento de padrões, cada ponto é associado a uma classe deter- minada. Dessa forma, a saída do problema é discreta —tomada dentre um número de 16 c� André da Motta Salles Barreto Uma Introdução às Redes RBF possibilidadespotenciais—, ao contrário do que acontece em problemas de aproximação, em que a saída é contínua. O segredo, nesse caso, é interpretar a resposta contínua da rede como sendo proporcional à probabilidade de que um determinado padrão pertença à classe correspondente [52]. Os pontos de exemplo têm então seu “rótulo” indicativo de classe substituído por valo- res numéricos. Basta, para isso, associar ao rótulo refente à sua classe uma probabilidade E de que o ponto pertença àquela classe. Aos rótulos correspondendo às demais catego- rias é atribuída uma probabilidade - . Dessa forma, a saída associada com cada ponto de exemplo é representada por um vetor de dimensão � , onde � é o número de classes. Todos os elementos desse vetor são iguais a - , com exceção daquele que corresponde à classe de interesse, cujo valor é E . Configurado dessa forma, o problema corresponderia à tarefa de aproximação de funções do tipo � � :$- 1 E/J � [56]. O número de unidades de saída da rede corresponde nesse caso ao número de clas- ses consideradas no problema. Depois de configurado, o modelo responde a um novo padrão com valores contínuos para cada unidade da camada de saída. Esses valores são interpretados como sendo proporcionais à probabilidade de que o ponto pertença à classe associada com cada unidade. O modelo realiza então a classificação do padrão com base nesses valores. No caso das redes RBF, a capacidade de separação do modelo está fundamentada em um teorema conhecido como teorema de Cover sobre a separabilidade de padrões. Esse é o assunto seguinte. 6.1 Teorema de Cover Pode-se dizer que a rede RBF realiza dois mapeamentos. O primeiro, do espaço de entrada para o espaço oculto, pode ser representado como � � � �@ � � . Em um problema de reconhecimento de padrões, o segundo mapeamento é do tipo � �8� � � � , e mapeia as ativações das RBF’s em um vetor contínuo que indica a probabilidade de o ponto de entrada pertencer a cada categoria considerada. Não é difícil perceber que a função � computada pela camada de saída da rede é linear. Logo, o mapeamento � ; realizado por cada unidade de saída —correspondente às classes � ; — pode ser interpretado como um hiperplano de dimensão 5 E . Essa superfície separa o espaço de entrada em dois conjuntos: pontos que pertencem à classe � ; e pontos que não pertencem a essa classe6. O poder de separação de um hiperplano é claramente limitado. Para visualizar essa observação, basta imaginar o caso de um plano pertencente a ��� ou de uma reta em � * . Quando um conjunto de pontos representando duas categorias distintas pode ser separado por um hiperplano ele é dito linearmente separável. A figura 9 ilustra dois conjuntos de pontos pertencentes a � * , um linearmente separável e outro não. 6De fato, no caso em que ����� , a superfície de separação é definida pela interseção desse hiperplano com os demais hiperplanos definidos pelas outras unidades de saída. Esse nível de detalhes não é, no entanto, necessário para a presente discussão. 17 c� André da Motta Salles Barreto Uma Introdução às Redes RBF (a) Padrões linearmente separáveis (b) Padrões não linearmente separáveis Figura 9: Exemplos de conjuntos de dados linearmente separáveis e não linearmente separáveis ( � é o hiperplano separador —nesse caso, uma reta) Como o poder de separação da camada de saída é limitado, espera-se que os padrões estejam dispostos no espaço oculto de forma que eles sejam linearmente separáveis. Essa expectativa não é, obviamente, um ato de fé. Ela está baseada no teorema de Cover, descrito a seguir de maneira qualitativa [29]. Teorema 1 (Cover) Um problema complexo de classificação de padrões dispostos não linearmente em um espaço de baixa dimensão tem maior probabilidade de ser linear- mente separável em um espaço de alta dimensionalidade. A estratégia das redes RBF em problemas de classificação complexos é baseada nesse teorema: a rede realiza a transformação não-linear � de um espaço � � para um espaço de dimensionalidade mais alta � � , de forma que os padrões se tornem linearmente se- paráveis e possam ser classificados pela camada de saída. A figura 10 ilustra uma pos- sível transformação do espaço � * da figura 9(b) —onde o conjunto de dados não era linearmente separável— para � � , onde a separação pode ser feita através de um plano separador � . 7 Algoritmos de treinamento de redes RBF Talvez esse seja um bom momento de se tirar da gaiola o rato da experiência de Ni- colelis e Chapine para utilizá-lo como metáfora para a presente discussão. Como descrito na seção 1, um dos primeiros passos da experiência era ensinar o pequeno animal a em- purrar uma barra quando estivesse com sede. Através desse processo ele deveria criar um mapeamento interno que associasse o movimento de sua pata dianteira com a recompensa. A questão que surge nesse caso é: como ensinar-lhe esse mapeamento? Evidente- mente, pode-se pensar em diferentes estratégias, que vão desde métodos mais ortodoxos 18 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Figura 10: Conjunto de pontos linearmente separável em � � que não podia ser separado por uma reta em � * e hoje condenados —como o choque nos cães de Pavlov— até técnicas de premiação (quem não se lembra do golfinho Fliper?). Pode-se chamar essa estratégia de aprendiza- gem, seja ela qual for, de treinamento. Como já discutido, a aprendizagem pode ser encarada como sendo o problema inverso de reconstrução de uma hipersuperfície, da qual se conhece apenas alguns pontos. A idéia é encontrar um mapa —ou função— que aproxime essa superfície tão bem quanto seja possível. As redes RBF, como aproximadores universais, oferecem um arcabouço para a função aproximativa. O treinamento de uma rede RBF significa, então, o processo pelo qual os parâmetros da rede são ajustados de forma que ela possa sintetizar o mapeamento original. Já foi mencionado anteriormente que quando se treina uma rede neural o objetivo não é simplesmente “armazenar” em sua estrutura os dados conhecidos. A idéia é, na verdade, criar um mapeamento suave que seja capaz de interpolar coerentemente em regiões onde não existam dados. Independentemente da estratégia de treinamento considerada, é alta- mente desejável que a rede treinada seja validada, a fim de que se tenha uma estimativa do seu comportamento quando submetida a dados desconhecidos. Dessa forma, é comum dividir-se o conjunto de pontos conhecidos em dois sub- grupos, chamados de conjunto de treinamento e conjunto de teste. Os pontos de trei- namento são utilizados para se ajustar os parâmetros da rede. O conjunto de teste, por sua vez, só é visto pelo modelo já treinado —ou seja, não influencia a configuração da rede—, e serve como um indicador da sua qualidade. Caso haja um excesso de ajuste aos dados de treinamento, espera-se que o desempenho do modelo nos dados de teste acuse essa situação. 7.1 A função de custo Em geral, os algoritmos de treinamento de redes neurais procuram minimizar uma função de custo � que forneça alguma medida da qualidade do mapeamento realizado 19 c� André da Motta Salles Barreto Uma Introdução às Redes RBF pela rede. Uma escolha comum é a soma dos erros quadráticosi ou SSE, dada por: ������� � � � ;�� ��� � ; � � �!�� � ; �� * (16) onde � é o o número de pontos no conjunto de treinamento. Uma outra opção é adotar como função de custo o erro médio cometido pela rede para cada par �� � ; 1 � ; � . Essa medida constitui o erro quadrático médioi ou simplesmente MSE: ������� � E � � � ;�� ��� � ; � � ���� � ; �� * (17) Quando se adota simplesmente o SSE ou o MSE como função de custo, sua minimi- zação pode levara um excesso de ajuste do modelo, que pode, por exemplo, incorporar ruídos contidos nos dados de treinamento. Para evitar que esse ajuste excessivo ocorra, pode-se adotar diferentes posturas. Uma delas é supor que o mapeamento original é suave e incorporar à função � um termo para balancear o erro de treinamento com o nível de suavidade da função aproximativa � � . Uma opção seria adotar como função de custo o funcional de Tikhonov, discutido na seção 2: � � ;� ��� � ��� � � � ;�� ��� � ; � � �!�� � ; �� *� �� ��� � � � * (18) Uma outra forma de se evitar o excesso de ajuste é adotar alguma medida que for- neça uma estimativa do erro de generalização, ao invés de simplesmente medir o erro de treinamento. Uma abordagem bastante utilizada para esse fim é a chamada validação cruzada [29]. Nela, particiona-se a amostra de treinamento em dois subconjuntos, um chamado de subconjunto de treinamento e o outro de subconjunto de validação. Apenas os dados do subconjunto de treinamento são utilizados para configurar os pa- râmetros da rede. Como os pontos de validação não fazem parte do treinamento, espera-se que eles forneçam uma estimativa razoável do comportamento da rede quando submetida a dados não vistos. O treinamento pára quando o erro no conjunto de validação atinge o seu mínimo. É interessante observar que, embora o MSE ou SSE no conjunto de trei- namento sejam utilizados durante a aprendizagem, a função de custo que se pretende minimizar de fato são esses valores sobre o conjunto de validação. É importante mencionar que, caso se utilize um conjunto de teste, na validação cru- zada a massa de dados original fica particionada em três conjuntos: subconjunto de trei- namento, subconjunto de validação e conjunto de teste. Vale fazer uma distinção entre o conjunto de teste e o subconjunto de validação. Enquanto o primeiro não participa em nenhum momento do treinamento, o segundo —embora não utilizado diretamente para se estimar o valor dos parâmetros da rede— fornece uma informação crucial durante o processo (ou seja, influencia a aprendizagem). iSum squared error iMean square error 20 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Uma outra estimativa do erro de generalização são os chamados critérios de seleção de modelo da estatística [52]. Ao invés de particionar efetivamente o conjunto de treina- mento, os critérios de seleção fornecem um compromisso entre o erro e a complexidade do modelo. Um desses critérios é o GCV (validação cruzada generalizadai), dado pela seguinte expressão: ������� � � � � � 5 � * � � ; � � � � ; � � � �� � ; � * (19) onde 5 é o número de RBF’s na camada oculta. De acordo com [66], um critério de seleção de modelo que parece ser mais adequado ao uso com modelos não-lineares —o que é confirmado em [54]— é o critério bayesiano de Schwarzi ou simplesmente SBC [68]: ������� � � � �� &� � ��� E � 5 � � 5 � � ;�� ��� � ; � � ���� � ; �� * (20) É interessante notar que, como o cálculo dos critérios de seleção envolve uma me- dida da complexidade da rede, só tem sentido adotá-los quando a arquitetura do modelo também está submetida ao processo de otimização (daí o seu nome). Pode-se, inclusive, adotá-los com outras funções de custo. Um caso típico seria gerar diferentes arquitetu- ras de rede, treiná-las segundo a minimização de � ����� ou ������� e depois compará-las considerando ������� ou ����� � . É possível, ainda, se utilizar os critérios de seleção de modelo conjuntamente com a regularização (como por exemplo em [50]), uma vez que os dois métodos podem promo- ver diferentes qualidades de suavidade da função aproximativa [25]7. 7.2 Treinamento das redes RBF como um modelo linear Se o número de funções de base radial, bem como seus centros e larguras, forem man- tidos fixos durante o processo de treinamento, a rede RBF pode ser vista como um modelo linear [52]. Desse modo, o treinamento fica reduzido à determinação dos coeficientes da camada de saída � ; . Pode-se pensar a princípio em se realizar simplesmente uma inversão de matriz. Se a regularização for adotada, no entanto, torna-se necessário definir uma estratégia para se estimar um valor razoável para o parâmetro de regularização � , a fim de introduzir o nível adequado de suavidade na função aproximativa. Orr apresenta em [52] uma maneira de se estimar o parâmetro de regularização � . Como o próprio autor observa, não se trata de uma solução para o problema de otimização, iGeneralized cross-validation iSchwarz’s bayesian criterion 7No caso de se adotar a regularização, as expressões para o cálculo dos critérios de seleção de modelo são um pouco diferentes [52]. 21 c� André da Motta Salles Barreto Uma Introdução às Redes RBF mas de uma fórmula que permite estimativas sucessivas cada vez melhores através de sua iteração. A fórmula é derivada de maneira a se tentar minimizar o GCV (seção 7.1). Partindo de um valor inicial � ffi , pode-se utilizá-la para calcular uma nova estimativa e assim por diante, até a convergência. Do mesmo autor, o trabalho [53] pode ser considerado como uma extensão do ante- rior. Partindo do mesmo pressuposto de que a rede é um modelo linear (centros e larguras das RBF’s fixos), desenvolve-se uma fórmula computacionalmente muito eficiente para se estimar o parâmetro de regularização global � . A grande diferença em relaçao à abor- dagem anterior é que essa nova fórmula não exige uma inversão de matriz, como era o caso. Isso permite, por exemplo, que vários valores iniciais � ffi possam ser tentados com um custo computacional razoável. O autor vai ainda mais longe: com os centros fixos, ele tenta diferentes valores para a largura � das RBF’s —que no caso é a mesma para todas as funções—, executando o processo de otimização de � para cada uma. De acordo com Orr [53], se uma quantidade razoável de larguras for tentada (dentro de uma faixa de valores sensata), pode-e encontrar o mínimo global para o GCV em relação à � . Finalmente, Orr apresenta em [51] uma maneira de se otimizar uma rede RBF com regularização local, em que cada coeficiente � ; da camada de saída está associado com um parâmetro de regularização � ; . De uma maneira similar aos outros trabalhos, o autor apresenta uma fórmula para se estimar cada parâmetro local ��; com o objetivo de minimi- zar o GCV. No entanto, como nesse caso a otimização simultânea de todos os parâmetros não é possível, é sugerida uma abordagem iterativa em que um � específico é otimizado enquanto os demais são mantidos fixos. Orr afirma que essa técnica tende a gerar modelos sensivelmente superiores àqueles gerados por métodos com regularização global, a não ser que a função-alvo a ser aproximada apresente uma suavidade uniforme em todo o seu domínio. 7.3 Treinamento totalmente supervisionado Quando os centros e as larguras das funções de base radial da camada oculta não são fixados, a configuração dos parâmetros de uma rede RBF pode ser vista como sendo um problema de otimização não-linear. Nada mais natural do que se considerar um método que trate desse tipo de problema, como por exemplo um procedimento de descida pelo gradiente [60]. Nesse caso, o primeiro passo seria definir a função de custo. A seção 7.1 apresenta várias alternativas para essa escolha. A estratégia se baseia em ajustes sucessivos nos parâmetros da rede, aplicados no sentido da descida mais íngreme, ou, em outras palavras, na direção em que a função de custo descresce mais. Sabe-se que essa direção é a mesma do vetor gradiente, mas no sentido oposto [29]. O próximo passo seria, então, definir os termos de atualização. Para um parâmetro genérico � , pode-se fazer 8: � � � ����� � �� � (21) 8Ghosh e Nag apresentam em [24] os termos de atualização explícitos para o caso da função gaussiana. 22 c� André da Motta Salles Barreto Uma Introdução às Redes RBF onde ��� é a taxa de aprendizagem [29]. A atualização do parâmetro � seria simplesmente: � � � E �fl� � � � � � � (22) Essa estratégia é a base para o algoritmo do mínimo quadrado médioi —ou LMS [29]— adotado em perceptrons de uma única camada, cuja generalização resultou no conhecido algoritmo de retropropagação do erro para os perceptrons de múltiplas camadas. Uma possibilidade que se abre nesse tipo de treinamento é a adoção da validação cruzada (seção 7.1). Nesse caso, a atualização dos parâmetros seria feita com o conjunto de treinamento, e o processo seria interrompido no momento em que o SSE ou MSE do conjunto de validação começasse a crescer. Essa abordagem é muito adotada por praticantes de redes neurais e é conhecida como parada antecipadai [66]. Como o procedimento depende diretamente da diferenciação da função de custo � , e o valor dessa função depende por sua vez dos valores-alvo � ; , pode-se dizer que esse tipo de aprendizagem depende intrinsecamente da apresentação de uma resposta desejada. É pos- sível fazer uma analogia com a situação em que um professor que conhece a resposta cor- reta supervisiona a aprendizagem do aluno, informando-lhe, inclusive, sobre a magnitude do erro cometido. Por causa dessa analogia, esse tipo de treinamento é conhecido como treinamento com um professor ou simplesmente treinamento supervisionado [52, 29]. Wettschereck e Dietterich realizaram em [70] uma série de experimentos em que sub- meteram os diversos parâmetros das redes RBF —inclusive a matriz de ponderação de norma— à aprendizagem supervisionada descrita. Como principal resultado, eles chega- ram à conclusão de que as redes RBF com o posicionamento supervisionado de centros são capazes de superar substancialmente o desempenho de generalização dos perceptrons de múltiplas camadas. Esses resultados estão de acordo com aqueles encontrados por Moody e Darken em [47] em um problema de aproximação quadrático. Embora o treinamento supervisionado possa gerar bons resultados, existem algumas desvantagens associadas com essa escolha [47, 24]. Em primeiro lugar, trata-se de um método de otimização não-linear computacionalmente caro, cuja convergência pode ser muito lenta. Além disso, esse tipo de otimização não impõe nenhuma restrição arqui- tetural nos parâmetros da rede. Uma conseqüência disso é que dois centros podem ser posicionados muito próximos um do outro, ou mesmo coincidirem9. Particularmente, no caso de RBF’s locais, as larguras � ; não ficam confinadas a valores pequenos e perde-se a propriedade da localidade. A natureza das redes RBF permite uma estratégia de treinamento não-usual e que oferece algumas vantagens quando comparada com a aprendizagem supervisionada. Esse é o assunto da seção seguinte. iLeast mean square iEarly stopping 9Pode-se tentar impedir essa conseqüência indesejável acrescentado-se ao processo de otimização um termo a mais, que penalize centros muito próximos uns dos outros. Veja detalhes em [56]. 23 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 7.4 Treinamento semi-supervisionado Quando utilizando funções locais, a arquitetura das redes RBF possibilita uma forma de aprendizagem híbrida que apresenta muitos atrativos. A idéia principal por trás dessa estratégia é desacoplar o treinamento em duas fases, uma supervisionada e outra não- supervisionada ou auto-organizada. Na fase não-supervisionada, a posição dos centros � ; e as larguras � ; das RBF’s são determinadas. Com a camada oculta da rede totalmente definida, pode-se calcular o valor dos coeficientes � ; através de uma inversão de matriz, como no caso das rede de regula- rização. Uma das principais vantagens desse tipo de treinamento é o seu baixo custo compu- tacional. De acordo com [47], o treinamento semi-supervisionado é centenas ou milhares de vezes mais rápido do que o algoritmo de retropropagação. Nesse mesmo trabalho, os autores relatam um caso em que simplesmente não conseguiram treinar um perceptron com o algoritmo de retropropagação, dado o tempo de máquina necessário. Evidentemente, o posicionamento não-supervisionado dos centros leva a uma con- figuração sub-ótima, que pode ser muito inferior àquela alcançada por um treinamento supervisionado [47, 70]. Mesmo assim —de acordo com [24]— em muitas situações prá- ticas, em que se dispõe de dados de treinamento e recursos computacionais limitados, o treinamento semi-supervisionado pode gerar resultados melhores do que aqueles obtidos ao se tentar otimizar simultaneamente os dois conjuntos de parâmetros. 7.4.1 Fase supervisionada Uma vez definidas a posição dos centros e as larguras das RBF’s, pode-se adotar um método de descida pelo gradiente, como o algoritmo LMS (seção 7.3), para se determinar os pesos � ; da camada de saída. Uma outra opção talvez mais interessante é considerar o modelo como sendo linear e resolver a camada de saída através de uma inversão de matriz [52]. É interessante notar, no entanto, que nas redes RBF o número de unidades ocultas não coincide necessariamente com o número de pontos do problema. Isso significa que o sistema de equações resultante difere ligeiramente daquele descrito para a interpolação estrita na seção 3. Especificamente, pode-se escrever: �� � � � � � � � * ����� � � * � *>* ����� * � . . . . . . . . . . . . � � � * ����� � � ��� � � � � �� � � � � � � � * . . . � � ��� � � � � � �� � � � � � � � * . . . � � ��� � � � � � � � (23) onde a matriz � é a matriz de projetoi. iDesign matrix 24 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Como em geral ��� 5 , pode-se dizer que trata-se de um sistema super-determinado (mais equações do que incógnitas), e o problema torna-se um problema de ajuste. Con- siderando ��� ��� como sendo a função de custo, pode-se mostrar que o vetor de pesos lineares que minimiza � é dado por10: ��� ��� � (24) onde ��� é a pseudo-inversa de � , obtida através da seguinte expressão: � � � � � � � � � � � (25) Para minimizar os efeitos de um possível mal-condicionamento de � , é recomendá- vel utilizar para a inversão dessa matriz um método conhecido como decomposição em valores singularesi ou simplesmente SVD [60, 28]. Como última observação, vale lembrar que esse raciocínio pode ser estendido para o caso em que a rede apresente mais de uma unidade de saída. No caso, por exemplo, de uma rede com ff unidades desse tipo, basta fixar a matriz � e considerar um sistema linear distinto para cada par de vetores � ; e � ; , com D � E 1 ) FIFHF ff . 7.4.2 Fase não-supervisionada Na fase não-supervisionada, define-se a posição dos centros e as larguras das funções de base radial. O notável é que esse procedimento pode ser feito sem se utilizar neces- sariamente o vetor de respostas desejadas � . Pode-se adotar diferentes estratégias para a definição de ambos os conjuntos de parâmetros. Especificamente, para o posicionamento dos centros é possível fazer o seguinte: � Seleção aleatória dos centros A abordagem mais simples para se definir a posição dos centros é simplesmente escolher ao acaso alguns pontos da amostra de treina- mento para cumprirem esse papel. Essa abordagem é considerada sensata desde que os dados de treinamento estejam distribuídos de uma forma representativa para o problema considerado[9]. O interessante a se notar nessa estratégia é que expe- rimentos com a seleção aleatória de centros indicam que ela é relativamente insen- sível à regularização; esse tipo de conclusão sugere que o método em si já é uma forma de regularização. � Agrupamento dos centros Uma outra opção que pode ser mais interessante é agru- par —ou, utilizando um neologismo, “clusterizar”— os pontos de entrada � [47, 38]. Um dos algoritmos de agrupamento mais conhecidos é o das k-médiasi [17, 10No caso de uma função de custo regularizada, a expressão para �� ótimo é um pouco diferente. Para uma excelente exposição sobre o processo de obtenção de �� no caso da regularização, recomenda-se a leitura do apêndice A4 de [52]. iSingular value decomposition iK-means 25 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 16]. A sua idéia é particionar o conjunto original de pontos em � subgrupos � ; , cada um dos quais sendo tão homogêneo quanto possível, através da minimização da seguinte função: � � � ;�� � � �� ��� B B � � 5 ; B B * (26) onde 5 ; é o centro de gravidade (média aritmética) dos pontos pertencentes ao agrupamento � ; . Uma vez definidos os � subgrupos � ; , o centro 5 ; de cada um deles se torna o centro de uma RBF da rede. A idéia de se agrupar os dados de entrada � foi apresentada inicialmente por Moody e Darken em [47]. Evidentemente, o algoritmo das k-médias não é o único que pode ser adotado para se realizar o agrupamento dos dados. Na literatura é possível encontrar propostas que adotam outros métodos de clusterização [38]. No entanto, a qualidade dos resultados encontrados parece ser insensível à técnica de agrupamento utilizada [7, 8]. Assim como o posicionamento dos centros, a definição das larguras das RBF’s pode ser feita de várias maneiras. Uma opção é simplesmente adotar a mesma largura � para todas as funções. Nesse caso, pode-se defini-la da seguinte forma [9]: � � � D ff fi ��� � ) 5 (27) onde � D ff fi ���� é a distância máxima entre os centros previamente definidos. Essa fórmula garante que as funções de base radial não sejam “pontiagudas” ou “planas” demais. Um outra alternativa seria a adoção de centros escalados individualmente para cada RBF. Funções posicionadas em regiões com menor densidade de dados receberiam lar- guras maiores, ao passo que aquelas posicionadas em áreas mais “povoadas” receberiam larguras menores. Várias heurísticas podem ser adotadas de forma a se alcançar um nível de sobre- posição adequado entre as respostas das RBF’s vizinhas. A idéia é que se forme uma aproximação contínua e suave sobre toda a região de interesse no espaço de entrada. Uma possibilidade apresentada em [47] é simplesmente fazer da largura � ; um múltiplo da distância média do centro � ; aos � vizinhos mais próximos, ou seja: � ; � � E " � �� � � D ff fi>;� (28) onde � é um conjunto contendo os " pontos mais próximos de � ; . Tipicamente � � E 1�� ou � � ) , embora seja possível encontrar relatos em que valores mais altos foram adotados [38]. Pode-se pensar em se utilizar o treinamento semi-supervisionado conjuntamente com o treinamento totalmente supervisionado (seção 7.3). Essa é a proposta apresentada em [15]. Nesse trabalho, a rede RBF é submetida primeiramente ao treinamento semi- supervisionado e, a seguir, todos os parâmetros sofrem um “ajuste fino” através do método 26 c� André da Motta Salles Barreto Uma Introdução às Redes RBF da descida pelo gradiente. Os autores apresentam ainda uma proposta de inicialização do algoritmo das k-médias para evitar que ele fique preso em mínimos locais. 7.5 Algoritmos construtivos Tanto o treinamento supervisionado quanto o treinamento semi-supervisionado ofere- cem maneiras efetivas de se configurar as camadas de uma rede RBF. Nenhum dos dois, no entanto, lida com o problema de se especificar a complexidade do modelo ou, em ou- tras palavras, de se determinar a quantidade de funções de base radial na camada oculta. Como já discutido, o número de unidades ocultas está diretamente relacionado com a ca- pacidade computacional da rede. À medida que o número de RBF’s aumenta, aumenta também o conjunto de funções computáveis por ela. Uma rede sem unidades ocultas, por exemplo, só é capaz de realizar mapeamentos lineares. A questão é especificar um número de RBF’s que seja compatível com a “função” que gerou os dados de treinamento. Uma maneira de se atacar esse problema é adotando a mais simples das estraté- gias: tentativa-e-erro. Pode-se, por exemplo, começar com uma rede muito simples — possivelmente linear—, treiná-la, e avaliar o resultado. Caso seja satisfatório, o processo pode ser interrompido. Caso se deseje um maior nível de precisão, tenta-se uma arqui- tetura mais complexa e assim por diante. Pode-se pensar também em fazer o contrário: iniciar o processo com uma rede com muitas unidades e ir reduzindo-a. Uma alternativa provavelmente mais sensata é superestimar propositalmente o número de funções na camada oculta, de forma a garantir que a rede disponha da capacidade de computação mínima necessária, e utilizar a regularização. O objetivo é evitar que os — muitos— parâmetros da rede se ajustem excessivamente às peculiaridades da amostra de treinamento. O problema com essa abordagem é a necessidade de se estimar um valor adequado para o parâmetro de regularização � . Uma possibilidade é adotar um dos al- goritmos descritos na seção 7.2. Mesmo assim, embora não seja estritamente necessário que o valor ótimo de � seja encontrado, valores fora de uma faixa razoável podem levar a situações altamente indesejáveis, como pode ser visto na figura 3. Existe ainda uma terceira possibilidade para lidar com o problema de se estimar a complexidade do modelo. Trata-se de uma classe de algoritmos que podem ser chamados de algoritmos construtivos. A idéia principal desse tipo de abordagem é considerar o problema de escolha do modelo como sendo um problema de seleção de subconjunto. Dado um conjunto fixo de RBF’s candidatas, pode-se comparar diferentes configurações de rede, cada uma tendo um subconjunto dessas funções compondo a sua camada oculta. Para problemas reais, encontrar o melhor subconjunto possível é geralmente intratável —existem ) � �@E subconjuntos em um universo de � candidatos. Dessa forma, deve-se adotar algum procedimento heurístico para se analisar de maneira racional uma porção desse espaço de busca. O algoritmo 7.1 apresenta uma proposta nesse sentido. O procedimento começa com dois conjuntos, � e � . O conjunto � —inicialmente vazio— contém as RBF’s “eleitas” para formarem a camada oculta da rede. O conjunto � é composto pelas RBF’s “candidatas” a cumprirem o papel de futuras unidades ocul- tas. Uma postura geralmente adotada é utilizar os pontos de treinamento para inicializar 27 c� André da Motta Salles Barreto Uma Introdução às Redes RBF � ; cada ponto se torna o centro de uma RBF candidata e suas larguras são definidas por alguma heurística apropriada, como por exemplo as descritas na seção 7.4.2. Outras es- tratégias para se definir o conjunto � podem ser adotadas. Uma idéia nesse sentido é apresentada na seção 7.7.2. Algoritmo 7.1 Algoritmo-Construtivo ( � ; � ) Requer: � {Conjunto com as RBF’s candidatas a entrarem na rede} Retorna: � {Conjunto com as RBF’s eleitas para constituirem a camada oculta da rede} início ��� � ; repita selecione o candidato � ; que mais reduza a função de custo ������� ; ��� � � ; ; ��� � � � ; ; até critério de parada satisfeito; fim; A cada passo do algoritmo, uma nova RBF é adicionada à rede. A escolha da função de base radial a ser adicionada é feita segundo uma regra simples: escolhe-se a RBF que promovaa maior redução na função de custo � ����� . O processo continua até que algum critério de parada seja satisfeito. Uma alternativa razoável para se interromper o processo é considerar o ponto em que algum critério de seleção de modelo (seção 7.1) começar a crescer. Outra idéia é adotar a validação cruzada e parar o processo quando o erro de validação for mínimo. Uma questão que surge naturalmente é sobre como escolher a função de base ra- dial que promova a maior redução do SSE. Uma possibilidade seria adicionar as funções candidatas, uma de cada vez, calcular os coeficientes da camada de saída da rede e com- parar o seu desempenho com as diferentes configurações. Essa abordagem, no entanto, é impraticável. Como já mencionado anteriormente, o cálculo dos pesos da camada de saída envolve uma inversão de matriz, que —implementada de uma maneira muito efici- ente [60]— cresce com � ����� � � . Se for adotada alguma técnica mais avançada para contornar um potencial mal-condicionamento, como o SVD, o custo computacional é ainda maior [28]. Existem pelo menos duas propostas para se calcular o descréscimo no SSE com um custo computacional razoável. Baseado em [62], Orr propõe em [52] um algoritmo cha- mado seleção adiantei. Fazendo uso de algumas propriedades da matriz de projeto � (apresentada na seção 7.4), pode-se determinar a redução no SSE com um número de operações na ordem de � * . Esse custo pode ser reduzido ainda mais, desde que se imponha às colunas de � que sejam ortogonais entre si. Nesse caso, tem-se o algoritmo dos mínimos quadrados ortogonali ou simplesmente OLS [13, 14]. No algoritmo OLS, o cálculo da redução no SSE pode ser feito em tempo linear. iForward selection iOrthogonal least squares 28 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Como já discutido, a seleção de modelo pode ser adotada conjuntamente com a regu- larização. Dessa forma, é possível se pensar tanto no algoritmo de seleção adiante [50] quanto no OLS [12, 11] em suas formas regularizadas. Em [50], Orr propõe uma fórmula para se calcular iterativamente um valor adequado para o parâmetro de regularização � (seguindo as idéias dos trabalhos descritos na seção 7.2). A cada nova RBF adicionada à rede, um novo valor para � é estimado. Em [11], por outro lado, utiliza-se no algoritmo OLS um parâmetro de regularização local � ; para cada coeficiente da camada de saída, o que resulta no que o autor chama de LROLS (algoritmo dos mínimos quadrados ortogonal localmente regularizadoi). Além dos algoritmos de seleção adiante e OLS, pode-se encontrar em [73] uma al- ternativa em que o SVD é adotado para a seleção de subconjunto. Os autores propõem que os dados de entrada sejam primeiramente submetidos a um processo de clusterização —que no caso deles é feito através de um algoritmo k-médias modificado— e os centros dos clusters resultantes sejam interpretados como candidatos a centros das RBF’s. Evidentemente, pode-se imaginar a estratégia oposta da dos algoritmos construtivos: ao invés de ir “crescendo” a rede incrementalmente, é possível inicializá-la com todas as RBF’s candidatas, das quais as menos importantes seriam sucessivamente removidas do modelo. Mais uma vez, é necessário definir um procedimento que seja computacionalmente viável, já que retreinar a rede para cada função retirada seria completamente inviável. Uma proposta muito interessante nesse sentido é apresentada em [30]. Nesse mesmo trabalho, os autores propõem uma solução híbrida: a rede RBF é inicializada com um grande número de RBF’s e treinada através de um algoritmo semi-supervisionado. Uma vez terminado o treinamento, a rede é submetida ao processo de “poda” das unidades que menos contribuíam para o modelo. 7.6 Treinamento em tempo real Embora os algoritmos de seleção adiante e —principalmente— OLS constituam ma- neiras computacionalmente viáveis de se treinar uma rede RBF, eles não são adequados para aplicações em tempo real. Isso porque nesse tipo de aplicação os dados de treina- mento vão se tornando disponíveis com o tempo, e ambos os algoritmos utilizam a matriz de projeto completa. Existe uma classe de algoritmos que é mais adequada a esse tipo de aplicação. Esse é o assunto dessa seção. 7.6.1 Rede de alocação de recursos Em [55], Platt propõe uma arquitetura de rede que ele chama de rede de alocação de recursosi ou RAN. Essencialmente, a RAN é uma rede RBF com funções de ativação locais e um algoritmo de treinamento construtivo seqüencial. A principal característica do algoritmo de treinamento da RAN é que os parâmetros e a arquitetura da rede vão sendo iLocally regularised orthogonal least squares algorithm iResource allocating network 29 c� André da Motta Salles Barreto Uma Introdução às Redes RBF ajustados sucessivamente, à medida que novos pontos vão sendo apresentados. Isso o torna particularmente adequado a aplicações em que não se dispõe de uma só vez de todos os dados de treinamento. Assim como os algoritmos construtivos descritos na seção 7.5, o treinamento da RAN inicia-se com uma rede sem unidades ocultas, à qual novas funções de base radial vão sendo sucessivamente adicionadas. Quando um novo ponto é apresentado à rede, o algo- ritmo decide se uma nova unidade deve ser adicionada ou se os parâmetros das unidades pré-existentes serão ajustados. Essa decisão é tomada levando-se em conta dois critérios: a distância do novo ponto aos centros da rede e a diferença entre a saída desejada e a resposta da rede quando alimentada com aquele ponto. Se ambos os critérios estiverem acima de um limiar previamente definido, uma nova unidade é adicionada à rede. Caso um dos critérios não seja satisfeito, os parâmetros da rede são ajustados utilizando-se o algoritmo LMS (seção 7.3). Quando uma nova RBF é adicionada, ela é inicializada da seguinte maneira: o seu centro coincide com o ponto recém-apresentado e sua largura é configurada como sendo uma fração da distância do ponto ao centro mais próximo. O coeficiente � ; da camada de saída referente à nova RBF —ou, nas palavras de Platt, que define a “altura“ da RBF— é definido como sendo o erro da rede naquele ponto, ou seja, a diferença � � � � �!�� � � � . Mais tarde, Kadirkamanathan e Nirajan apresentaram em [42] uma fundamentação teórica para as RAN’s usando uma abordagem de aproximação seqüencial de funções. Além disso, eles propõem nesse mesmo trabalho uma modificação no processo de ajuste dos parâmetros da rede, que ao invés de ser feito através do algoritmo LMS passa a ser feito pelo algoritmo conhecido como filtro de Kalman estendidoi (EKF). Os resultados apresentados em [42] sugerem que essa modificação tende a gerar redes mais compactas e com um menor erro de generalização. Várias outras propostas de extensão para a rede de alocação de recursos podem ser encontradas na literatura. Em [72], apresenta-se uma estratégia de poda para a RAN baseada na contribuição relativa de cada unidade oculta para o desempenho total da rede. A conseqüência óbvia disso é que os modelos resultantes tendem a ser mais compactos. De acordo com os autores, essa redução no número de unidades não apenas mantém a qualidade dos resultados, como em alguns casos é capaz de melhorá-la. Pode-se ainda citar [1], em que utiliza-se as propriedades estatísticas da amostra de erros cometidos pela rede como critério para controlar o seu crescimento. Isso evita que a definição do número de RBF’s fique submetida à determinação de valores limiares para distância e erro, como no algoritmo RAN original. Uma outra proposta interessante é apresentada em [40] e estendida em [39]. Nesses trabalhos, alguns dos termos do algoritmo EKF são usados para controlar o crescimento da rede e para guiar um processo de poda de unidades menos importantes. Além disso, são adotadas na camada oculta da rede funções bi-radiais [19], que são maisflexíveis do que as funções de base radial normalmente empregadas. iExtended Kalman Filter 30 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 7.6.2 Estruturas celulares crescentes Uma outra classe de algoritmos que pode ser adotada para aplicações em tempo real é aquela baseada no trabalho original de Fritzke [22], em que ele apresenta uma abordagem chamada de estruturas celulares crescentesi ou GCS. No GCS, as posições dos centros são continuamente atualizadas através de um processo muito semelhante aos mapas auto- organizáveis de Kohonen [29, 17]. Para tal, utiliza-se o conceito de vizinhança entre as funções de base radial, que ficam estruturadas como um grafo não-orientado. Nesse tipo de estrutura, cada vértice representa uma RBF (que o autor chama de célula), e cada arco representa uma relação de vizinhança topológica, com o seu comprimento indicando a distância entre os centros das funções. Quando um novo ponto é apresentado à rede, a RBF que gerou a maior ativação como resposta tem o seu centro “atraído” em direção a esse ponto. Os vizinhos imediatos dessa função também são atraídos, mas com menor intensidade. Além disso, o erro cometido pela rede nesse ponto é atribuído à função com ativação máxima (essa informação será usada pela política de inclusão de novas unidades, como será descrito). As larguras das RBF’s são definidas como sendo a média aritmética do comprimento de todos os arcos incidentes a essa função. A idéia dessa estratégia é promover um nível de sobreposição adequado entre as funções de base radial. Os coeficientes da camada de saída são atuali- zados através do método de descida pelo gradiente (seção 7.3). Esse processo de ajuste é repetido até que o erro fique estagnado em um determinado patamar. Inicia-se então a fase de crescimento da rede. Cada RBF tem associada a si um erro acumulado no processo de ajuste. Pode-se inferir que esse erro é um indicativo da qua- lidade da aproximação realizada pelo modelo na região daquela RBF. Isso porque o erro cometido pela rede quando alimentada com um determinado ponto é associado à função que gerou a maior ativação em resposta a esse “estímulo” (indicando que o ponto apresen- tado encontrava-se mais próximo daquela função do que de qualquer outra). Desse modo, parece sensato que a nova função a ser adicionada esteja centrada nas proximidades da RBF com maior erro acumulado. Uma nova unidade é, então, acrescentada à rede entre a função com maior erro e uma de suas vizinhas. A escolha da função vizinha pode ser feita de duas maneiras: escolhe-se a RBF com o maior erro acumulado ou simplesmente aquela cujo centro esteja mais distante da função original. É interessante notar que, embora o posicionamento dos centros seja feito através de um processo auto-organizado, o treinamento da rede RBF nesse caso não é totalmente desacoplado —como acontece no treinamento semi-supervisionado (seção 7.4). Isso fica claro quando se observa que o erro cometido pela rede é associado a cada RBF, signifi- cando que a resposta desejada � ; também é utilizada na definição das unidades ocultas. Além disso, nesse algoritmo as otimizações da camada oculta e da camada de saída são feitas de maneira paralela. Assim como no caso da rede de alocação de recursos de Platt, muitas extensões foram propostas para a abordagem de Fritzke. O próprio autor do trabalho original apresenta em [23] uma melhoria no GCS. Enquanto em [22] o número de vizinhos de cada função é fixo, nessa nova proposta a estrutura de vizinhança das funções de base radial é irres- iGrowing cell structures 31 c� André da Motta Salles Barreto Uma Introdução às Redes RBF trita e atualizada constantemente através de regras de natureza hebbiana. Idéias muito semelhantes são apresentadas por Blanzieri em [3, 4]. Embora não seja uma extensão direta do algoritmo GCS, a técnica proposta por Bel loir, Fache e Billat em [2] guarda alguma semelhança com o trabalho de Fritzke. Os auto- res propõe um algoritmo simples para construir redes RBF para tarefas de classificação utilizando-se apenas a amostra de treinamento, ou seja, sem a necessidade de definição de nenhum parâmetro. É importante ressaltar que o treinamento de redes RBF com algoritmos de natureza seqüencial tende a gerar resultados inferiores àqueles que fazem uso de toda a massa de dados de uma só vez, como era de se esperar. Em [50], por exemplo, pode ser encontrada uma comparação em que o algoritmo de seleção adiante supera uma rede RAN-EKF tanto em relação ao erro residual quanto em relação ao tamanho dos modelos gerados. 7.7 Outros algoritmos de treinamento Além dos algoritmos já apresentados, podem ser encontradas na literatura várias ou- tras propostas de treinamento de redes RBF. Embora uma descrição detalhada de cada uma delas fuja ao escopo desse trabalho, pode-se mencionar algumas que se destacam por uma ou outra razão. 7.7.1 Agrupamento hierárquico Na seção 7.4 foi discutida uma possibilidade de treinamento das redes RBF em que os dados de entrada são agrupados formando clusters cujos centros se tornam os centros das funções de base radial da camada oculta. Uma das desvantagens associadas com esse método é que o número de agrupamentos —e portanto de unidades ocultas— tem que ser definido a priori, o que impõe à rede uma arquitetura fixa, possivelmente incoerente com o problema. Uma possibilidade para se resolver essa questão é adotar um algoritmo de agrupa- mento hierárquico [17]. Nesse tipo de algoritmo, o número de clusters não é previamente definido, e se torna parte do problema. A principal característica da dinâmica desse tipo de procedimento é que um agrupamento de uma etapa é formado pela “fusão” de dois agrupamentos de outra etapa, resultando em um gráfico de árvore chamado dendograma. A figura 11 mostra um exemplo de dendograma. Os segmentos verticais representam a fusão de dois agrupamentos. O comprimento das linhas horizontais que conectam dois segmentos verticais indica a distância entre os centros dos clusters correspondentes. Li- nhas mais curtas indicam menores distâncias e, portanto, agrupamentos mais “autênticos”. A análise do dendograma permite se estimar qual seria o nível certo de clusterização. Os métodos hierárquicos se dividem em duas categorias: algoritmos aglomerativos e divisivos. As técnicas aglomerativas iniciam-se com cada ponto constituindo um clus- ter. A cada iteração, os dois agrupamentos mais próximos são combinados formando um único agrupamento, até que todos os pontos pertençam ao mesmo grupo. Nos algoritmos 32 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Figura 11: Dendograma divisivos ocorre o contrário: o processo inicia-se com um único cluster que vai sendo di- vidido até que se tenha � agrupamentos, cada um contendo apenas um ponto. Observando a figura 11, pode-se afirmar que os métodos aglomerativos formam grupos da esquerda para a direita, enquanto que os métodos divisivos funcionam no sentido oposto. Uma forma de agrupamento que está intimamente relacionada com os métodos hie- rárquicos aglomerativos é a chamada clusterização baseada em escalai [71, 64]. De uma maneira geral, a idéia por trás desse tipo de algoritmo é realizar a clusterização dos da- dos em várias “escalas” e observar o comportamento dos agrupamentos formados. Os agrupamentos que se mostrarem estáveis sobre uma larga faixa de valores de escala são considerados clusters verdadeiros. Chakravarthy e Ghosh apresentam em [10] a possibilidade de se aplicar a clusterização baseada em escala ao treinamento de redes RBF. Nesse contexto, a noção de “escala” está obviamente associada com a largura das funções de base radial. Fixando os coeficientes � ; , as respostas desejadas � ; e a largura global das RBF’s � , os autores utilizam o termo de atualização � � (treinamento supervisionado, seção 7.3) para encontrar a posição doscentros. A cada iteração, as posições dos centros são atualizadas, até a convergência. Partindo de valores iniciais pequenos para � , a clusterização é executada várias vezes, com valores crescentes para a largura. Imagine o caso extremo em que o processo fosse sempre iniciado com um número de RBF’s igual ao tamanho do conjunto de treinamento. Quando o valor de � fosse muito pequeno, os centros das RBF’s tenderiam a convergir para uma configuração coincidente com a amostra de treinamento. À medida que � fosse adquirindo valores maiores, alguns centros iriam se fundir durante o processo de ajuste, formando um novo agrupamento. Na situação limite em que a largura das RBF’s fosse muito grande, os centros terminariam todos na mesma posição do espaço de entrada, formando um único cluster. iScale-based clustering 33 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Analisando o comportamento dos clusters em função dos diferentes valores para a lar- gura � , é possível identificar quais seriam os agrupamentos verdadeiros e, portanto, qual seria a escala adequada. Dessa forma, essa estratégia de treinamento define, em um só procedimento, a posição, largura e número das RBF’s. Uma vez definida a camada oculta, os coeficientes da camada de saída podem ser determinados através de uma inversão de matriz ou, no caso de se adotar a regularização, através de um dos algoritmos descritos na seção 7.2. 7.7.2 Árvores de decisão Kubat apresenta em [44] a possibilidade de se utilizar árvores de decisão [6, 61] para inicializar uma rede de função de base radial. A idéia básica de uma árvore de decisão é particionar recursivamente o espaço de entrada em dois e aproximar a função-alvo em cada metade pela média aritmética dos valores de saída que cada amostra contém. Cada partição é paralela a um eixo, e por isso pode ser expressa através de uma inequação envolvendo uma das variáveis de entrada (por exemplo, � �� ' ). O espaço de entrada é, dessa forma, dividido em hiper-retângulos organizados em uma árvore binária em que cada ramificação é determinada pela dimensão � e o limite associado ' , que conjunta- mente minimizam o erro residual entre o modelo e os dados do problema. Em geral, o processo de particionamento do espaço de entrada pára quando não é mais possível dividir a amostra sem que algum dos hiper-retângulos gerados apresente um número de pontos menor do que um limiar � � � ; � pré-definido. A idéia nesse contexto é utilizar cada nó terminal11 da árvore de decisão para iniciali- zar uma RBF da camada oculta da rede. O centro da função de base radial é definido como sendo o centro do hiper-retângulo associado e suas larguras � ; em cada dimensão12 podem ser determinadas como uma escala do comprimento da i-ésima aresta desse mesmo hiper- retângulo. Dessa forma, a árvore de decisão determina de uma só vez o número de RBF’s na camada oculta, bem como seu posicionamento e sua largura em cada dimensão. Os coeficientes � ; da camada de saída podem ser determinados da mesma forma que seriam no método de agrupamento hierárquico (seção 7.7.1). Evidentemente, o tamanho da árvore de decisão (e portanto da rede RBF) vai depender diretamente de algum parâmetro do algoritmo responsável pela sua geração. Um parâme- tro particularmente importante nesse caso é aquele que determina o número mínimo de pontos por hiper-retângulo, � � � ; � . A escolha de um valor inadequado para � � � ; � pode resultar em um modelo super ou subestimado. Nota-se claramente que trata-se do dilema bias-variância tratado na seção 2. Para evitar a determinação de � � � ; � a priori, Orr propôs em [54] uma abordagem um pouco diferente. Ao invés de simplesmente se utilizar os nós terminais da árvore, é possível interpretar todos os nós da árvore como sendo unidades ocultas potenciais e utilizá-las como candidatas para o algoritmo de seleção adiante ou OLS, discutidos na seção 7.5. 11Que não contém nós-filhos. 12Dizer que a função tem uma largura diferente em cada dimensão é o mesmo que dizer que ela tem uma largura comum escalada por uma matriz diagonal de ponderação de norma, como discutido na seção 5. 34 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Além disso, o autor de [54] nota que uma das características positivas das árvores de decisão é que a própria dinâmica de partição dos dados em subgrupos fornece algumas informações importantes sobre a relevência de cada variável do problema. Como cada divisão da massa de dados é feita de modo a minimizar uma função de custo, não é difícil perceber que as componentes que contêm mais informação sobre o problema tendem a ser particionadas primeira e mais freqüentemente. Dessa forma, além do algoritmo OLS, Orr propõe uma maneira sistemática de se explorar o espaço de RBF’s em que os nós da árvore são visitados ordenadamente, da raiz para os nós terminais. Isso permite uma solução hierárquica para o problema, partindo de uma aproximação “grosseria” da função para uma resolução mais precisa. Existe ainda na literatura uma série de outras propostas para o treinamento de redes RBF. Entre elas, pode-se destacar um grande número de trabalhos que aplicam algum método estocástico de otimização global —como os Algoritmos Genéticos [27] ou o Re- cozimento Simuladoi [43]— à determinação dos parâmetros e/ou topologia da rede. O objetivo dessa seção não é, no entanto, fazer uma enumeração exaustiva de todas as técnicas de treinamento presentes na literatura. A idéia é que os métodos de treinamento descritos —selecionados por sua importância histórica ou grau de inovação— forneçam um panorama das possibilidades e tendências do treinamento de redes RBF. 8 Aplicações Costuma-se dizer que as redes neurais são sempre a segunda melhor solução para qualquer problema. Isso porque as redes como aproximadores universais podem ser ado- tadas com sucesso em uma enorme gama de aplicações, sendo consideradas quase sempre como uma escolha sensata (uma possível exceção seria o caso em que existissem métodos desenhados especificamente para o contexto, daí a afirmação inicial). De fato, as redes RBF podem ser aplicadas a praticamente qualquer domínio que envolva a aproximação de funções reais contínuas ou contínuas por partes que realizem um mapeamento do tipo � � � � . Como foi visto na seção 6, essa classe de funções inclui problemas de classificação como um caso particular [47]. Exemplos e testes de aplicações são vários: aproximação de funções não-lineares arbitrárias [50, 52, 73, 1] ou descrevendo algum fenômeno físico [53, 54], problemas de classificação de padrões gerados artificialmente [23, 19, 40] ou reais [2, 39] e previsão de séries temporais artificiais [47, 25, 55, 42, 3, 5, 30] ou reais [18]. Entre os problemas de classificação de padrões, destacam-se aqueles voltados para o reconhecimento visual [48, 56] e para o reconhecimento de padrões de fala [70, 15] e escrita [38]. Muitos outros exemplos poderiam ser mencionados. No entanto, uma enumeração extensa e superficial de várias possibilidades de aplicação não parece ser uma alterna- tiva muito atraente para se exemplificar o uso das redes RBF. Melhor seria descrever em maiores detalhes um ou dois casos reais. Isso é feito nas próximas seções. iSimulated annealing 35 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 8.1 Transformando gestos em fala Uma das aplicações mais importantes e dignificantes da tecnologia de uma maneira geral é no auxílio a pessoas portadoras de alguma deficiência. Um exemplo desse tipo de aplicação foi dado na seção 1, em que estuda-se a possibilidade de utilização de disposi- tivos conhecidos como neuropróteses na restauração das funções motoras em deficientes físicos [49]. Um outro trabalho nesse sentido é descrito em [21]. Nessa pesquisa, investiga-se uma maneirade se transformar gestos manuais em sons de fala através de uma interface adapta- tiva. Uma aplicação óbvia para esse tipo de idéia é ajudar pessoas com deficiência na fala a se comunicarem com as demais sem que seja estritamente necessário o conhecimento do alfabeto gestual. Grosseiramente falando, o sistema funciona da seguinte forma: o usuário veste uma luva que contém inúmeros sensores capazes de detectar os seus movimentos. Esses senso- res estão conectados a um sintetizador de fala. Também conectado ao sintetizador está um pedal que controla o volume dos sons emitidos. Para começar a falar, o usuário pressiona o pedal e faz com a mão o gesto indicando o som desejado. Através da movimentação coordenada das mãos e do pé pode-se, de acordo com os autores, produzir uma fala bem mais natural do que aquela produzida por sintetizadores textuais. Evidentemente, as luvas não estão diretamente conectadas ao sintetizador de fala. Como os movimentos gestuais realizados pelo usuário podem —e provavelmente irão— variar a cada vez que uma letra é produzida, é necessária alguma técnica capaz de iden- tificar padrões de comportamento das mãos. Em [21], Fels e Hinton utilizam três redes neurais: um MLP e duas redes RBF13. O perceptron age como uma espécie de “distribuidor” para as outras duas redes, iden- tificando a probabilidade de o gesto realizado corresponder a uma vogal ou a uma conso- ante. As redes RBF são responsáveis pela identificação das consoantes e vogais corres- pondentes ao movimento manual. A rede associada com a emissão das vogais realiza um mapeamento fixo —definido pelo usuário— entre posições das mãos e fonemas corres- pondentes. Para se produzir uma vogal, o sistema considera apenas a posição � � 1 � � das mãos do usuário em relação ao chão. Os centros das RBF’s não são treinados e ficam fixos nas posições referentes aos fonemas. Os coeficientes da camada de saída são treinados com 100 exemplos idênticos de cada vogal corrompidos por ruído. Ao contrário do que acontece no caso anterior, a rede RBF responsável pela emissão das consoantes tem seus centros posicionados através de um conjunto de treinamento. Os dados de treinamento são produzidos pelo próprio usuário, da seguinte maneira: através do auxílio de um sintetizador textual, o som referente à consoante-alvo é emitido pelo sin- tetizador de fala. Em resposta, o usuário faz o gesto correspondente à consoante e aperta o pedal. A repetição desse procedimento várias vezes por consoante forma a amostra de treinamento. A aprendizagem é semi-supervisionada: o número de centros corresponde ao número de consoantes e suas posições são definidas como sendo a média aritmética dos padrões associados com cada consoante. 13No trabalho inicial [20] os autores utilizaram cinco redes neurais. 36 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Para testar o sistema, treinou-se um voluntário que é um exímio pianista. A expecta- tiva era que a sua habilidade manual e sua familiariedade com a música pudessem facilitar o processo. Após 100 horas de treinamento, a fala produzida era inteligível e natural, em- bora um pouco lenta (de 1,5 a 3 vezes mais devagar do que uma fala normal). Para tornar o uso do sistema possível, os autores ressaltam que seria desejável que a luva contasse com um sistema de comunicação sem fio. Além disso, o pedal poderia ser substituído por um dispositivo mais portátil. De qualquer maneira, esse exemplo ilustra uma aplicação prática e bastante interessante das redes RBF. 8.2 Reconhecimento de faces O termo “biométrica” tem sido usado para designar o estudo de métodos automáticos para a identificação de indivíduos através de suas características físicas ou comportamen- tais. Técnicas como reconhecimento de face e de voz e análise de íris e de impressões digitais podem ser combinadas para produzir aplicações muito úteis. Existe um grande interesse comercial nesse tipo de aplicação, que poderia ser adotado na área de segurança comercial e doméstica ou na personalização de aparatos como computadores, televisores e telefones, por exemplo. Dentre essas técnicas, o reconhecimento facial automático se destaca por não ser in- vasivo e requerer pouca cooperação ou modificação no comportamento dos usuários no processo de coleta de informações. Os artigos [34, 35, 36, 31, 37, 32] descrevem o de- senvolvimento de um trabalho muito interessante nesse sentido, que culminou na tese de Howell [33]. O trabalho de Howell aplica as redes RBF à tarefa de reconhecimento de faces sem restrições. Nessa qualidade do problema, deve-se ser capaz de identificar uma pessoa através da imagem de seu rosto sob diferentes circunstâncias, como variações de escala, rotações e condições de iluminação. Trata-se de uma tarefa muito difícil, portanto. O autor introduz a idéia de unidades faciaisi, que nada mais são do que redes de função de base radial especializadas no reconhecimento de uma pessoa específica. Um sistema de reconhecimento completo contaria com várias dessas “unidades”, cada uma responsável pela identificação de uma face em especial. Quando submetida à rede, a imagem de uma pessoa geraria uma resposta indicando se se trata do indivíduo que ela representa ou não. Um dos grandes avanços nas taxas de classificação, segundo o autor, se deveu à in- clusão de “casos negativos” na fase de treinamento. Isso significa que, ao invés de a rede ser treinada apenas com as imagens faciais do indivíduo que ela representa, utiliza-se imagens de outros indivíduos para melhorar o seu poder de discernimento. Os contra- exemplos foram escolhidos como sendo aquelas imagens mais similares (no sentido da distância euclidiana) às imagens da pessoa que a rede deveria identificar. Curiosamente, a arquitetura do modelo é aquela proposta originalmente para as redes de regularização (seção 4): o número e posicionamento das unidades ocultas correspon- dem à amostra de treinamento. Isso significa que cada imagem —representada como iFace units. 37 c� André da Motta Salles Barreto Uma Introdução às Redes RBF sendo um vetor de pixels— define uma RBF. Foram feitos experimentos com diferentes proporções entre o número de exemplos positivos e negativos (o que resultou em diferen- tes toplogias). A largura das funções foi definida através de heurítica semelhante àquelas descritas na seção 7.4 e a camada de saída foi resolvida utilizando-se o SVD. Em alguns casos, a taxa de classificação correta chegou a 96% em um conjunto de teste não visto durante a fase de treinamento [36]. 8.3 Análise de crédito A organização capitalista do mundo ocidental —atualmente fomentada pela cultura liberal vigente— tem criado mercados altamente competitivos nos mais diferentes setores. Um exemplo é o setor bancário, que tem adotado tecnologias cada vez mais sofisticadas para atender a usuários cada vez mais exigentes. Uma possibilidade de aplicação dessa tecnologia seria no suporte à tomada de decisão. Um caso típico seria a avaliação automatizada do risco de crédito. A decisão de se ofe- recer ou não crédito a um cliente —em forma de cartão de crédito, cartão de crediário ou cheque especial— deve ser muito criteriosa. Por um lado, uma decisão descuidada pode causar prejuízos à instituição financeira. Por outro lado, uma postura excessivamente con- servadora pode causar ao cliente não apenas restrições do ponto de vista financeiro, mas principalmente um constrangimento social (sem contar que uma política muito restritiva diminui o leque de clientes em potencial). Em geral, a avaliação do risco de crédito é feita pelo analista de crédito (como o gerente do banco, por exemplo). Normalmente o analista se baseia na sua própria expe- riência, em relatórios financeiros e na política de crédito adotada pela instituição. Essa abordagem tem limitações óbvias. Em primeiro lugar, como se trata de um processo in- trinsecamente subjetivo, cadaanalista adota uma postura. Além disso, as decisões em geral consomem tempo e ficam dependentes da experiência de cada analista —que pode ser limitada ou estar desatualizada. Uma alternativa é adotar uma rede neural para auxiliar no processo de decisão de concessão de crédito. Em [63] é possível encontrar um relato sobre a experiência de aplicação de uma rede RBF ao problema de avaliação de risco de crédito. Foram utilizados dados de avaliação de risco de inadimplência de um banco brasileiro (que os autores não identificam) e dados para análise de crédito de domínio público. De acordo com os autores, como a massa de dados é muito grande, o tempo de aprendizagem requerido para o treinamento convencional de um MLP (por retropropagação do erro) pode ser muito grande. O uso das redes RBF, cujo treinamento é sensivelmente mais rápido, ameniza esse problema. A seleção do modelo foi feita através da validação cruzada (seção 7.1). De acordo com [63], os resultados alcançados pela abordagem proposta foram supe- riores aos obtidos por outras técnicas analisadas. O uso das redes RBF na avaliação do risco de crédito apresenta várias vantagens: 1. Rapidez na aprovação do crédito; 2. Redução do custo de processamento do empréstimo; 38 c� André da Motta Salles Barreto Uma Introdução às Redes RBF 3. Maior flexibilidade de atualização e adaptação a novas situações; 4. Consistência entre decisões de diferentes analistas; 5. Maior segurança, na medida em que as redes confirmam empiricamente a decisão do analista. Mais tarde, técnicas de extração de conhecimento de redes neurais foram empregadas na tentativa de se descrever as decisões tomadas pela rede através de regras inteligíveis. 9 Plausibilidade biológica Uma discussão aprofundada sobre a plausibilidade e potenciais implicações biológi- cas do paradigma das redes RBF não é, obviamente, o objetivo desse trabalho. No entanto, considerando-se que grande parte dos avanços na área de Inteligência Artificial são fruto da tentativa de se desvendar os segredos da mente humana—e da sua relação com o cé- rebro [17, 29]—, não custa mencionar, ainda que superficialmente, algumas intrigantes relações desse modelo neural com evidências fisiológicas modernas [56]. Esse tipo de re- lação, se não servir para jogar um pouco de luz sobre o funcionamento do sistema nervoso biológico, pode servir para despertar um interesse que tem sido uma das motivações prin- cipais por trás do estudo de redes neurais artificiais [29]. Além disso, no caso das redes RBF, essa interpretação biológica facilitaria —pelo menos em tese— sua implementação em hardware. É possível encontrar em várias partes do sistema nervoso neurônios “localmente ajus- tados” ou “seletivos”, isso é, que só são ativados por uma faixa específica de valores de estímulo. Como exemplo, pode-se citar as células de orientação do córtex visual, que respondem seletivamente a estímulos que são locais tanto na posição da retina quanto no ângulo da orientação do objeto [47]. Em geral, populações de células localmente ajusta- das são arranjadas em mapas corticais. A faixa de valores que ativa cada célula costuma estar associada com a sua posição no mapa. Estes mapas neuronais estão intimamente associados com a idéia de campos recep- tivos. A figura 12 apresenta uma ilustração esquemática desse tipo de estrutura. Nesse caso, a intensidade do estímulo está representada pelas diferentes escalas de cinza, e po- deria ser biologicamente sintetizada através das ligações sinápticas mostradas. Nota-se claramente que existe uma relação direta entre o nível de estímulo e a posição espacial das células. Não é difícil esboçar uma relação entre os campos receptivos e as funções de base radial locais. O campo receptivo da figura 12, por exemplo, pode ser pensado como uma RBF posicionada no ponto central da malha. Nesse caso, a noção de distância estaria intrinsecamente representada na estrutura topológica do mapa, não sendo necessária por- tanto a computação explícita da norma. Essa observação é particularmente importante quando se pensa em uma implementação em hardware com circuitos VLSI [56]. Esse tipo de interpretação limitaria, a princípio, o espaço de entrada em no má- ximo duas dimensões, já que é difícil imaginar como um neurônio biológico computa- 39 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Figura 12: Campo receptivo ria B B � � � BIB * em espaços de dimensões superiores. Existe uma propriedade da função gaussiana, no entanto, que permite uma extensão muito interessante dessa abordagem. Pode-se mostrar facilmente que a função gaussiana é fatorável. Isso significa que uma função desse tipo com domínio em � � pode ser decomposta em funções gaussianas de dimensões inferiores. Por exemplo, uma gaussiana em � � poderia ser escrita como um produto de duas outras, como mostrado na equação 29. � �� ���fl��� ��� � � ��� � ��� � � �� � � � � � � � � ��� � � � � � � (29) onde � é o centro da função e a largura � foi omitida por conveniência. Observando a equação 29, pode-se pensar em um aninhamento hierárquico de cam- pos receptivos de uma ou duas dimensões. A figura 13 mostra o caso de uma estrutura formada pela combinação de dois campos receptivos, um em � * e outro em � . Nesse caso, as funções gaussianas de ordem inferior são sintetizadas diretamente através dos “pesos” sinápticos dos mapas sensitivos, enquanto que as funções de ordens mais altas são o resultado da combinação das primeiras. A multiplicação requerida para a composição das funções multidimensionais (no caso da figura 13, a função � � ) não é tão implausível do ponto de vista fisiológico. Ela poderia ser realizada por uma série de mecanismos biofísicos diretamente na árvore dendrítica do neurônio representando a função de base radial correspondente [56]. É interessante notar que, diferentemente do que ocorre com os campos receptivos, nas funções de ordem superior a noção de centro não guarda necessariamente uma rela- ção com uma posição espacial. Isso é particularmente verdade quando se observa que o número de campos receptivos combinados pode ser arbitrariamente estendido, levando a dimensões que não permitem uma interpretação espacial. Pode-se pensar, portanto, nos centros das funções de dimensões mais altas como sendo protótipos de atividades neuronais. Tais protótipos seriam formados pela combinação dos padrões de estímulos capturados pelos campos receptivos. Esses padrões podem ser 40 c� André da Motta Salles Barreto Uma Introdução às Redes RBF f 1 f 2 f 3 Figura 13: Aninhamento hierárquico de campos receptivos chamados de características. Nesse contexto, as funções gaussianas multidimensionais cumpririam um papel semelhante à conjunção lógica “e”, combinando diferentes carac- terísticas14. O interessante é que esse esquema de aninhamento pode ser estendido para vários níveis, em que a saída de uma função multidimensional representando um protótipo serviria como uma característica para uma função em um nível hierárquico mais alto. Esse tipo de organização sugere uma intrigante metáfora para uma estratégia computa- cional que o cérebro poderia usar em alguns casos. A generalização poderia ser feita atra- vés da superposição de campos receptivos em espaços multidimensionais. Nesse ponto de vista, alguns neurônios corresponderiam a funções de base radial com centros em espaços de altas dimensões, de forma semelhante às “células-mães”, uma visão que parece su- perficialmente consistente com as evidências fisiológicas. Um exemplo interessantíssimo desse tipo de interpretação pode ser visto em [56], numa tarefa de reconhecimento visual em que uma rede foi treinada para identificar um objetode qualquer perspectiva. É importante observar que, embora esse tipo de organização seja biologicamente plau- sível, a maioria dos algoritmos de treinamento descritos na seção 7 não o são. No entanto, pode-se pensar em estratégias de aprendizagem que sejam mais coerentes com os pro- cessos fisiológicos conhecidos. No caso do treinamento supervisionado (seção 7.3), por exemplo, o termo de atualização dos coeficientes representa um esquema quase hebbiano que não parece inverossímil biologicamente. A atualização da posição dos centros, por outro lado, parece ser mais difícil de ser implementada por neurônios reais. Deve-se notar, no entanto, que os centros podem se mover de outra maneira. Considerando os campos receptivos gaussianos, “mover” um centro em um espaço multidimensional significaria criar ou apagar conexões entre uma célula e outra em um nível hierarquicamente inferior. Pode-se imaginar, por exemplo, uma espécie de aprendizagem em que campos receptivos representando diferentes características —ou posições em um subespaço do espaço de entrada— competiriam para formar conexões com um neurônio representando uma RBF 14Obviamente, pode-se pensar na negação de uma determinada característica, o que corresponderia à operação “e não” da lógica. 41 c� André da Motta Salles Barreto Uma Introdução às Redes RBF multidimensional. Evidentemente, essas são apenas especulações. O fato de o aninhamento hierárquico de campos receptivos ser biologicamente plausível não significa que os processos neuro- nais ocorram efetivamente dessa maneira. Espera-se, no entanto, que esse tipo de discus- são não seja em vão. A expectativa é que a troca de metáforas e analogias entre a Biologia e a Inteligência Artificial —e de muitas outras áreas, como a Lingüística, por exemplo— possa promover uma evolução no sentido de se explicar a mente humana. A expectativa é que essa soma de esforços torne possível emular em um futuro não muito distante algum tipo de inteligência, mesmo que seja primitiva como a do rato da experiência de Nicolelis e Chapine. 42 c� André da Motta Salles Barreto Uma Introdução às Redes RBF Referências [1] ANDERLE, M., E KIRBY, M. Correlation feedback resource allocation RBF. In Proceedings of the International Joint conference on neural Networks (2001), vol. 3, pp. 1949–1953. [2] BELLOIR, F., FACHE, A., E BILLAT, A. A general approach to construct RBF net- based classifier. In Proceedings of The European Symposium on Artificial Neural Networks (ESANN’99) (Bruges, Belgium, April 1999), pp. 399–404. [3] BLANZIERI, A. G. E., E KATEMKAMP, P. Growing radial basis function networks. In Proc. of the 4th Workshop on Learning Robots (Karlsruhe, Germany, 1995). [4] BLANZIERI, E. Learning Algorithms for Radial Basis Function Networks: Synthe- sis, Experiments and Cognitive Modelling. PhD thesis, Center of Cognitive Science –University and Polytechnic of Turin, 1998. [5] BLANZIERI, E., E GIORDANA, A. An incremental algorithm for learning radial basis function networks. In Proceedings of the International Conference on Fuzzy Systems (New Orleans, USA, 1996). [6] BREIMAN, L., FRIEDMAN, J., OLSHEN, R., E STONE, C. Classification and Regression Trees. Wadsworth & Books, Pacific Grove, CA, 1984. [7] BRIZZOTTI, M. M., E DE CARVALHO, A. C. P. L. F. The influence of cluste- ring techniques in the RBF networks generalization. In Image Processing and its Applications (1999), no. 465, IEEE, pp. 87–92. [8] BRIZZOTTI, M. M., E DE CARVALHO, A. C. P. L. F. Comparing different clus- tering techniques RBF networks training. In VI Brazilian Symposium on Neural Networks – SBRN2000 (Rio de Janeiro, RJ, Brasil, November 2000), C. H. C. Ri- beiro e F. M. G. França, Eds., vol. 1, Sociedade Brasileira de Computação – SBC, IEEE Computer Society, pp. 225–230. [9] BROOMHEAD, D. S., E LOWE, D. Multivariable functional interpolation and adap- tive networks. Complex Systems 2 (1988), 321–355. [10] CHAKRAVARTHY, S. V., E GHOSH, J. Scale-based clustering using the radial basis function network. IEEE Transactions on Neural Networks 7, 5 (September 1996), 1250–1261. [11] CHEN, S. Multi-output regression using a locally regularised orthogonal least square algorithm. Relatório técnico, Department of Eletronics and Computer Sci- ence –University of Southhampton, Highfield, Southhampton SO17 1BJ, U.K., 2002. [12] CHEN, S., CHANG, E. S., E ALKADHIMI, K. Regularized orthogonal least squares algorithm for constructing radial basis function networks. International Journal of Control 64, 5 (1996), 829–837. 43 c� André da Motta Salles Barreto Uma Introdução às Redes RBF [13] CHEN, S., COWAN, C. F. N., E GRANT, P. M. Orthogonal least squares learning algorithm for radial basis function networks. IEEE Trans. on Neural Networks 2, 2 (março de 1991), 302–309. [14] CHEN, S., COWAN, C. F. N., E GRANT, P. M. Orthogonal least squares algo- rithm for training multi-output radial basis function networks. In IEEE Proceedings (1992), vol. Part F 139, pp. 378–384. [15] COHEN, S., E INTRATOR, N. Global optimization of RBF networks. In Proceedings of IEEE Transactions on Neural Networks (submitted) (2000). [16] DARKEN, C., E MOODY, J. Fast adaptive k-means clustering: Some empirical results. In Proc. IJCNN (1990), I. N. N. Council, Ed., vol. II, pp. 233–238. [17] DE CARVALHO, L. A. V. Datamining: A Mineração de Dados no Marketing, Me- dicina, Economia, Engenharia e Administração, 1 ed. Editora Érica LTDA, São Paulo/SP –Brasil, 2001. [18] DE LIMA ROITMAN, V. Um Modelo Computacional de Redes Neurais para Pre- dição do Índice de Desemprego Aberto. PhD thesis, Programa de Pós-Graduação de Engenharia Civil da Universidade Federal do Rio de Janeiro (COPPE/UFRJ), Setembro 2001. [19] DUCH, W., E JANKOWSKI, N. Bi-radial transfer functions. Relatório Técnico UMK-KMK-TR 1/96, Department of Computer Methods –Nicholas Copernicus University, Torun´, Poland, 1996. [20] FELS, S. S., E HINTON, G. E. Glove-Talk: A neural network interface between a data-glove and a speech synthesizer. IEEE Transactions on Neural Networks 4, 1 (1993). [21] FELS, S. S., E HINTON, G. E. Glove-TalkII: A neural network interface which maps gestures to parallel formant speech synthesizer controls. IEEE Transactions on Neural Networks 9, 1 (1998), 205–212. [22] FRITZKE, B. Growing cell structures—a self-organizing network in k dimensions. In Artificial Neural Networks, 2 (Amsterdam, Netherlands, 1992), I. Aleksander e J. Taylor, Eds., vol. II, North-Holland, pp. 1051–1056. [23] FRITZKE, B. Fast learning with incremental RBF networks. Neural Processing Letters 1, 1 (1994), 2–5. [24] GHOSH, J., E NAG, A. An overview of radial basis function networks. Relató- rio técnico, Department of Electrical and Computer Engineering, The University of Texas, Austin, Texas, USA- TX 78712. [25] GIROSI, F. Some extensions of radial basis functions and their applications in arti- fical intelligence. Computers Math. Applic. 24, 12 (1992), 61–80. 44 c� André da Motta Salles Barreto Uma Introdução às Redes RBF [26] GIROSI, F., E POGGIO, T. Networks and the best approximation property. Rela- tório Técnico AIM-1164, Massachusetts Institute of Technology Artificial Intelli- gence Laboratory and Center for Biological Information Processing Whitaker Col- lege, 1989. [27] GOLDBERG, D. Genetic algorithms in search, optimization, and machine learning. Addison-Wesley Reading, MA, 1989. [28] GOLUB, G. H., E LOAN, C. F. V. Matrix Computations, 2 ed. Johns Hopkins Series in Mathematical Sciences. The Johns Hopkins University Press, Baltimore, Maryland, 1993. [29] HAYKIN, S. Redes Neurais: Princípios e Prática, 2nd ed. Bookman, Av. Jerônimo de Ornellas, 670 – Porto Alegre, RS, Brasil, 2001. Tradução: Paulo Martins Engel. [30] HONG, X., E BILLINGS, S. A. Givens rotation based fast backward elimination algorithm for RBF neural networkpruning. IEE Proc D, Control Theory and Appli- cations 5, 144 (1997), 381–384. [31] HOWELL, A., E BUXTON, H. Face recognition using radial basis function neural networks. In Proceedings of British Machine Vision Conference (BMVA, Edinburgh, 1996), pp. 455–464. [32] HOWELL, A., E BUXTON, H. Recognising Simple Behaviours using Time-Delay RBF Networks. Neural Processing Letters 5 (1997), 97–105. [33] HOWELL, A. J. Automatic Face Recognition Using Radial Basis Function Networks. PhD thesis, University of Sussex, 1997. [34] HOWELL, A. J., E BUXTON, H. Invariance in radial basis function neural networks in human face classification. Neural Processing Letters 2, 3 (1995), 26–30. [35] HOWELL, A. J., E BUXTON, H. Receptive field functions for face recognition. In Proc. 2nd International Workshop on Parallel Modelling of Neural Operators for Pattern Recognition (PAMONOP) (Faro, Portugal, November 1995), pp. 83–92. [36] HOWELL, A. J., E BUXTON, H. A scaleable approach to face identification. Re- latório Técnico CSRP 376, School of Cognitive and Computing Sciences (COGS), Sussex, UK, June 1995. [37] HOWELL, A. J., E BUXTON, H. Towards unconstrained face recognition from image sequences. In Proc. 2nd IEEE International Conference on Automatic Face & Gesture Recognition (FG’96) (Killington, Vermont, 1996), pp. 224–229. [38] HWANG, Y., E BANG, S. An efficient method to construct a radial basis function neural network classifier. Neural Networks 10, 8 (1997), 1495–1503. [39] JANKOWSKI, N. Approximation and classification with RBF-type neural networks using flexible local and semi-local transfer functions. In 4th Conference on Neural Networks and their Applications (Zakopane, Poland, May 1999), pp. 77–82. 45 c� André da Motta Salles Barreto Uma Introdução às Redes RBF [40] JANKOWSKI, N., E KADIRKAMANATHAN, V. Statistical control of RBF-like networks for classification. In ICANN (1997), pp. 385–390. [41] JÚNIOR, F. R., FERRARO, N. G., E DE TOLEDO SOARES, P. A. Os Fundamntos da Física, 5 ed., vol. 1. Editora Moderna LTDA, São Paulo/SP, 1988. [42] KADIRKAMANATHAN, V., E NIRANJAN, M. A function estimation appro- ach to sequential learning with neural networks. Relatório Técnico CUED/F- INFENG/TR.111, Cambridge University Engineering Departament, Cambridge – England, September 1992. [43] KIRKPATRICK, S., GELATT, C. D., E VECCHI, M. P. Optimization by simulated annealing. Science, Number 4598, 13 May 1983 220, 4598 (1983), 671–680. [44] KUBAT, M. Decision trees can initialize radial-basis function networks. IEEE-NN 9, 5 (September 1998), 813. [45] LECUN, Y., DENKER, J., SOLLA, S., HOWARD, R. E., E JACKEL, L. D. Opti- mal brain damage. In Advances in Neural Information Processing Systems II (San Mateo, CA, 1990), D. S. Touretzky, Ed., Morgan Kauffman. [46] LIPPMANN, R. P. Neural nets for computing. Ch2561-9/88/0000-0001, Lincoln Laboratory, M.I.T., Lexington, MA 02173 USA, 1988. [47] MOODY, J., E DARKEN, C. Fast learning in networks of locally-tuned processing units. Neural Computation, 1 (1989), 281–294. [48] MUKHERJEE, S., E NAYAR, S. K. Automatic generation of GRBF networks for visual learning. In International Conference on Computer Vision –ICCV (1995), pp. 794–800. [49] NICOLELIS, M., E CHAPIN, J. Controlando robôs com a mente. Scientific American Brasil, 6 (2002), 49–55. [50] ORR, M. Regularisation in the selection of radial basis function centres. Neural Computation Vol. 7(3) (1995), 606–623. [51] ORR, M. J. L. Local smoothing of RBF networks. In International Symposium on Artificial Neural Networks (Hsinchu, Taiwan, 1995). [52] ORR, M. J. L. Introduction to radial basis function networks. Relatório técnico, Centre for Cognitive Science, University of Edinburgh, April 1996. [53] ORR, M. J. L. Optimising the widths of radial basis functions. In Vth Brazilian Symposium on Neural Networks (Belo Horizonte, Brazil, 1998), IEEE. [54] ORR, M. J. L. Recent advances in radial basis function networks. Relatório técnico, Centre for Cognitive Science, University of Edinburgh, 1999. [55] PLATT, J. C. A resource-allocating network for function interpolation. Neural Computation 3, 2 (1991), 213–225. 46 c� André da Motta Salles Barreto Uma Introdução às Redes RBF [56] POGGIO, T., E GIROSI, F. A theory of networks for approximation and learning. Relatório Técnico AIM-1140 CBIP-31, Massachusetts Institute of Technology Ar- tificial Intelligence Laboratory and Center for Biological Information Processing, Whitaker College, 1989. [57] POGGIO, T., E GIROSI, F. Network for approximation and learning. Proc. IEEE 78, 9 (setembro de 1990), 1481–1497. [58] POWELL, M. J. D. Radial basis functions for multivariable interpolation: a review. Algorithms for Approximation, J. C. Mason and M. G. Cox eds, Clarendon Press, Oxford (1987), 143–167. [59] POWELL, M. J. D. Radial basis function methods for interpolation to functions of many variables. NA2001/11, DAMTP, University of Cambridge – Numerical Analysis Group, 2001. [60] PRESS, W. H., TEUKOLSKY, S. A., VETTERLING, W. T., E FLANNERY, B. P. Numerical Recipes in C, 2nd. edition. Cambridge University Press, 1992. [61] QUINLAN, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Francisco, CA, 1993. [62] RAWLINGS, J. O. Applied Regression Analysis. Wadsworth & Brooks, Cole, Pacific Grove, CA –USA, 1988. [63] REZENDE, S. O., Ed. Sistemas Inteligentes: Fundamentos e Aplicações, 1 ed. Edi- tora Manole LTDA, Barueri/ SP – Brasi, 2003. [64] ROSE, K. Deterministic annealing for clustering, compression, classification, re- gression and related optimization problems. Proceedings of the IEEE 86, 11 (1998), 2210–2239. [65] RUMELHART, D. E., HINTON, G. E., E WILLIAMS, R. J. Learning representations by backpropagating errors. Nature 323 (1986), 533–536. [66] SARLE, W. Stopped training and other remedies for overfitting. In Proceedings of the 27th Symposium on Interface (1995). [67] SARLE, W. S. Neural networks and statistical models. In Proceedings of the Nine- teenth Annual SAS Users Group International Conference, April, 1994 (Cary, NC, 1994), SAS Institute, pp. 1538–1550. [68] SCHWARZ, G. Estimating the dimension of a model. The Annals of Statistics 6, 2 (1978), 461–464. [69] WASSERMAN, P. D. Neural Computing: Theory and Practice, 1 ed. Van Nostrand Reinhold, 115 Fifth Avenue, New York, NY – 10003, 1989. [70] WETTSCHERECK, D., E DIETTERICH, T. Improving the performance of radial basis function networks by learning center locations. In Advances in Neural Infor- mation Processing Systems (1992), J. E. Moody, S. J. Hanson, e R. P. Lippmann, Eds., vol. 4, Morgan Kaufmann Publishers, Inc., pp. 1133–1140. 47 c� André da Motta Salles Barreto Uma Introdução às Redes RBF [71] WONG, Y. F. Clustering data by melting. Neural Computation 5, 1 (1993), 89–104. [72] YINGWEI, L., SUNDARARAJAN, N., E SARATCHANDRAN, P. A sequential lear- ning scheme for function approximation using minimal radial basis function neural networks. Neural Computation 9 (1997), 461–478. [73] ZHANG, Y., LI, X. R., ZHU, Z., E ZHANG, H. A new clustering and training method for radial basis function networks. In Proceedings of International Confe- rence on Neural Networks (Washington, DC, USA, June 1996), IEEE. 48 c� André da Motta Salles Barreto