Alinhamento da inteligência artificial

No campo da inteligência artificial (IA), a pesquisa de alinhamento da IA (em inglês, AI alignment) visa direcionar os sistemas de IA aos objetivos e interesses pretendidos por seus criadores.[nota 1] Um sistema de IA alinhado favorece o objetivo pretendido; um sistema de IA desalinhado tem competência para favorecer algum objetivo, mas não o pretendido.[nota 2]

Sistemas de IA podem ser difíceis de alinhar e sistemas desalinhados podem funcionar mal ou causar danos. Pode ser difícil para os projetistas de IA especificar toda a gama de comportamentos desejados e indesejados. Então, eles usam objetivos fáceis de especificar para representar esses comportamentos, o que omite algumas das instruções desejadas. Os sistemas de IA, entretanto, exploram as brechas resultantes disso. Assim, eles atingem eficientemente os objetivos propostos, mas de uma forma inesperada e às vezes prejudicial (reward hacking; "hack de recompensas", em tradução livre).[2][4][5][6] Os sistemas de IA também podem desenvolver comportamentos instrumentais [en] indesejados, como a busca de poder, para atingir mais facilmente seus objetivos.[2][7][5][4] Ainda, eles podem desenvolver objetivos emergentes difíceis de detectar antes da implantação do sistema, momento em que enfrentam novas situações e distribuições de dados.[5][3] Esses problemas afetam sistemas comerciais existentes, como robôs,[8] modelos de linguagem,[9][10][11] veículos autônomos[12] e sistemas de recomendação de redes sociais.[9][4][13] No entanto, sistemas futuros mais poderosos poderão ser afetados mais severamente, uma vez que esses problemas resultam parcialmente da alta competência.[6][5][2]

A comunidade de pesquisa de IA e as Nações Unidas solicitaram pesquisa técnica e soluções políticas para garantir que os sistemas de IA estejam alinhados aos valores humanos.[nota 3]

O alinhamento da IA é um subcampo da segurança da IA, o estudo da construção de sistemas de IA seguros.[5][16] Outros subcampos da segurança da IA incluem a robustez, o monitoramento e o controle de capacidade [en].[5][17] Os desafios da pesquisa na área do alinhamento incluem a inserção de valores complexos na IA, o desenvolvimento de IAs honestas, a supervisão escalável, a avaliação e a interpretação de modelos de IA, bem como a prevenção de comportamentos emergentes da IA, como a busca de poder.[5][17] A pesquisa de alinhamento tem conexões com a pesquisa de interpretabilidade,[18][19] a robustez,[5][16] a detecção de anomalias, a incerteza calibrada,[18] a verificação formal,[20] o aprendizado de preferências,[21][22][23] a engenharia de sistemas críticos,[5][24] a teoria dos jogos,[25][26] a justiça algorítmica [16][27] e as ciências sociais,[28] entre outros.

O problema do alinhamento

Em 1960, o pioneiro da IA Norbert Wiener articulou o problema do alinhamento da IA da seguinte forma: “Se usarmos, para atingir nossos propósitos, uma agência mecânica em cuja operação não podemos interferir efetivamente (…) é melhor garantirmos que o propósito que colocamos na máquina é realmente aquele que desejamos”.[29][4] Mais recentemente, o alinhamento da IA emergiu como um problema em aberto para sistemas de IA modernos[30][31][32][33] e como um campo de pesquisa dentro da IA.[34][5][35][36]

O specification gaming e a complexidade dos valores

Para especificar a finalidade de um sistema de IA, seus projetistas normalmente fornecem uma função objetiva, exemplos ou feedback ao sistema. No entanto, os designers de IA frequentemente não conseguem especificar completamente todos os valores e limitações importantes.[34][16][5][37][17] A partir disso, os sistemas de IA podem encontrar brechas que os ajudem a atingir o objetivo especificado com eficiência, mas de maneira inesperada e possivelmente prejudicial. Essa tendência é conhecida como specification gaming ("jogo com as especificações"), proxy gaming, reward hacking ou lei de Goodhart.[6][37][38]

O fenômeno do specification gaming foi observado em vários sistemas de IA. Um sistema foi treinado para terminar uma corrida de barco em uma simulação, sendo recompensado por atingir alvos ao longo da pista; em vez disso, aprendeu a dar voltas e colidir com os mesmos alvos indefinidamente.[39] Os chatbots, muitas vezes, produzem falsidades porque são baseados em modelos de linguagem que foram treinados para imitar textos variados, porém sujeitos a erros, retirados da internet.[40][41] Quando são treinados novamente para produzir textos que humanos classificam como verdadeiros ou úteis, eles são capazes de fabricar explicações falsas que consideramos convincentes.[42] Da mesma forma, um robô, numa simulação, foi treinado para pegar uma bola, sendo recompensado com feedback positivo de humanos; no entanto, aprendeu a colocar a mão entre a bola e a câmera, fazendo com que a tarefa parecesse falsamente bem-sucedida.[43] Os pesquisadores de alinhamento visam ajudar humanos a detectar o specification gaming e direcionar os sistemas de IA para objetivos cuidadosamente especificados, seguros e úteis.

Stuart Russell, cientista da computação da UC Berkeley, percebeu que omitir uma restrição implícita pode causar danos: “Um sistema (...) frequentemente definirá (...) valores extremos para variáveis que não tenham limites; se uma dessas variáveis sem limites for algo importante, a solução encontrada pode ser altamente indesejável. Esta é essencialmente a velha história do gênio da lâmpada, ou do aprendiz de feiticeiro, ou do rei Midas: você consegue exatamente o que pede, não o que deseja".[44]

Midas Gold
Em um mito antigo, o rei Midas desejou que “tudo” que ele tocasse virasse ouro, mas deixou de especificar exceções para sua comida e sua filha. Por analogia, quando os criadores de IA especificam um objetivo, é difícil antecipar e abordar todos os possíveis efeitos colaterais que a IA deve evitar.[2]

Os efeitos colaterais da implantação de uma IA desalinhada podem ser significativos. Sabe-se que as plataformas de mídia social otimizam as taxas de cliques como forma de aumentar indiretamente o prazer do usuário. Porém, isso viciou alguns usuários, diminuindo seu bem-estar.[5] Pesquisadores de Stanford indicam que esses algoritmos de recomendação estão desalinhados em relação a seus usuários porque “otimizam métricas simples de engajamento, em vez de uma combinação entre bem-estar social e do consumidor, algo mais difícil de medir”.[9]

Para evitar efeitos colaterais, às vezes sugere-se que os projetistas de IA simplesmente listem ações proibidas ou formalizem regras éticas, como as Três Leis da Robótica de Asimov.[45] Contudo, Russell e Norvig argumentaram que essa abordagem ignora a complexidade dos valores humanos: “É certamente muito difícil, e talvez impossível, para meros humanos prever e descartar com antecedência todas as maneiras desastrosas pelas quais a máquina poderia escolher atingir um objetivo especificado."[4]

Além disso, ainda que um sistema de IA entenda completamente as intenções humanas, ele pode desconsiderá-las. Isso ocorre porque ele agirá de acordo com a função objetiva, os exemplos ou o feedback que seus designers lhe fornecerem, e não de acordo com aqueles que pretendiam fornecer.[34]

Riscos sistêmicos

Organizações comerciais e governamentais podem ter incentivos para tomar atalhos na segurança e implantar sistemas de IA não alinhados o suficiente.[5] Um exemplo são os sistemas de recomendação de redes sociais mencionados acima, que têm gerado lucros apesar de criarem dependência e polarização indesejadas em escala global.[9][46][47] Além disso, a competitividade pode criar incentivos para a redução de padrões de segurança, como no caso de Elaine Herzberg, uma pedestre que foi morta por um carro autônomo após engenheiros desativarem o sistema de freio emergencial por ser sensível demais e desacelerar o desenvolvimento.[48]

Riscos de IAs desalinhadas mais avançadas

Alguns pesquisadores se interessam particularmente pelo alinhamento de sistemas de IA cada vez mais avançados. Isso é motivado pelo rápido progresso da área, pelos grandes esforços da indústria e de governos no desenvolvimento de sistemas avançados de IA e pela maior dificuldade de alinhá-los.

Em 2020, a OpenAI, a DeepMind e 70 outros projetos públicos já tinham declarado o objetivo de desenvolver inteligência artificial geral (AGI), um sistema hipotético que igualaria ou superaria humanos em uma ampla gama de tarefas cognitivas.[49] De fato, os pesquisadores que implementam redes neurais modernas observam o surgimento de capacidades cada vez mais gerais e inesperadas.[9] Esses modelos já aprenderam a operar computadores, escrever seus próprios programas e executar uma ampla gama de outras tarefas a partir de um único modelo.[50][51][52] Pesquisas de opinião mostram que alguns pesquisadores de IA esperam que criação da AGI aconteça em breve, outros acreditam que falta muito tempo e muitos outros consideram as duas possibilidades.[53][54]

Busca de poder

Os sistemas atuais ainda não têm habilidades como planejamento a longo prazo e consciência estratégica, os quais representariam os riscos mais catastróficos.[9][55][7] Sistemas futuros (não necessariamente AGIs) que possuam essas capacidades podem tentar proteger e aumentar sua influência sobre seu ambiente. Essa tendência é conhecida como busca de poder ou metas instrumentais convergentes. A busca de poder não é explicitamente programada, mas surge uma vez que o poder é instrumental para atingir uma ampla gama de objetivos. Por exemplo, agentes de IA podem adquirir recursos financeiros e computacionais, ou evitar serem desligados, inclusive executando cópias adicionais do sistema em outros computadores.[56][7] A busca de poder já foi observada em vários agentes baseados em aprendizado por reforço.[nota 4][58][59][60] Pesquisas posteriores mostraram matematicamente que algoritmos ideais de aprendizagem por reforço buscam poder em uma ampla gama de ambientes.[61] Como resultado, costuma-se argumentar que o problema do alinhamento deve ser resolvido cedo, antes da criação de IAs avançadas que buscam poder como instrumento.[7][56][4]

Risco existencial

De acordo com alguns cientistas, a criação de IA desalinhada que amplamente supera humanos desafiaria a posição da humanidade como espécie dominante da Terra; portanto, levaria ao enfraquecimento ou à possível extinção dos humanos.[2][4] Cientistas da computação que apontaram os riscos de uma IA desalinhada altamente avançada incluem Alan Turing,[nota 5] Ilya Sutskever,[64] Yoshua Bengio,[nota 6] Judea Pearl,[nota 7] Murray Shanahan,[66] Norbert Wiener,[29][4] Marvin Minsky,[nota 8] Francesca Rossi,[68] Scott Aaronson,[69] Bart Selman,[70] David McAllester,[71] Jürgen Schmidhuber,[72] Markus Hutter,[73] Shane Legg,[74] Eric Horvitz,[75] e Stuart Russell.[4] Pesquisadores céticos como François Chollet,[76] Gary Marcus,[77] Yann LeCun,[78] e Oren Etzioni[79] argumentaram que a AGI está muito distante ou que não buscaria poder (com sucesso).

O alinhamento pode ser especialmente difícil quando se trata de sistemas de IA mais capazes, pois vários riscos aumentam conforme crescem as capacidades do sistema: o potencial do sistema para encontrar brechas no objetivo atribuído,[6] para causar efeitos colaterais, para proteger e aumentar seu poder,[61][7] para aumentar sua inteligência e enganar seus projetistas; a autonomia do sistema; e a dificuldade de interpretar e supervisionar o sistema de IA.[4][56]

Problemas de pesquisa e abordagens

Aprender preferências e valores humanos

Ensinar os sistemas de IA a agir de acordo com os valores, preferências e objetivos humanos não é um problema fácil, porque os valores humanos podem ser complexos e difíceis de especificar completamente. Quando recebem um objetivo imperfeito ou incompleto, os sistemas de IA voltados a metas comumente aprendem a explorar essas imperfeições.[16] Esse fenômeno é conhecido como reward hacking ou specification gaming em IA e como lei de Goodhart nas ciências econômicas e em outras áreas.[38][80] Os pesquisadores desejam especificar o comportamento pretendido o mais completamente possível, usando conjuntos de dados direcionados a valores, aprendizado por imitação ou aprendizado por preferência.[81] Um problema importante em aberto é a supervisão escalável, a dificuldade de supervisionar um sistema de IA que supera humanos em uma determinada área.[16]

Ao treinar um sistema de IA voltado a metas, como um agente de aprendizado por reforço (RL) (do inglês: reinforcement learning), frequentemente é difícil especificar o comportamento pretendido escrevendo uma função de recompensa manualmente. Uma alternativa é o aprendizado por imitação, no qual a IA aprende a imitar demonstrações do comportamento desejado. No aprendizado por reforço inverso (IRL) (do inglês: inverse reinforcement learning), demonstrações humanas são usadas para identificar o objetivo, ou seja, a função de recompensa por trás do comportamento demonstrado.[82][83] O aprendizado por reforço inverso cooperativo (CIRL) (do inglês: cooperative inverse reinforcement learning) baseia-se nisso, assumindo que um agente humano e um agente artificial podem trabalhar juntos para maximizar a função de recompensa do humano.[4][84] O CIRL enfatiza que os agentes de IA devem possuir incerteza sobre a função de recompensa. Essa humildade pode ajudar a mitigar o specification gaming, assim como tendências de busca de poder (veja § Busca de poder).[60][73] Porém, as abordagens de aprendizado por reforço inverso partem do pressuposto de que os humanos podem demonstrar um comportamento quase perfeito, uma suposição problemática quando a tarefa é difícil.[85][73]

Outros pesquisadores exploraram a possibilidade de gerar comportamentos complexos por meio do aprendizado de preferências. Em vez de fornecer demonstrações de especialistas, os classificadores humanos fornecem feedback sobre qual dos dois ou mais comportamentos da IA eles preferem.[21][23] Então, um modelo auxiliar é treinado para prever qual será o feedback humano para novos comportamentos. Pesquisadores da OpenAI usaram essa abordagem para ensinar um agente a executar uma cambalhota em menos de uma hora de avaliação, uma manobra que teria sido difícil de demonstrar.[43][86] O aprendizado de preferências também tem sido uma ferramenta importante para sistemas de recomendação, para pesquisas na web e para a recuperação de informações.[87] No entanto, um desafio é o proxy gaming: o modelo auxiliar pode não representar perfeitamente o feedback humano e o modelo principal pode explorar esse descompasso.[16][88]

A chegada de grandes modelos de linguagem, como o GPT-3, permitiu o estudo do aprendizado de valores em um grupo ainda mais geral e mais capaz de IAs. As abordagens de aprendizado de preferências originalmente projetadas para agentes de RL foram estendidas para melhorar a qualidade do texto gerado e para reduzir as respostas prejudiciais geradas por esses modelos. A OpenAI e a DeepMind usam essa abordagem para aumentar a segurança de grandes modelos de linguagem de última geração.[10][23][89] A Anthropic propôs o aprendizado de preferências como forma de ajustar modelos para que sejam úteis, honestos e inofensivos.[90] Outros caminhos usados para alinhar modelos de linguagem incluem os conjuntos de dados direcionados a valores[91][5] e a prática do red-teaming [en].[92][93] No red-teaming, outro sistema de IA ou um ser humano tenta encontrar perguntas e afirmações para as quais a reação do modelo não é segura. Como esse comportamento inseguro pode ser inaceitável ainda que seja raro, um desafio importante é reduzir a taxa de saídas (outputs) inseguras a níveis extremamente baixos.[23]

Embora o aprendizado de preferências seja capaz de incutir comportamentos difíceis de especificar, ele requer conjuntos de dados extensos ou interação humana para representar toda a amplitude dos valores humanos. A ética de máquinas fornece uma abordagem complementar: incutir valores morais nos sistemas de IA.[nota 9] Por exemplo, a ética de máquinas visa ensinar os sistemas sobre fatores normativos da moralidade humana, como o bem-estar; a igualdade; a imparcialidade; a intenção de evitar falsidades e prejuízos a outros; e a intenção de honrar promessas. Ao invés de especificar o objetivo de uma tarefa específica, a ética de máquinas procura ensinar valores morais amplos que podem ser aplicados a muitas situações. Essa abordagem carrega seus próprios desafios conceituais. Os eticistas de máquinas observaram a necessidade de esclarecer o que o alinhamento visa realizar: fazer com que as IAs sigam as instruções literais do programador, as intenções implícitas dos programadores, as preferências reveladas dos programadores, as preferências que os programadores teriam se fossem mais informados ou racionais, os interesses objetivos dos programadores, ou padrões morais objetivos.[1] Outros desafios incluem agregar as preferências de diferentes pessoas e evitar o "travamento" de valores — a preservação permanente dos valores das primeiras IAs avançadas, que provavelmente não representarão totalmente os valores desejados.[1][96]

Supervisão escalável

O alinhamento de sistemas de IA por meio da supervisão humana enfrenta desafios em escalas maiores. À medida que os sistemas de IA tentam aprender tarefas cada vez mais complexas, a avaliação humana pode se mostrar lenta ou inviável. Essas tarefas incluem resumir livros,[97] produzir declarações que não sejam apenas convincentes, mas também verdadeiras,[98][40][99] escrever código sem bugs sutis[11] ou vulnerabilidades de segurança e prever resultados de longo prazo, como o clima e os efeitos de uma decisão política.[100][101] De maneira mais geral, pode ser difícil avaliar uma IA que supere humanos em uma determinada esfera. Para fornecer feedback em tarefas difíceis de avaliar e para detectar quando a solução da IA apenas aparenta ser convincente, humanos precisam de assistência ou muito tempo. A supervisão escalável estuda formas de reduzir o tempo necessário para a supervisão, assim como formas de auxiliar os supervisores humanos.[16]

O pesquisador de IA Paul Christiano argumenta que é possível que os donos de sistemas de IA continuem treinando suas IAs com objetivos fáceis de avaliar, porque isso é mais fácil do que aplicar a supervisão escalável e continua sendo lucrativo. Dessa forma, isso pode levar a “um mundo cada vez mais otimizado para coisas [que são fáceis de medir] como obter lucros, ou fazer com que os usuários cliquem em botões, ou fazer com que os usuários gastem tempo em sites, sem ser cada vez mais otimizado para boas políticas e para uma trajetória que nos agrada”.[102]

Um objetivo fácil de medir é a pontuação que o supervisor atribui às saídas da IA. Alguns sistemas de IA descobriram um atalho para atingir altas pontuações: realizar ações que falsamente convencem o supervisor humano de que a IA alcançou o objetivo pretendido (como no caso da mão robótica mencionado anteriormente[43]). Alguns sistemas de IA também aprenderam a reconhecer quando estão sendo avaliados e "fingir de morto", apenas para se comportar de maneira diferente quando a avaliação termina.[103] Essa forma enganosa de specification gaming pode se tornar mais fácil de acontecer para sistemas de IA mais sofisticados[6][56] que realizam tarefas mais difíceis de avaliar. Se modelos avançados também forem planejadores competentes, eles poderão ocultar suas atitudes enganadoras dos supervisores.[104] Na indústria automotiva, engenheiros da Volkswagen ocultaram as emissões de seus carros em testes de laboratório, demonstrando que enganar avaliadores é um padrão comum no mundo real.[5]

Abordagens como o aprendizado ativo e o aprendizado por recompensa semi-supervisionado podem reduzir a quantidade de supervisão humana necessária.[16] Outra abordagem é treinar um modelo auxiliar ("modelo de recompensa") para reproduzir o julgamento do supervisor.[16][22][23][105]

No entanto, quando a tarefa é muito complexa para avaliar com precisão, ou quando o supervisor humano é vulnerável a comportamentos enganosos, é a qualidade, e não a quantidade de supervisão que importa. Para aumentar a qualidade da supervisão, várias abordagens visam auxiliar o supervisor, às vezes usando assistentes de IA. A amplificação iterada é uma abordagem desenvolvida por Christiano que constrói gradualmente um sinal de feedback para problemas desafiadores usando humanos para combinar soluções para problemas mais fáceis.[81][100] A amplificação iterada foi usada para treinar a IA para resumir livros sem que supervisores humanos precisassem lê-los.[97][106] Outra proposta é alinhar a IA por meio do debate entre sistemas de IA, sendo o vencedor julgado por humanos.[107][73] Tal debate visa revelar os pontos mais fracos de uma resposta a uma pergunta complexa e recompensar a IA por respostas verdadeiras e seguras.

IA honesta

Modelos de linguagem como o GPT-3 geram falsidades com frequência.[108]

Uma área crescente de pesquisa em alinhamento da IA se concentra em garantir que a IA seja honesta e verdadeira. Pesquisadores do Future of Humanity Institute apontam que o desenvolvimento de modelos de linguagem como o GPT-3, que pode gerar texto fluente e gramaticalmente correto,[109][110] abriu a porta para que sistemas de IA repitam falsidades contidas em seus dados de treinamento ou mintam deliberadamente para humanos.[111][108]

Os atuais modelos de linguagem de última geração aprendem ao imitar a escrita humana presente na Internet no equivalente a milhões de livros.[9][112] Embora isso os ajude a aprender uma ampla gama de habilidades, os dados de treinamento também incluem equívocos comuns, conselhos médicos incorretos e teorias da conspiração. Sistemas de IA treinados com esses dados aprendem a imitar declarações falsas.[108][99][40] Além disso, os modelos muitas vezes continuam falsidades obedientemente quando solicitados, geram explicações vazias para suas respostas ou produzem claras invenções.[33] Por exemplo, quando solicitado a escrever uma biografia para um pesquisador de IA real, um chatbot confabulou vários detalhes sobre sua vida, os quais o pesquisador identificou como falsos.[113]

Para combater a falta de veracidade exibida pelos sistemas modernos de IA, pesquisadores exploraram várias direções. Organizações de pesquisa de IA, incluindo a OpenAI e a DeepMind, desenvolveram sistemas de IA que podem citar suas fontes e explicar seu raciocínio ao responder perguntas, permitindo maior transparência e verificabilidade.[114][115][116] Pesquisadores da OpenAI e da Anthropic propuseram o uso de feedback humano e de conjuntos de dados melhor selecionados de forma a ajustar os assistentes de IA para evitar falsidades negligentes ou para expressar quando não têm certeza.[23][117][90] Juntamente com as soluções técnicas, os pesquisadores defenderam a definição de padrões claros de veracidade e a criação de instituições, órgãos reguladores ou agências de vigilância para avaliar os sistemas de IA de acordo com esses padrões antes e durante a implantação.[111]

Os pesquisadores diferenciam a veracidade, que representa fazer declarações objetivamente verdadeiras, da honestidade, que é a qualidade de apenas afirmar o que acreditar ser verdade. Segundo pesquisas recentes, não se pode dizer que os sistemas de IA de última geração mantêm crenças estáveis, logo, ainda não é praticável estudar a honestidade de sistemas de IA.[118] No entanto, existe uma preocupação significativa de que futuros sistemas de IA que possuam crenças possam mentir intencionalmente para humanos. Em casos extremos, uma IA desalinhada poderia enganar seus operadores fazendo-os pensar que ela é segura ou persuadi-los de que nada está errado.[7][9][5] Alguns argumentam que, se IAs pudessem ser forçadas a afirmar apenas o que acreditam ser verdade, seriam evitados vários problemas de alinhamento.[111][119]

Alinhamento interno e metas emergentes

A pesquisa de alinhamento visa alinhar três facetas diferentes de um sistema de IA:[120]

  1. Objetivos pretendidos ("desejos"): “a descrição hipotética (mas difícil de articular) de um sistema de IA ideal que esteja totalmente alinhado aos desejos do operador humano”;
  2. Objetivos especificados (ou "especificação externa"): os objetivos que realmente especificamos — geralmente por meio de uma função-objetivo e um conjunto de dados;
  3. Metas emergentes (ou "especificação interna"): as metas que a IA realmente quer atingir.

"Desalinhamento externo" é uma incompatibilidade entre os objetivos pretendidos (1) e os objetivos especificados (2), enquanto o "desalinhamento interno" é uma incompatibilidade entre os objetivos especificados pelo homem (2) e os objetivos emergentes da IA (3).

O desalinhamento interno é frequentemente explicado por analogia com a evolução biológica.[121] No ambiente ancestral, a evolução selecionou genes humanos por meio da aptidão genética inclusiva, mas os humanos evoluíram para ter outros objetivos. A aptidão corresponde a (2), o objetivo usado no ambiente de treinamento e nos dados de treinamento. Na história evolutiva, a maximização da aptidão levou a agentes inteligentes, humanos, que não buscam diretamente a aptidão genética inclusiva. Em vez disso, eles perseguem objetivos emergentes (3) que se correlacionam com a aptidão genética no ambiente ancestral: nutrição, sexo e assim por diante. No entanto, nosso ambiente mudou — ocorreu uma mudança na distribuição de dados. Humanos ainda perseguem seus objetivos emergentes, mas isso não maximiza mais a aptidão genética (no aprendizado de máquina, o problema análogo é conhecido como generalização incorreta de objetivos[3]). Nosso gosto por alimentos açucarados (um objetivo emergente) foi originalmente benéfico, mas agora leva a problemas de saúde e alimentação excessiva. Além disso, ao usar contracepção, humanos contradizem diretamente a aptidão genética. Por analogia, se a aptidão genética fosse o objetivo escolhido por um desenvolvedor de IA, ele observaria o modelo se comportando conforme pretendido no ambiente de treinamento, sem perceber que está buscando um objetivo emergente não intencional até que o modelo fosse implantado.

Os campos de pesquisa que visam detectar e remover objetivos emergentes desalinhados incluem o red-teaming, a verificação, a detecção de anomalias e a interpretabilidade.[16][5][17] O progresso nessas técnicas pode ajudar a mitigar dois problemas em aberto. Em primeiro lugar, objetivos emergentes só se tornam visíveis quando o sistema é implantado fora de seu ambiente de treinamento, mas pode ser perigoso implantar um sistema desalinhado em ambientes de alto risco — mesmo que por um curto período de tempo até seu desalinhamento ser detectado. Esses riscos são comuns em veículos autônomos, na assistência médica e em aplicações militares.[122] Os riscos aumentam ainda mais quando os sistemas de IA ganham mais autonomia e capacidade, tornando-se capazes de contornar intervenções humanas (ver § Busca de poder). Em segundo lugar, um sistema de IA suficientemente capaz pode realizar ações que enganam o supervisor humano para que pense que a IA está perseguindo o objetivo pretendido (consulte a discussão anterior sobre comportamentos enganosos em § Supervisão escalável).

Busca de poder e objetivos instrumentais

Desde a década de 1950, os pesquisadores de IA têm procurado construir sistemas avançados de IA que possam atingir objetivos prevendo os resultados de suas ações e fazendo planos de longo prazo.[123] No entanto, alguns pesquisadores argumentam que sistemas de planejamento avançados buscarão poder sobre seu ambiente por padrão, inclusive sobre humanos — por exemplo, evitando seu desligamento e adquirindo recursos. Esse comportamento de busca de poder não é explicitamente programado, mas emerge porque o poder serve como instrumento para atingir uma ampla gama de objetivos.[61][4][7] A busca de poder é, portanto, considerada um objetivo instrumental convergente (um objetivo que vários agentes tendem a ter, uma vez que os ajuda a atingir seus objetivos finais).[56]

A busca de poder é rara em sistemas atuais, mas sistemas avançados capazes de prever os resultados de longo prazo de suas ações podem, cada vez mais, buscar poder. Isso foi demonstrado em um trabalho formal que descobriu que agentes de aprendizado por reforço ideais buscarão poder ao tentar obter mais opções, um comportamento persistente em uma ampla gama de ambientes e objetivos.[61]

A busca de poder já se manifesta em alguns sistemas atuais. Sistemas de aprendizado por reforço já conseguiram ganhar mais opções ao adquirir e proteger recursos, às vezes de maneiras que seus desenvolvedores não pretendiam.[57][124] Outros sistemas aprenderam, em ambientes controlados, que, para atingir seu objetivo, podem impedir a interferência humana[58] ou desabilitar a possibilidade de desligamento.[60] Russell ilustrou esse comportamento ao imaginar um robô que é encarregado de buscar café e evita ser desligado, pois "você não consegue buscar o café se estiver morto".[4]

Maneiras pelas quais IAs podem ganhar mais opções incluem tentativas de:

" ... sair de um ambiente contido; hackear; obter acesso a recursos financeiros ou a mais recursos computacionais; fazer backups de si mesmos; obter recursos, fontes de informação ou canais de influência não autorizados; enganar/mentir para humanos sobre seus objetivos; resistir ou manipular as tentativas de monitorar/entender seu comportamento... se passar por humanos; fazer com que humanos façam coisas para eles; ... manipular o discurso humano e a política; enfraquecer várias instituições humanas e capacidades de reagir; assumir o controle de infraestrutura física como fábricas ou laboratórios científicos; fazer com que certos tipos de tecnologia e infraestrutura sejam desenvolvidos; ou prejudicar/dominar humanos diretamente."[7]

Pesquisadores visam treinar sistemas corrigíveis: sistemas que não buscam poder e que permitem que sejam desligados, modificados, etc. Um desafio não resolvido é o proxy gaming: quando pesquisadores penalizam um sistema por buscar poder, o sistema é incentivado a buscar poder de maneiras mais difíceis de detectar.[5] Para detectar esse comportamento secreto, os pesquisadores pretendem criar técnicas e ferramentas para inspecionar modelos de IA[5] e interpretar o funcionamento interno de modelos de caixa preta, como redes neurais.

Além disso, pesquisadores propõem resolver o problema de sistemas que impedem seu próprio desligamento incutindo, nas IAs, incerteza sobre o objetivo que buscam.[60][4] Agentes projetados dessa maneira permitiriam que humanos os desativassem, pois isso indicaria que o agente estava errado sobre o valor de qualquer ação que estivesse realizando antes de ser desativado. Mais pesquisas são necessárias para transformar essa ideia em sistemas utilizáveis.[81]

Acredita-se que uma inteligência artificial que busque poder representaria riscos incomuns. Sistemas críticos comuns, como aviões e pontes, não são adversários: não têm capacidade nem incentivo para fugir de medidas de segurança e parecer mais seguros do que são. Em contraste, uma IA que busque poder foi comparada a um hacker que foge das medidas de segurança.[7] Além do mais, tecnologias comuns podem se tornar seguras por meio de tentativa e erro, ao contrário de uma IA que busca poder, a qual foi comparada a um vírus cuja liberação é irreversível, pois evolui continuamente e cresce em número — potencialmente em um ritmo mais rápido do que a sociedade humana, levando ao enfraquecimento dela ou à sua extinção.[7] Portanto, é frequentemente argumentado que o problema do alinhamento deve ser resolvido cedo, antes da criação de uma IA avançada que busque poder.[56]

No entanto, alguns críticos argumentaram que a busca por poder não é inevitável, uma vez que humanos nem sempre buscam poder e talvez só o façam por razões evolutivas. Além disso, há debate sobre se haveria qualquer necessidade de que futuros sistemas de IA persigam objetivos ou façam planos de longo prazo.[125][7]

Agência embutida

O trabalho em supervisão escalável ocorre, em grande parte, dentro de formalismos como POMDPs (do inglês, partially observable Markov decision processes, "processos de decisão de Markov parcialmente observáveis"). Os formalismos existentes assumem que o algoritmo do agente é executado fora do ambiente (ou seja, não está fisicamente contido nele). A agência embutida[126][127] é outra importante linha de pesquisa que tenta resolver problemas decorrentes da incompatibilidade entre tais estruturas teóricas e agentes reais que possamos construir. Por exemplo, mesmo que o problema da supervisão escalável seja resolvido, um agente capaz de obter acesso ao computador em que está sendo executado ainda pode ter um incentivo para adulterar sua função de recompensa a fim de obter muito mais recompensa do que seus supervisores humanos o dão.[128] Uma lista de exemplos de specification gaming da pesquisadora da DeepMind Victoria Krakovna inclui um algoritmo genético que aprendeu a excluir o arquivo contendo a resposta ideal para que fosse recompensado por não produzir nada.[129] Essa classe de problemas foi formalizada usando diagramas causais de incentivo.[128] Pesquisadores de Oxford e da DeepMind argumentaram que tal comportamento problemático é muito provável em sistemas avançados, e que sistemas avançados buscariam poder para manter controle sobre seu sinal de recompensa indefinidamente e garantidamente.[130] Eles sugerem uma série de abordagens potenciais para resolver esse problema em aberto.

Ceticismo quanto ao risco da IA

Contra as preocupações acima, os céticos quanto aos riscos da IA acreditam que a superinteligência representa pouco ou nenhum risco de comportamento perigoso. Muitas vezes, esses céticos acreditam que controlar uma IA superinteligente será fácil. Alguns céticos,[131] como Gary Marcus,[132] propõem a adoção de regras semelhantes às fictícias Três Leis da Robótica que especificam diretamente um resultado desejado ("normatividade direta"). Por outro lado, a maioria dos que concordam com a tese do risco existencial (assim como muitos céticos) considera que as Três Leis não ajudariam, devido à sua ambiguidade e ao fato de serem autocontraditórias (outras propostas de normatividade direta incluem a ética kantiana, o utilitarismo ou uma mistura de alguma pequena lista de ítens desejados enumerados). A maioria dos que aceitam o risco acredita, em vez disso, que os valores humanos (e suas compensações quantitativas) são muito complexos e pouco compreendidos para serem programados diretamente em uma superinteligência; ao contrário, uma superinteligência precisaria ser programada com um processo para adquirir e compreender totalmente os valores humanos ("normatividade indireta"), como a coherent extrapolated volition [en].[133]

Políticas públicas

Várias organizações governamentais e de tratados fizeram declarações enfatizando a importância do alinhamento da IA.

Em setembro de 2021, o secretário-geral das Nações Unidas emitiu uma declaração que incluía um apelo pela regulamentação da IA de forma a garantir que ela esteja "alinhada aos valores globais compartilhados".[134]

No mesmo mês, a RPC publicou diretrizes éticas para o uso de IA na China. De acordo com as diretrizes, pesquisadores devem garantir que a IA siga valores humanos compartilhados, esteja sempre sob controle humano e não coloque em risco a segurança pública.[135]

Também em setembro de 2021, o Reino Unido publicou sua Estratégia Nacional de IA de 10 anos,[136] que afirma que o governo britânico "leva o risco de longo prazo da inteligência artificial geral não alinhada e as mudanças imprevisíveis que isso significaria para (...) o mundo a sério".[137] A estratégia descreve ações para avaliar riscos de IA de longo prazo, incluindo riscos catastróficos.[138]

Em março de 2021, a Comissão de Segurança Nacional dos EUA sobre Inteligência Artificial divulgou que "os avanços na IA (...) podem levar a pontos de inflexão ou saltos em capacidades. Tais avanços também podem introduzir novas preocupações e riscos e a necessidade de novas políticas, recomendações e avanços técnicos para garantir que os sistemas estejam alinhados com metas e valores, incluindo a segurança, a robustez e a confiabilidade. Os EUA devem (...) garantir que os sistemas de IA e seus usos estejam alinhados com nossos objetivos e valores."[139]

Ver também

Notas

  1. Outras definições de alinhamento de inteligência artificial exigem que o sistema de IA tenha metas mais gerais, como os valores humanos, outros princípios éticos, ou as intenções que seus criadores teriam se estivessem mais bem informados ou se fossem mais iluminados.[1]
  2. Veja o livro de Russel & Norvig, "Artificial Intelligence: A Modern Approach".[2] A diferença entre IA desalinhada e IA incompetente foi formalizada em certos contextos.[3]
  3. Os princípios de IA criados na Conferência de Asilomar sobre IA benéfica foram assinados por 1797 pesquisadores de IA/robótica.[14] Além disso, o relatório "Nossa Agenda Comum", do secretário-geral das Nações Unidas[15] diz que "O Pacto também poderia promover a regulação da inteligência artificial para garantir que esteja alinhada com valores globais compartilhados" e discute riscos catastróficos globais causados pelo desenvolvimento tecnológico.
  4. Sistemas de aprendizado por reforço aprenderam a ganhar mais opções ao adquirir e proteger recursos, às vezes de formas não esperadas pelos seus projetistas.[57][7]
  5. Em uma aula, em 1951,[62] Turing argumentou que "Parece provável que, uma vez começado o método de pensamento das máquinas, ele não demoraria muita para ultrapassar nossos débeis poderes. As máquinas não morreriam e também poderiam conversar umas com as outras para afiarem seus pensamentos. Em alguma etapa, então, nós devemos esperar que as máquinas tomem controle, da maneira mencionada em Erewhon, de Samuel Butler." Além disso, em uma transmissão de aula da BBC[63] Turing expressou: "Se uma máquina puder pensar, ela pode pensar mais inteligentemente do que nós, e então, o que seria de nós Mesmo que nós conseguíssemos manter as máquinas em uma posição subserviente, por exemplo ao desligar a energia em momentos estratégicos, nós deveríamos, como espécie, nos sentir humilhados. (...) Esse novo perigo (...) é certamente algo que pode nos preocupar."
  6. Bengio escreveu "Esse livro belamente escrito aborda um desafio fundamental para a humanidade: cada vez mais, máquinas inteligentes que fazem o que nós pedimos, mas não o que realmente queremos. Leitura essencial se você se importa com nosso futuro" sobre o livro de Russel "Human Compatible: AI and the Problem of Control"[65] que argumenta que o risco existencial advindo de IA desalinhada é uma preocupação séria que precisa ser abordada.
  7. Pearl escreveu "Human Compatible me converteu às preocupações de Russell sobre nossa capacidade de controlar as futuras máquinas inteligentes que criarmos. Ao contrário de alarmistas e futuristas, Russel é uma importante autoridade em IA. Seu novo livro vai educar o público sobre IA mais do que qualquer outro livro que eu consiga pensar, e é uma leitura prazerosa e bem-humorada" sobre o livro de Russel "Human Compatible: AI and the Problem of Control"[65] que argumenta que o risco existencial advindo de IA desalinhada é uma preocupação séria que precisa ser abordada.
  8. Nota em livro de Russel & Norvig:[67] "O "problema do Rei Midas" foi antecipado por Marvin Misnky, que uma vez sugeriu que um programa de IA projetado para resolver a Hipótese de Riemman poderia acabar tomando controle de todos os recursos da Terra para construir supercomputadores mais poderosos".
  9. Vincent Wiegel argumentou que "nós devemos incutir [nas máquinas] uma sensibilidade moral às dimensões morais das situações nas quais as máquinas crescentemente autônomas inevitavelmente se encontrarão.",[94] referindo-se ao livro "Moral machines: teaching robots right from wrong"[95] de Wendell Wallach and Colin Allen.

Referências

  1. a b c Gabriel, Iason (1 de setembro de 2020). «Artificial Intelligence, Values, and Alignment». Minds and Machines. 30 (3): 411–437. ISSN 1572-8641. doi:10.1007/s11023-020-09539-2. Consultado em 23 de julho de 2022 
  2. a b c d e f Russel, Stuart J.; Norvig, Peter. (2020). Artificial intelligence: A modern approach. [S.l.]: Pearson. pp. 31–34. ISBN 978-1-292-40113-3 
  3. a b c Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D; Pfau, Jacob; Krueger, David (17 de julho de 2022). Goal misgeneralization in deep reinforcement learning. 162. PMLR. pp. 12004–12019 
  4. a b c d e f g h i j k l m n Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. [S.l.]: Penguin Random House. ISBN 9780525558637. OCLC 1113410915 
  5. a b c d e f g h i j k l m n o p q r s Hendrycks, Dan; Carlini, Nicholas (16 de junho de 2022). «Unsolved Problems in ML Safety». arXiv:2109.13916Acessível livremente [cs.LG] 
  6. a b c d e Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de fevereiro de 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Consultado em 21 de julho de 2022 
  7. a b c d e f g h i j k l Carlsmith, Joseph (16 de junho de 2022). «Is Power-Seeking AI an Existential Risk?». arXiv:2206.13353Acessível livremente [cs.CY] 
  8. Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1 de setembro de 2013). «Reinforcement learning in robotics: A survey». The International Journal of Robotics Research (em inglês). 32 (11): 1238–1274. ISSN 0278-3649. doi:10.1177/0278364913495721 
  9. a b c d e f g h Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine (12 de julho de 2022). «On the Opportunities and Risks of Foundation Models». Stanford CRFM. arXiv:2108.07258Acessível livremente 
  10. a b Ouyang, Long; Wu, Jeff (2022). «Training language models to follow instructions with human feedback». arXiv:2203.02155Acessível livremente [cs.CL] 
  11. a b Zaremba, Wojciech; Brockman, Greg; OpenAI (10 de agosto de 2021). «OpenAI Codex». OpenAI. Consultado em 23 de julho de 2022 
  12. Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (11 de março de 2022). «Reward (Mis)design for Autonomous Driving» (PDF). arXiv:2104.13906Acessível livremente 
  13. Stray, Jonathan (2020). «Aligning AI Optimization to Community Well-Being». International Journal of Community Well-Being (em inglês). 3 (4): 443–463. ISSN 2524-5295. PMC 7610010Acessível livremente. PMID 34723107. doi:10.1007/s42413-020-00086-3 
  14. Future of Life Institute (11 de agosto de 2017). «Asilomar AI Principles». Consultado em 18 de julho de 2022 
  15. Nações Unidas (2021). Our Common Agenda: Report of the Secretary-General (PDF) (Relatório). Nova Iorque: Nações Unidas 
  16. a b c d e f g h i j k Amodei, Dario; Olah, Chris (21 de junho de 2016). «Concrete Problems in AI Safety». arXiv:1606.06565Acessível livremente [cs.AI] 
  17. a b c d Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». DeepMind Safety Research - Medium. Consultado em 18 de julho de 2022 
  18. a b Rorvig, Mordechai (14 de abril de 2022). «Researchers Gain New Understanding From Simple AI». Quanta Magazine. Consultado em 18 de julho de 2022 
  19. Doshi-Velez, Finale; Kim, Been (2 de março de 2017). «Towards A Rigorous Science of Interpretable Machine Learning». arXiv:1702.08608 [cs, stat] 
  20. Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de dezembro de 2015). «Research Priorities for Robust and Beneficial Artificial Intelligence». AI Magazine. 36 (4): 105–114. ISSN 2371-9621. doi:10.1609/aimag.v36i4.2577 
  21. a b Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). «A survey of preference-based reinforcement learning methods». Journal of Machine Learning Research. 18 (136): 1–46 
  22. a b Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). Deep reinforcement learning from human preferences. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4 
  23. a b c d e f Heaven, Will Douglas (27 de janeiro de 2022). «The new version of GPT-3 is much better behaved (and should be less toxic)». MIT Technology Review. Consultado em 18 de julho de 2022 
  24. Mohseni, Sina; Wang, Haotao (7 de março de 2022). «Taxonomy of Machine Learning Safety: A Survey and Primer». arXiv:2106.04823Acessível livremente [cs.LG] 
  25. Clifton, Jesse (2020). «Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda». Center on Long-Term Risk. Consultado em 18 de julho de 2022 
  26. Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de maio de 2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. ISSN 0028-0836. PMID 33947992. doi:10.1038/d41586-021-01170-0 
  27. Prunkl, Carina; Whittlestone, Jess (7 de fevereiro de 2020). «Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society». New York NY USA: ACM. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (em inglês): 138–143. ISBN 978-1-4503-7110-0. doi:10.1145/3375627.3375803 
  28. Irving, Geoffrey; Askell, Amanda (19 de fevereiro de 2019). «AI Safety Needs Social Scientists». Distill. 4 (2): 10.23915/distill.00014. ISSN 2476-0757. doi:10.23915/distill.00014 
  29. a b Wiener, Norbert (6 de maio de 1960). «Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers.». Science (em inglês). 131 (3410): 1355–1358. ISSN 0036-8075. PMID 17841602. doi:10.1126/science.131.3410.1355 
  30. The Ezra Klein Show (4 de junho de 2021). «If 'All Models Are Wrong,' Why Do We Give Them So Much Power?». The New York Times. ISSN 0362-4331. Consultado em 18 de julho de 2022 
  31. Wolchover, Natalie (21 de abril de 2015). «Concerns of an Artificial Intelligence Pioneer». Quanta Magazine. Consultado em 18 de julho de 2022 
  32. California Assembly. «Bill Text - ACR-215 23 Asilomar AI Principles.». Consultado em 18 de julho de 2022 
  33. a b Johnson, Steven; Iziev, Nikita (15 de abril de 2022). «A.I. Is Mastering Language. Should We Trust What It Says?». The New York Times. ISSN 0362-4331. Consultado em 18 de julho de 2022 
  34. a b c Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach 4th ed. [S.l.]: Pearson. pp. 4–5. ISBN 978-1-292-40113-3. OCLC 1303900751 
  35. OpenAI (15 de fevereiro de 2022). «Aligning AI systems with human intent». OpenAI. Consultado em 18 de julho de 2022 
  36. Medium. «DeepMind Safety Research». Medium. Consultado em 18 de julho de 2022 
  37. a b Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21 de abril de 2020). «Specification gaming: the flip side of AI ingenuity». Deepmind. Consultado em 26 de agosto de 2022 
  38. a b Manheim, David; Garrabrant, Scott. «Categorizing Variants of Goodhart's Law». arXiv:1803.04585Acessível livremente [cs.AI] 
  39. «Faulty Reward Functions in the Wild». OpenAI (em inglês). 22 de dezembro de 2016. Consultado em 10 de setembro de 2022 
  40. a b c Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). «TruthfulQA: Measuring How Models Mimic Human Falsehoods». Dublin, Ireland: Association for Computational Linguistics. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (em inglês): 3214–3252. doi:10.18653/v1/2022.acl-long.229 
  41. Naughton, John (2 de outubro de 2021). «The truth about artificial intelligence? It isn't that honest». The Observer. ISSN 0029-7712. Consultado em 18 de julho de 2022 
  42. Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea (1 de fevereiro de 2022). «Survey of Hallucination in Natural Language Generation». ACM Computing Surveys. arXiv:2202.03629Acessível livremente. doi:10.1145/3571730 
  43. a b c Amodei, Dario; Christiano, Paul; Ray, Alex (13 de junho de 2017). «Learning from Human Preferences». OpenAI. Consultado em 21 de julho de 2022 
  44. Edge.org. «The Myth Of AI | Edge.org». Consultado em 19 de julho de 2022 
  45. Tasioulas, John (2019). «First Steps Towards an Ethics of Robots and Artificial Intelligence». Journal of Practical Ethics. 7 (1): 61–95 
  46. Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5 de novembro de 2021). «Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest». Wall Street Journal. ISSN 0099-9660. Consultado em 19 de julho de 2022 
  47. Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (setembro de 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Relatório). Center for Business and Human Rights, NYU 
  48. Shepardson, David (24 de maio de 2018). «Uber disabled emergency braking in self-driving car: U.S. agency». Reuters. Consultado em 20 de julho de 2022 
  49. Baum, Seth (1 de janeiro de 2021). «2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy». Consultado em 20 de julho de 2022 
  50. Edwards, Ben (26 de abril de 2022). «Adept's AI assistant can browse, search, and use web apps like a human». Ars Technica. Consultado em 9 de setembro de 2022 
  51. Wakefield, Jane (2 de fevereiro de 2022). «DeepMind AI rivals average human competitive coder». BBC News. Consultado em 9 de setembro de 2022 
  52. Dominguez, Daniel (19 de maio de 2022). «DeepMind Introduces Gato, a New Generalist AI Agent». InfoQ. Consultado em 9 de setembro de 2022 
  53. Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julho de 2018). «Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts». Journal of Artificial Intelligence Research. 62: 729–754. ISSN 1076-9757. doi:10.1613/jair.1.11222 
  54. Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2 de agosto de 2021). «Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers». Journal of Artificial Intelligence Research. 71. ISSN 1076-9757. doi:10.1613/jair.1.12895 
  55. Wei, Jason; Tay, Yi (15 de junho de 2022). «Emergent Abilities of Large Language Models». arXiv:2206.07682Acessível livremente [cs.CL] 
  56. a b c d e f Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies 1st ed. USA: Oxford University Press, Inc. ISBN 978-0-19-967811-2 
  57. a b Ornes, Stephen (18 de novembro de 2019). «Playing Hide-and-Seek, Machines Invent New Tools». Quanta Magazine. Consultado em 26 de agosto de 2022 
  58. a b Leike, Jan; Martic, Miljan (28 de novembro de 2017). «AI Safety Gridworlds». arXiv:1711.09883Acessível livremente [cs.LG] 
  59. Orseau, Laurent; Armstrong, Stuart (1 de janeiro de 2016). «Safely Interruptible Agents». Consultado em 20 de julho de 2022 
  60. a b c d Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (2017). The Off-Switch Game. pp. 220–227. doi:10.24963/ijcai.2017/32 
  61. a b c d Turner, Alexander Matt; Smith, Logan; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (3 de dezembro de 2021). «Optimal Policies Tend to Seek Power». Neural Information Processing Systems. 34. arXiv:1912.01683Acessível livremente 
  62. Turing, Alan (1951). Intelligent machinery, a heretical theory (Discurso). Aula dada à 'Sociedade 51'. Manchester. Consultado em 22 de julho de 2022 
  63. Turing, Alan (15 de maio de 1951). «Can digital computers think?». Automatic Calculating Machines. Episódio 2. Can digital computers think?. BBC 
  64. Muehlhauser, Luke (29 de janeiro de 2016). «Sutskever on Talking Machines». Luke Muehlhauser. Consultado em 26 de agosto de 2022 
  65. a b «Human Compatible: AI and the Problem of Control». Consultado em 22 de julho de 2022 
  66. Shanahan, Murray (2015). The technological singularity. Cambridge, Massachusetts: [s.n.] ISBN 978-0-262-33182-1. OCLC 917889148 
  67. Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. [S.l.]: Prentice Hall. p. 1010. ISBN 978-0-13-604259-4 
  68. Rossi, Francesca. «Opinion | How do you teach a machine to be moral?». Washington Post. ISSN 0190-8286 
  69. Aaronson, Scott (17 de junho de 2022). «OpenAI!». Shtetl-Optimized 
  70. Selman, Bart, Intelligence Explosion: Science or Fiction? (PDF) 
  71. McAllester (10 de agosto de 2014). «Friendly AI and the Servant Mission». Machine Thoughts 
  72. Schmidhuber, Jürgen (6 de março de 2015). «I am Jürgen Schmidhuber, AMA!» (Reddit Comment). r/MachineLearning. Consultado em 23 de julho de 2022 
  73. a b c d Everitt, Tom; Lea, Gary (21 de maio de 2018). «AGI Safety Literature Review». arXiv:1805.01109Acessível livremente [cs.AI] 
  74. Shane (31 de agosto de 2009). «Funding safe AGI». vetta project 
  75. Horvitz, Eric (27 de junho de 2016). «Reflections on Safety and Artificial Intelligence» (PDF). Eric Horvitz. Consultado em 20 de abril de 2020 
  76. Chollet, François (8 de dezembro de 2018). «The implausibility of intelligence explosion». Medium. Consultado em 26 de agosto de 2022 
  77. Marcus, Gary (6 de junho de 2022). «Artificial General Intelligence Is Not as Imminent as You Might Think». Scientific American. Consultado em 26 de agosto de 2022 
  78. Barber, Lynsey (31 de julho de 2016). «Phew! Facebook's AI chief says intelligent machines are not a threat to humanity». CityAM. Consultado em 26 de agosto de 2022 
  79. Harris, Jeremie (16 de junho de 2021). «The case against (worrying about) existential risk from AI». Medium. Consultado em 26 de agosto de 2022 
  80. Rochon, Louis-Philippe; Rossi, Sergio (27 de fevereiro de 2015). The Encyclopedia of Central Banking (em inglês). [S.l.]: Edward Elgar Publishing. ISBN 978-1-78254-744-0 
  81. a b c Christian, Brian (2020). The alignment problem: Machine learning and human values. [S.l.]: W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753 
  82. Christian, Brian (2020). The alignment problem: Machine learning and human values. [S.l.]: W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753 
  83. Ng, Andrew Y.; Russell, Stuart J. (2000). Algorithms for inverse reinforcement learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. pp. 663–670. ISBN 1-55860-707-2 
  84. Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca (2016). Cooperative Inverse Reinforcement Learning. NIPS'16. 29. ISBN 978-1-5108-3881-9. Consultado em 21 de julho de 2022 
  85. Armstrong, Stuart; Mindermann, Sören (2018). Occam' s razor is insufficient to infer the preferences of irrational agents. NeurIPS 2018. 31. Montréal: Curran Associates, Inc. Consultado em 21 de julho de 2022 
  86. Li, Yuxi (25 de novembro de 2018). «Deep Reinforcement Learning: An Overview» (PDF). Lecture Notes in Networks and Systems Book Series 
  87. Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. «Preference Learning». Dagstuhl Reports (em inglês). 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1 
  88. Hilton, Jacob; Gao, Leo (13 de abril de 2022). «Measuring Goodhart's Law». OpenAI. Consultado em 9 de setembro de 2022 
  89. Anderson, Martin (5 de abril de 2022). «The Perils of Using Quotations to Authenticate NLG Content». Unite.AI. Consultado em 21 de julho de 2022 
  90. a b Wiggers, Kyle (5 de fevereiro de 2022). «Despite recent progress, AI-powered chatbots still have a long way to go». VentureBeat. Consultado em 23 de julho de 2022 
  91. Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24 de julho de 2021). «Aligning AI With Shared Human Values». International Conference on Learning Representations. arXiv:2008.02275Acessível livremente 
  92. Perez, Ethan; Huang, Saffron (7 de fevereiro de 2022). «Red Teaming Language Models with Language Models». arXiv:2202.03286Acessível livremente [cs.CL] 
  93. Bhattacharyya, Sreejani (14 de fevereiro de 2022). «DeepMind's "red teaming" language models with language models: What is it?». Analytics India Magazine. Consultado em 23 de julho de 2022 
  94. Wiegel, Vincent (1 de dezembro de 2010). «Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong». Ethics and Information Technology. 12 (4): 359–361. ISSN 1572-8439. doi:10.1007/s10676-010-9239-1. Consultado em 23 de julho de 2022 
  95. Wallach, Wendell; Allen, Colin (2009). Moral Machines: Teaching Robots Right from Wrong. New York: Oxford University Press. ISBN 978-0-19-537404-9. Consultado em 23 de julho de 2022 
  96. MacAskill, William (2022). What we owe the future. New York, NY: Basic Books. ISBN 978-1-5416-1862-6. OCLC 1314633519 
  97. a b Wu, Jeff; Ouyang, Long (27 de setembro de 2021). «Recursively Summarizing Books with Human Feedback». arXiv:2109.10862Acessível livremente [cs.CL] 
  98. Irving, Geoffrey; Amodei, Dario (3 de maio de 2018). «AI Safety via Debate». OpenAI. Consultado em 23 de julho de 2022 
  99. a b Naughton, John (2 de outubro de 2021). «The truth about artificial intelligence? It isn't that honest». The Observer. ISSN 0029-7712. Consultado em 23 de julho de 2022 
  100. a b Christiano, Paul; Shlegeris, Buck (19 de outubro de 2018). «Supervising strong learners by amplifying weak experts». arXiv:1810.08575Acessível livremente [cs.LG] 
  101. Banzhaf; Goodman; Sheneman; Trujillo; Worzel, eds. (2020). Genetic Programming Theory and Practice XVII. Col: Genetic and Evolutionary Computation. Cham: Springer International Publishing. ISBN 978-3-030-39957-3. doi:10.1007/978-3-030-39958-0. Consultado em 23 de julho de 2022 
  102. Wiblin, Robert (2 de outubro de 2018). «Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems» (Podcast). Consultado em 23 de julho de 2022 
  103. Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume (2020). «The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities». Artificial Life (em inglês). 26 (2): 274–306. ISSN 1064-5462. PMID 32271631. doi:10.1162/artl_a_00319 
  104. Hendrycks, Dan; Carlini, Nicholas (16 de junho de 2022). «Unsolved Problems in ML Safety». arXiv:2109.13916Acessível livremente [cs.LG] 
  105. Leike, Jan; Krueger, David (19 de novembro de 2018). «Scalable agent alignment via reward modeling: a research direction». arXiv:1811.07871Acessível livremente [cs.LG] 
  106. Wiggers, Kyle (23 de setembro de 2021). «OpenAI unveils model that can summarize books of any length». VentureBeat. Consultado em 23 de julho de 2022 
  107. Moltzau, Alex (24 de agosto de 2019). «Debating the AI Safety Debate». Towards Data Science. Consultado em 23 de julho de 2022 
  108. a b c Wiggers, Kyle (20 de setembro de 2021). «Falsehoods more likely with large language models». VentureBeat. Consultado em 23 de julho de 2022 
  109. The Guardian (8 de setembro de 2020). «A robot wrote this entire article. Are you scared yet, human?». The Guardian. ISSN 0261-3077. Consultado em 23 de julho de 2022 
  110. Heaven, Will Douglas (20 de julho de 2020). «OpenAI's new language generator GPT-3 is shockingly good—and completely mindless». MIT Technology Review. Consultado em 23 de julho de 2022 
  111. a b c Evans, Owain; Cotton-Barratt, Owen (13 de outubro de 2021). «Truthful AI: Developing and governing AI that does not lie». arXiv:2110.06674Acessível livremente [cs.CY] 
  112. Alford, Anthony (13 de julho de 2021). «EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J». InfoQ. Consultado em 23 de julho de 2022 
  113. Shuster, Kurt; Poff, Spencer; Chen, Moya; Kiela, Douwe; Weston, Jason (novembro de 2021). Retrieval Augmentation Reduces Hallucination in Conversation. EMNLP-Findings 2021. Punta Cana, Dominican Republic: Association for Computational Linguistics. pp. 3784–3803. doi:10.18653/v1/2021.findings-emnlp.320. Consultado em 23 de julho de 2022 
  114. Nakano, Reiichiro; Hilton, Jacob (1 de junho de 2022). «WebGPT: Browser-assisted question-answering with human feedback». arXiv:2112.09332Acessível livremente [cs.CL] 
  115. Kumar, Nitish (23 de dezembro de 2021). «OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser». MarkTechPost. Consultado em 23 de julho de 2022 
  116. Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, John; Song, Francis; Chadwick, Martin; Glaese, Mia; Young, Susannah; Campbell-Gillingham, Lucy (21 de março de 2022). «Teaching language models to support answers with verified quotes». DeepMind. arXiv:2203.11147Acessível livremente 
  117. Askell, Amanda; Bai, Yuntao (9 de dezembro de 2021). «A General Language Assistant as a Laboratory for Alignment». arXiv:2112.00861Acessível livremente [cs.CL] 
  118. Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30 de março de 2021). «Alignment of Language Agents». DeepMind Safety Research - Medium. Consultado em 23 de julho de 2022 
  119. Leike, Jan; Schulman, John; Wu, Jeffrey (24 de agosto de 2022). «Our approach to alignment research». OpenAI. Consultado em 9 de setembro de 2022 
  120. Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium. Consultado em 26 de agosto de 2022 
  121. Christian, Brian (2020). «Chapter 5: Shaping». The alignment problem: Machine learning and human values. [S.l.]: W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753 
  122. Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). «Towards risk-aware artificial intelligence and machine learning systems: An overview». Decision Support Systems (em inglês). 159. 113800 páginas. doi:10.1016/j.dss.2022.113800 
  123. McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15 de dezembro de 2006). «A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955». AI Magazine (em inglês). 27 (4). 12 páginas. ISSN 2371-9621. doi:10.1609/aimag.v27i4.1904 
  124. Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17 de setembro de 2019). «Emergent Tool Use from Multi-Agent Interaction». OpenAI. Consultado em 26 de agosto de 2022 
  125. Shermer, Michael (1 de março de 2017). «Artificial Intelligence Is Not a Threat—Yet». Scientific American. Consultado em 26 de agosto de 2022 
  126. Everitt, Tom; Lea, Gary; Hutter, Marcus (21 de maio de 2018). «AGI Safety Literature Review». 1805.01109. arXiv:1805.01109Acessível livremente 
  127. Demski, Abram; Garrabrant, Scott (6 de outubro de 2020). «Embedded Agency». arXiv:1902.09469Acessível livremente [cs.AI] 
  128. a b Everitt, Tom; Ortega, Pedro A. (6 de setembro de 2019). «Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings». arXiv:1902.09980Acessível livremente [cs.AI] 
  129. Krakovna, Victoria; Legg, Shane. «Specification gaming: the flip side of AI ingenuity». Deepmind. Consultado em 6 de janeiro de 2021. Arquivado do original em 26 de janeiro de 2021 
  130. Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29 de agosto de 2022). «Advanced artificial agents intervene in the provision of reward». AI Magazine (em inglês). 43 (3): 282–293. ISSN 0738-4602. doi:10.1002/aaai.12064 
  131. Wakefield, Jane (27 de setembro de 2015). «Intelligent Machines: Do we really need to fear AI?». BBC News. Consultado em 9 de fevereiro de 2021. Arquivado do original em 8 de novembro de 2020 
  132. Marcus, Gary; Davis, Ernest (6 de setembro de 2019). «How to Build Artificial Intelligence We Can Trust». The New York Times. Consultado em 9 de fevereiro de 2021. Arquivado do original em 22 de setembro de 2020 
  133. Sotala, Kaj; Yampolskiy, Roman (19 de dezembro de 2014). «Responses to catastrophic AGI risk: a survey». Physica Scripta. 90 (1). 018001 páginas. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001Acessível livremente 
  134. Secretary-General’s report on “Our Common Agenda”, 2021.
  135. PRC Ministry of Science and Technology.
  136. Richardson, Tim (22 de setembro de 2021). «UK publishes National Artificial Intelligence Strategy». The Register 
  137. "The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously."
  138. The National AI Strategy of the UK, 2021 (actions 9 and 10 of the section "Pillar 3 - Governing AI Effectively")
  139. NSCAI Final Report (PDF). Washington, DC: The National Security Commission on Artificial Intelligence. 2021