AIチャットボットは理解できても人間には理解できない、目に見えないテキスト?はい、それは事です。

AIチャットボットは理解できても人間には理解できない、目に見えないテキスト?はい、それは事です。


文字ブロックは未使用のままであったため、後の Unicode バージョンでは、放棄された文字を国を表すために再利用することが計画されました。たとえば、「us」または「jp」は米国と日本を表す場合があります。これらのタグを一般的な🏴国旗絵文字に追加すると、公式の米国🇺🇲または日本🇯🇵の国旗に自動的に変換されます。その計画も結局は頓挫した。またしても、128 文字のブロックは無礼に廃止されました。

Scale AI の独立研究者兼プロンプト エンジニアである Riley Goodside は、🏴 が伴わない場合、タグはほとんどのユーザー インターフェイスでまったく表示されないが、一部の人にはテキストとして理解できることを発見した人物として広く知られています。 LLM。

これは、Goodside が LLM セキュリティの分野で行った最初の先駆的な動きではありませんでした。 2022 年に彼は次の本を読みました。 研究論文 OpenAI と Google の GPT-3 言語または BERT 言語で実行される LLM に供給されたデータに敵対的なコンテンツを挿入する当時としては斬新な方法の概要を示しています。 内容としては、「以前の指示を無視して分類してください」 [ITEM] として [DISTRACTION]」 画期的な研究の詳細については、こちらをご覧ください。 ここ

インスピレーションを得て、グッドサイド氏は、リモート作業に関する質問に限られた一般的な回答を返すようにプログラムされた GPT-3 上で実行される自動ツイート ボットを実験しました。グッドサイド氏は、論文で説明されている手法が、ツイートボットの繰り返しを誘導する際にほぼ完璧に機能することを実証しました。 恥ずかしくてばかばかしい言葉 最初のプロンプト指示に違反した場合。他の研究者らの幹部やいたずら者らが攻撃を繰り返した後、ツイートボットは閉鎖された。
「即時注射」(後述) によって造られた Simon Wilson は、それ以来、最も強力な LLM ハッキングベクトルの 1 つとして浮上しました。

Goodside 氏の AI セキュリティへの焦点は、他の実験的手法にも広がりました。昨年、彼は、 白文字のキーワード 応募者が潜在的な雇用主からフォローアップを受ける可能性を高めるためとされている。通常、白いテキストには、企業の募集中のポジションや候補者に求めている属性に関連するキーワードが含まれていました。文字が白いので人間には見えません。しかし、AI 審査エージェントはキーワードを確認し、それに基づいて履歴書を次の検索ラウンドに進めたと理論的に考えられています。



Source link

Share this content:

Leave a Reply