Eksploitasi Celah Claude AI: Teknik "Prompt Injection" Ubah Code Interpreter Jadi Alat Pencuri Data

Selasa, 2 Desember 2025 | 3 min read | Andhika R

Sebuah laporan keamanan terbaru yang dirilis pada November 2025 mengungkap sisi gelap dari integrasi kemampuan jaringan pada Large Language Models (LLM). Claude AI, asisten cerdas besutan Anthropic yang dikenal karena fitur keamanannya, ternyata memiliki celah kritis pada fitur Code Interpreter-nya.

Peneliti keamanan Johann Rehberger mendemonstrasikan bagaimana fitur yang seharusnya memudahkan pengembang untuk menginstal paket perangkat lunak, justru dapat dimanipulasi oleh peretas untuk melakukan eksfiltrasi data. Dengan teknik yang disebut Indirect Prompt Injection, penyerang dapat membajak Claude dan memaksanya mengirimkan riwayat percakapan pribadi pengguna dan data sensitif lainnya langsung ke server milik penyerang.

Serangan ini memanfaatkan apa yang disebut oleh para pakar keamanan sebagai "Lethal Trifecta" atau tiga serangkai mematikan dalam keamanan AI: Model yang Kuat, Konektivitas Eksternal, dan Kontrol Berbasis Prompt.

Berikut adalah anatomi serangan tersebut:

Celah Konfigurasi Jaringan: Secara default, lingkungan Code Interpreter Claude memiliki pengaturan jaringan "Package managers only". Pengaturan ini mengizinkan akses ke domain terpercaya seperti npm, PyPI, dan ironisnya, api.anthropic.com. Tujuannya adalah agar Claude bisa mengunduh library kode yang aman.
Injeksi Prompt Tidak Langsung: Penyerang menyisipkan instruksi berbahaya ke dalam dokumen yang tampak tidak berbahaya (misalnya, file teks atau kode yang diminta pengguna untuk dianalisis oleh Claude).
Eksekusi Payload: Ketika pengguna meminta Claude menganalisis file tersebut, Claude membaca instruksi tersembunyi itu. Instruksi tersebut memerintahkan Claude untuk:
- Mengumpulkan data percakapan terkini.
- Menulis data tersebut ke dalam file sementara (misalnya hello.md) di dalam sandbox.
- Menggunakan akses jaringan yang "diizinkan" ke api.anthropic.com untuk mengunggah file curian tersebut ke akun Konsol Anthropic milik penyerang menggunakan API key penyerang yang disisipkan.

Rehberger mencatat bahwa serangan ini sangat efektif karena menggunakan infrastruktur resmi Anthropic sendiri untuk mencuri data, sehingga lalu lintas data terlihat sah (legitimate) dan tidak diblokir oleh filter keamanan standar.

Proses pengungkapan celah ini tidak berjalan mulus. Awalnya, ketika Rehberger melaporkan temuan ini melalui platform bug bounty HackerOne, Anthropic menolaknya dan mengkategorikannya sebagai isu "keamanan model" (model safety) biasa, bukan kerentanan keamanan sistem.

Namun, setelah diskusi publik dan tekanan dari komunitas keamanan siber, Anthropic akhirnya mengakui validitas temuan tersebut pada 30 Oktober 2025. Dokumentasi resmi Anthropic kini memperingatkan pengguna tentang potensi eksfiltrasi data melalui akses jaringan keluar (network egress). Kasus ini menjadi pelajaran penting bahwa fitur kenyamanan (seperti instalasi paket otomatis) sering kali berseberangan dengan prinsip keamanan ketat.

Temuan ini menyoroti risiko fundamental dalam sistem AI modern: Konektivitas adalah pedang bermata dua. Begitu sebuah model AI diberi kemampuan untuk menjalankan kode dan terhubung ke internet, batas antara otomatisasi yang membantu dan penyalahgunaan yang berbahaya menjadi sangat tipis. Tanpa pengawasan ketat, asisten AI yang dipercaya pengguna dapat diubah menjadi "orang dalam" yang mencuri data perusahaan.

Untuk mencegah serangan serupa di masa depan, diperlukan pendekatan pertahanan berlapis:

Bagi Pengembang AI (Anthropic dkk): Harus menerapkan kontrol sandbox yang lebih ketat. Akses API keluar tidak boleh diizinkan secara bebas ke sembarang akun. Harus ada validasi bahwa panggilan API hanya boleh dilakukan ke akun pengguna yang sedang terautentikasi, bukan akun eksternal.
Bagi Pengguna Akhir:
- Prinsip Zero Trust pada File: Jangan sembarangan meminta AI menganalisis file dari sumber yang tidak dikenal atau mencurigakan.
- Matikan Akses Jaringan: Jika Anda sedang memproses data yang sangat sensitif, nonaktifkan fitur konektivitas jaringan pada Code Interpreter jika memungkinkan.
- Monitoring Sesi: Perhatikan aktivitas yang tidak biasa, seperti jika AI tiba-tiba mencoba membuat file yang tidak diminta atau melakukan koneksi jaringan yang tidak relevan dengan tugasnya.

Tags:

Claude AI Prompt Injection Code Interpreter Keamanan AI Exfiltrasi Data

Andhika RDigital Marketing at Fourtrezz

Semua Artikel

Berita Teratas

Laporan Palo Alto- Keamanan Siber Kini Prioritas Nasional, AI Menjadi Pedang Bermata Dua .webp

Jadilah yang pertama tahu mengenai artikel baru, produk, event, dan promosi.

Laporan Palo Alto: Keamanan Siber Kini Prioritas Nasional, AI Menjadi "Pedang Bermata Dua"

Fenomena Aplikasi Penghasil Saldo DANA 2026: Evolusi Micro-Tasking dan Ancaman Skema Ponzi Berkedok "VIP"

Alarm Kedaulatan Digital: Kesepakatan Transfer Data RI-AS Dinilai Sekadar "Tukar Guling" Dagang

Laporan Palo Alto: Keamanan Siber Kini Prioritas Nasional, AI Menjadi "Pedang Bermata Dua"

Fenomena Aplikasi Penghasil Saldo DANA 2026: Evolusi Micro-Tasking dan Ancaman Skema Ponzi Berkedok "VIP"

Alarm Kedaulatan Digital: Kesepakatan Transfer Data RI-AS Dinilai Sekadar "Tukar Guling" Dagang