Anthropic mengklaim model terbarunya adalah yang terbaik di kelasnya

Rival OpenAI, Anthropic, merilis model AI generatif baru yang kuat bernama Claude 3.5 Sonnet. Namun, ini lebih merupakan langkah inkremental daripada loncatan besar ke depan.

Claude 3.5 Sonnet dapat menganalisis teks dan gambar serta menghasilkan teks, dan merupakan model terbaik yang pernah dimiliki Anthropic - setidaknya secara teoritis. Di beberapa benchmark AI untuk membaca, coding, matematika, dan visi, Claude 3.5 Sonnet memiliki performa yang lebih baik daripada model yang digantikannya, Claude 3 Sonnet, dan mengungguli model andalan sebelumnya Claude 3 Opus.

Benchmark tidak selalu menjadi ukuran paling berguna dari kemajuan AI, sebagian karena banyak dari mereka menguji kasus edge esoteris yang tidak berlaku untuk orang biasa, seperti menjawab pertanyaan ujian kesehatan. Namun, nilai dari Claude 3.5 Sonnet hampir saja mengalahkan model unggulan rival, termasuk GPT-4o dari OpenAI, dalam beberapa benchmark yang diuji Anthropic.

Bersamaan dengan model baru tersebut, Anthropic juga merilis yang disebut sebagai Artifacts, sebuah workspace di mana pengguna dapat mengedit dan menambah konten - misalnya kode dan dokumen - yang dihasilkan oleh model-model Anthropic. Saat ini dalam versi pratinjau, Artifacts akan mendapatkan fitur baru, seperti cara berkolaborasi dengan tim yang lebih besar dan menyimpan basis pengetahuan, dalam waktu dekat, kata Anthropic.

Fokus pada efisiensi

Claude 3.5 Sonnet sedikit lebih unggul dari Claude 3 Opus, dan Anthropic mengatakan bahwa model ini lebih memahami instruksi nuansa dan kompleks, selain konsep seperti humor. Namun, yang lebih penting bagi pengembang yang membangun aplikasi dengan Claude yang memerlukan respons cepat (mis. chatbot layanan pelanggan), 3.5 Sonnet lebih cepat. Menurut Anthropic, kecepatan 3.5 Sonnet sekitar dua kali lipat dari 3 Opus.

Visi - menganalisis foto - adalah salah satu area di mana Claude 3.5 Sonnet jauh meningkat dibandingkan 3 Opus, menurut Anthropic. 3.5 Sonnet dapat menginterpretasikan grafik dan grafik dengan lebih akurat serta mentranskripsi teks dari gambar 'tidak sempurna', seperti gambar dengan distorsi dan artefak visual.

Michael Gerstenhaber, kepala produk di Anthropic, mengatakan bahwa peningkatan ini adalah hasil dari perubahan arsitektur dan data latihan baru, termasuk data yang dihasilkan oleh AI. Data mana yang spesifik? Gerstenhaber tidak akan mengungkapkan, tetapi dia menyiratkan bahwa Claude 3.5 Sonnet mengambil sebagian besar kekuatannya dari kumpulan data pelatihan tersebut.

Kredit Gambar: Anthropic

"Yang penting bagi [bisnis] adalah apakah AI membantu mereka memenuhi kebutuhan bisnis mereka, bukan apakah AI bersaing pada benchmark," kata Gerstenhaber kepada TechCrunch. "Dan dari perspektif tersebut, saya percaya Claude 3.5 Sonnet akan menjadi langkah maju lebih jauh dari yang kami miliki sejauh ini - dan juga lebih unggul dari yang lain di industri ini."

Kerahasiaan seputar data latihan bisa diberikan untuk alasan kompetitif. Tetapi hal itu juga bisa untuk melindungi Anthropic dari tantangan hukum - khususnya tantangan yang berkaitan dengan penggunaan yang adil. Pengadilan belum memutuskan apakah vendor seperti Anthropic dan pesaingnya, seperti OpenAI, Google, Amazon, dan sebagainya, memiliki hak untuk melatih pada data publik, termasuk data yang dilindungi hak cipta, tanpa memberikan kompensasi atau pengakuan kepada pencipta data tersebut.

Jadi, yang kita ketahui adalah bahwa Claude 3.5 Sonnet dilatih pada banyak teks dan gambar, seperti model-model sebelumnya dari Anthropic, ditambah umpan balik dari tester manusia untuk mencoba "menyelaraskan" model dengan niat pengguna, dengan harapan mencegahnya mengeluarkan teks beracun atau bermasalah lainnya.

Kredit Gambar: Anthropic

Hal lain yang kita ketahui adalah jendela konteks Claude 3.5 Sonnet - jumlah teks yang dapat dianalisis oleh model sebelum menghasilkan teks baru - adalah 200.000 token, sama dengan 3 Sonnet. Token adalah bagian-bagian yang terbagi dari data mentah, seperti suku kata "fan," "tas," dan "tic" dalam kata "fantastis"; 200.000 token setara dengan sekitar 150.000 kata.

Dan kita tahu bahwa Claude 3.5 Sonnet sudah tersedia saat ini. Pengguna gratis dari klien web Anthropic dan aplikasi Claude iOS dapat mengaksesnya tanpa biaya; pelanggan langganan rencana berbayar Anthropic, Claude Pro dan Claude Team, mendapatkan batasan tingkat yang 5x lebih tinggi. 3.5 Sonnet juga sudah aktif pada API Anthropic dan platform yang dikelola seperti Amazon Bedrock dan Google Cloud's Vertex AI.

"Claude 3.5 Sonnet benar-benar merupakan langkah maju dalam kecerdasan tanpa mengorbankan kecepatan, dan ini menyiapkan kita untuk rilis masa depan di seluruh keluarga model Claude," kata Gerstenhaber.

Claude 3.5 Sonnet juga mendukung Artifacts, yang muncul sebuah jendela khusus di klien web Claude ketika pengguna meminta model untuk menghasilkan konten seperti potongan kode, dokumen teks, atau desain situs web. Gerstenhaber menjelaskan: "Artifacts adalah output model yang menempatkan konten yang dihasilkan di sisi dan memungkinkan Anda, sebagai pengguna, berevolusi pada konten tersebut. Misalnya, jika Anda ingin menghasilkan kode - artefaknya akan ditempatkan dalam UI, dan kemudian Anda dapat berbicara dengan Claude dan berevolusi pada dokumen itu untuk meningkatkannya agar Anda dapat menjalankan kode."

Pemandangan yang lebih besar

Jadi, apa pentingnya Claude 3.5 Sonnet dalam konteks yang lebih luas dari Anthropic - dan ekosistem AI, bagi masalah itu?

Claude 3.5 Sonnet menunjukkan bahwa kemajuan inkremental adalah sejauh mana yang dapat kita harapkan saat ini di depan model, kecuali terjadi terobosan penelitian besar. Beberapa bulan terakhir telah melihat rilisan utama dari Google (Gemini 1.5 Pro) dan OpenAI (GPT-4o) yang sedikit mengubah peta kinerja benchmark dan kualitatif. Tetapi belum ada loncatan yang sebanding dengan loncatan dari GPT-3 ke GPT-4 dalam waktu yang cukup lama, karena keruwetan arsitektur model yang ada saat ini dan komputasi besar yang dibutuhkan untuk melatih.

Saat vendor AI generatif beralih perhatiannya ke kurasi data dan lisensi sebagai gantinya dari arsitektur yang dapat diskalakan baru yang menjanjikan, ada tanda-tanda investor mulai waspada terhadap jalan menuju ROI yang lebih lama dari yang diantisipasi untuk AI generatif. Anthropic agak terlindungi dari tekanan ini, berada dalam posisi yang menguntungkan dari asuransi Amazon (dan sebagian kecil asuransi Google) terhadap OpenAI. Tetapi pendapatan perusahaan ini, yang diproyeksikan akan mencapai sedikit di bawah $1 miliar menjelang akhir tahun 2024, hanya sebagian kecil dari milik OpenAI - dan saya yakin investor Anthropic tidak membiarkannya lupa akan fakta ini.

Terlepas dari basis pelanggan yang semakin besar yang mencakup merek-merek rumah tangga seperti Bridgewater, Brave, Slack, dan DuckDuckGo, Anthropic masih kurang dari label usaha tertentu. Nyatanya, adalah OpenAI - bukan Anthropic - dengan siapa PwC baru-baru ini bermitra untuk menjual kembali penawaran AI generatif ke perusahaan.

Jadi Anthropic mengambil pendekatan strategis, dan jalan yang banyak dijalani, untuk membuat jalan masuk, menginvestasikan waktu pengembangan ke produk seperti Claude 3.5 Sonnet untuk memberikan kinerja sedikit lebih baik dengan harga komoditas. 3.5 Sonnet dipasarkan dengan harga yang sama seperti 3 Sonnet: $3 per juta token yang dimasukkan ke dalam model dan $15 per juta token yang dihasilkan oleh model.

Gerstenhaber berbicara tentang hal ini dalam percakapan kami. "Ketika Anda sedang membangun aplikasi, pengguna akhir tidak harus tahu model mana yang digunakan atau bagaimana seorang insinyur mengoptimalkan pengalaman mereka," katanya, "tapi insinyur dapat memiliki alat-alat yang tersedia untuk mengoptimalkan pengalaman sepanjang vektor yang perlu dioptimalkan, dan biaya adalah salah satunya."

Claude 3.5 Sonnet tidak menyelesaikan masalah halusinasi. Hampir pasti membuat kesalahan. Tetapi mungkin cukup menarik bagi pengembang dan perusahaan untuk beralih ke platform Anthropic. Dan pada akhirnya, itulah yang penting bagi Anthropic.

Menuju akhir yang sama, Anthropic telah fokus pada alat seperti AI pengarah eksperimentalnya, yang memungkinkan pengembang "mengarahkan" fitur internal modelnya; integrasi untuk membiarkan modelnya mengambil tindakan dalam aplikasi; dan alat-alat yang dibangun di atas modelnya seperti pengalaman Artifacts yang disebutkan sebelumnya. Mereka juga telah merekrut salah satu pendiri Instagram sebagai kepala produk. Dan mereka memperluas ketersediaan produk mereka, baru-baru ini membawa Claude ke Eropa dan mendirikan kantor di London dan Dublin.

Anthropic, secara keseluruhan, tampaknya mulai memahami bahwa membangun ekosistem sekitar model - bukan hanya model secara terpisah - adalah kunci untuk mempertahankan pelanggan ketika kesenjangan dalam kemampuan antar model menyempit.

Meskipun demikian, Gerstenhaber bersikeras bahwa model yang lebih besar dan lebih baik - seperti Claude 3.5 Opus - sudah di depan mata, dengan fitur seperti pencarian web dan kemampuan untuk mengingat preferensi.

"Saya belum melihat deep learning mengalami batas, dan saya akan menyerahkannya kepada para peneliti untuk berspekulasi tentang batas itu, tetapi saya pikir masih terlalu dini untuk membuat kesimpulan tentang itu, terutama jika melihat kecepatan inovasi," katanya. "Ada perkembangan yang sangat cepat dan inovasi yang sangat cepat, dan saya tidak mempunyai alasan untuk percaya bahwa itu akan melambat."

Kita akan melihat.