Open NotebookLM stosuje podejście open-source do konwertowania plików PDF na podcasty.
Dla tych, którzy nie są zaznajomieni z eksperymentem Google AI, NotebookLM to platforma asystenta badawczego, która pobiera dokumenty przesłane przez użytkownika i wykorzystuje Gemini 1.5 pro, aby zaoferować pierwsze podejście do interakcji z informacjami znalezionymi w dokumencie. NotebookLM generuje podsumowanie wszystkich dokumentów przesłanych do notatnika użytkownika i pozwala użytkownikom zadawać pytania dotyczące materiału. Po przetworzeniu informacji, NotebookLM odpowiada odpowiednimi cytatami z przesłanych dokumentów. Jednak najbardziej imponującą funkcją jest możliwość generowania podcastów na podstawie przesłanych dokumentów. Podcast wygenerowany przez Gemini pobiera wybrane przez AI informacje z dokumentów. Tworzy plik audio z dyskusją między dwoma mówcami na tematy znalezione w materiale, z klipami audio trwającymi od pięciu do trzydziestu minut. Niektórzy użytkownicy mogą jednak wahać się przed przesłaniem materiału do zastrzeżonego LLM, co jest różnicą między Open NotebookLM.
Dzięki prostemu i nieskomplikowanemu interfejsowi użytkownika, Open NotebookLM został zbudowany przy użyciu różnych modeli open-source i text-to-speech, aby przekształcić pliki PDF w podcasty. Do przetwarzania plików PDF, Open NotebookLM wykorzystuje Llama 3.1 z limitem 100 tysięcy znaków. Chociaż nie jest tak wydajny jak Gemini, MeloTTS zapewnia solidną wydajność zamiany tekstu na mowę dla projektu, a użytkownicy mogą dostosować ton sztucznej inteligencji między "zabawnym" a "formalnym" Dodatkowo, Open NotebookLM obsługuje nieco ponad dziesięć języków, w tym hiszpański, francuski i niemiecki. Obecnie użytkownicy mogą wypróbować projekt na stronie Chua's Hugging face lub zbudować go lokalnie z zasobów dostępnych w repozytorium GitHub projektu.
Źródło(a)
Gabriel Chua na Przytulanie twarzy oraz na Github