Tiêu điểm chính
-
Livepeer đưa ra một hướng mới để kết hợp các khả năng AI tổng hợp trong mạng GPU
-
Video tổng hợp mang lại cơ hội doanh thu đáng kể cho Livepeer, với doanh thu từ đơn vị lớn hơn gần bốn bậc so với doanh thu từ đơn vị transcoding hiện tại
-
Hiện tại, Livepeer là một trong những mạng có giá trị thấp hơn trên cơ sở số lượng GPU so với các mạng điện toán khác như Akash và Nosana
Livepeer, mạng lưới transcoding video, gần đây thông báo định hướng là hỗ trợ tạo video AI trên GPU của mạng bên cạnh nhiệm vụ transcoding mà mạng hiện đang thực hiện.
Tạo video AI hoặc chuyển văn bản thành video, nhận lời nhắc văn bản từ người dùng (hoặc tác nhân AI khác) và chuyển đổi lời nhắc đó thành video mới hoặc chỉnh sửa video hoặc hình ảnh hiện có.
Với tư cách là một mạng, Livepeer được hưởng lợi nhiều hơn khi có thể giữ các GPU cơ bản được sử dụng trong hoạt động sinh lợi nhất có thể. Việc bổ sung khả năng tạo video AI sẽ cung cấp một kênh nhu cầu khác cho tài nguyên tính toán của mạng đồng thời giới thiệu một luồn doanh thu khác sinh lợi hơn transcoding
Runway và Pika, hai công ty dẫn đầu hiện nay về chuyển văn bản thành video, tính phí từ 0,05 - 0,12 đô la cho mỗi giây video được tạo theo mức trả phí ban đầu. Hiện tại, Livepeer kiếm được khoảng 0,003 đô la mỗi phút transcoding (transcoding là khối lượng công việc ít chuyên sâu hơn so với tạo), mang lại cho mạng trung bình 80 nghìn USD trong doanh thu hàng quý với 32 triệu phút được transcoding hàng quý. Đối với việc tạo văn bản thành video, giả sử Livepeer có thể tính phí bằng một nửa Pika (0,025 đô la mỗi giây) và 10% nhu cầu transcoding hiện tại được tạo ra trên các mô hình AI của Livepeer, khi đó mạng sẽ tăng khoảng 50 lần doanh thu.
Trạng thái tạo video AI
Việc sử dụng tính năng chuyển văn bản thành video hiện đang ở giai đoạn sơ khai, chỉ có khả năng tạo ra nội dung video ngắn, ít âm thanh, tầm thường. Ví dụ: xem các bức ảnh về trang chủ Pika hoặc mẫu Gen-2 của Runway. Kết quả là các video có thời lượng từ 3-16 giây, thực tế hoạt động như các hình ảnh chuyển động một cảnh.
Tuy nhiên, các mô hình cơ bản đang được cải thiện nhanh chóng về chi phí và chất lượng. Diffusion phát hành mô hình chuyển hình ảnh thành video nguồn mở của nó vào tháng 11, được cho là hoạt động tốt hơn trong các nghiên cứu về sở thích của người dùng so với các mô hình nguồn đóng hàng đầu.
Tốc độ phát triển nhanh chóng đối với các mô hình tạo video, mặc dù ở mức độ thấp hơn so với các mô hình ngôn ngữ nguồn mở, do yêu cầu phần cứng ngày càng tăng và mức độ tự do bổ sung để đào tạo mô hình video.
Mặc dù ở mức độ thấp hơn so với các mô hình ngôn ngữ do yêu cầu phần cứng bổ sung, các mô hình tạo video đang được cải thiện nhanh chóng. Ví dụ: Runway phát hành mẫu Gen-1 vào Quý 1 năm 2023 và sau đó tung ra mẫu Gen-2 vào Quý 3 vài tháng sau đó, dẫn đến giảm 65% về chi phí suy luận từ 0,14 đô la đến 0,05 đô la cho mỗi giây video được tạo.
Và mặc dù những mẫu máy này chỉ tạo ra những đoạn video ngắn có thời lượng tối đa 16 giây, nhưng thời lượng quay trung bình trong một bộ phim lại rớt giá đều theo thời gian và hiện ở thời lượng khoảng 3-10 giây, tùy thuộc vào nhịp độ của phim.
Vì vậy, trong khi các mô hình tạo video không có khả năng tạo video có thời lượng đầy đủ cho phim xã hội, thì AI có khả năng tạo ra các kịch bản đầy đủ, bao gồm mô tả cảnh và các cảnh quay video riêng lẻ, có thể được ghép lại với nhau để tạo video sản xuất (tuy nhiên, việc tạo và ghép âm thanh đang và sẽ vẫn là hạn chế chính).
Với mức giá 0,05 đô la mỗi giây tạo video, một video dài 2 giờ sẽ có giá 360 đô la. Ngay cả khi mỗi cảnh quay được tạo lặp đi lặp lại 100 lần, tổng chi phí video là 36.000 đô la vẫn thấp hơn đáng kể so với chi phí sản xuất phim hiện tại, từ vài triệu đến vài trăm triệu. Tương tự, nội dung video trực tuyến dạng ngắn hơn như video có ảnh hưởng, video tiếp thị và video giải thích có thể từ 1.500 đô la - 10.000 đô la mỗi phút so với AI, hiện có thể tạo ra một phút video với giá 3 USD — và đó là trước khi tính đến sự cải thiện nhanh chóng và giảm chi phí của các mô hình tổng hợp sắp tới.
Nhu cầu giải mã video
Video là hình thức truyền thông trực tuyến thống trị hiện nay vì tài khoản cho +80% băng thông internet và liên tục phát triển - đặc biệt là trong thế giới hậu COVID. Để lượng hóa nhu cầu ở mức cao:
-
TikTok có 1,5 tỷ người dùng hoạt động hàng tháng, họ xem 1,5 giờ mỗi ngày.
-
Người dùng của Netflix đóng góp trên 180 tỷ giờ hàng năm.
-
YouTube có 2,6 tỷ người dùng hàng tháng xem và 1 tỷ giờ mỗi ngày
Mặc dù có nhu cầu đáng kể về video nhưng các kênh nhu cầu tương đối bão hòa vì con người chỉ có thể xem ngần ấy giờ mỗi ngày. Tăng trưởng nhu cầu tại thời điểm này xuất phát từ sự gia tăng dân số hoặc xu hướng nhân khẩu học bên cạnh việc tăng cường kết nối Internet cho những người dân ở vùng sâu vùng xa hơn. Điều này chuyển động lực hướng tới tối ưu hóa chi phí, cá nhân hóa và cải tiến sản phẩm chung của các sản phẩm video hiện có — tất cả các nhiệm vụ tạo video đều được điều chỉnh cho phù hợp.
Trước khi chúng ta thấy video AI được tạo hoàn chỉnh, nhu cầu ngắn hạn về khối lượng công việc tổng hợp có thể sẽ đến từ các phần mềm sáng tạo như Canva, Adobe hoặc nói chung là số lượng lớn các ứng dụng video và hình ảnh mà người tiêu dùng sử dụng chi gần 500 triệu đô la mỗi quý.
Điều này là do AI đang thay đổi bản chất của phần mềm. Trước đây, con người nhìn chung kiểm soát vị trí pixel của hình ảnh và video mà họ tạo ra, nhưng giờ đây AI sẽ là một chạm (tạo ra) lớp pixel khi con người chuyển sang vai trò đạo diễn thay vì biên tập viên chi tiết. Đây là một quá trình chuyển đổi tương tự so với việc con người viết ít mã cấp độ máy hơn theo thời gian sang sử dụng các khuôn khổ code trừu tượng và thậm chí cả các giải pháp no-code. Khi khối lượng công việc tổng hợp được nhúng vào các tính năng phần mềm, nó sẽ tạo ra một làn sóng nhu cầu ngày càng tăng về việc tạo video và hình ảnh AI, nhân với số giờ video cuối cùng được xuất bản mỗi năm.
Có khoảng 1,8 nghìn tỷ giờ dữ liệu video được tạo ra mỗi năm nếu bạn chiếm 54% thị phần của video trong tổng số 120 zettabyte dữ liệu video tổng số dữ liệu được tạo ra mỗi năm và thường giả định rằng một giờ video 1080p là 3 GB. Ngoài ra, tổng dữ liệu được tạo đã tăng 23% so với cùng kỳ năm trước trong ba năm qua. Để so sánh, Livepeer hiện đang transcoding khoảng 141 triệu giờ video mỗi năm hoặc 0,008% tổng dữ liệu video được tạo trong vòng một năm.
Chỉ riêng YouTube, nơi những người sáng tạo tải lên gần 260 triệu giờ video mỗi năm, quy mô doanh thu thị trường ngây thơ dành cho video có tính tổng hợp hoàn toàn với doanh thu đơn vị 0,05 đô la mỗi giây được tạo ra là 31 tỷ đô la. Mặc dù video tổng hợp sẽ không sớm thâm nhập được gần 100% thị trường nhưng điều quan trọng cần lưu ý là người sáng tạo sẽ thường lặp lại các cảnh quay nhiều lần trước khi sản phẩm cuối cùng được tạo và tải lên. Do đó, bất kể mức độ thâm nhập thị trường ước tính như thế nào, vẫn có những khoản thu nhập bổ sung được đưa vào quá trình sáng tạo', cho dù đó là việc chỉnh sửa hay lặp lại đều đáng xem xét.
Xa hơn nữa, khi các mô hình được cải thiện, việc thâm nhập thị trường đáng kể không phải là điều không thể tưởng tượng được nhờ lợi ích đáng kể về chi phí và thời gian tạo ra sản phẩm của AI. Video tổng hợp cuối cùng sẽ phát triển để thay thế nội dung như farms có ảnh hưởng, video giải thích và nội dung phim có thể được cá nhân hóa linh hoạt cho người xem. Trong nền kinh tế on-chain, các tác nhân AI cuối cùng sẽ được token hóa và có thể sở hữu trên on-chain, đồng thời sẽ tự động thực hiện các nhiệm vụ hiệu quả, một trong số đó sẽ là tạo ra nội dung video.
Cân nhắc về định giá
Trong khi GPU hiện tại của Livepeer tương đối nhỏ đối với khối lượng công việc AI, với mức vốn hóa thị trường 230 triệu đô la (được điều phối đầy đủ), mạng này là một trong những mạng có giá trị thấp nhất trên mỗi GPU so với các mạng GPU khác như Render, Akash và Nosana.
Nhà sáng lập Livepeer, Doug Petkanics, gần đây trích dẫn rằng mạng có hàng nghìn GPU đang hoạt động nhưng bảo thủ hơn kết quả khảo sát nhận thấy các bộ điều phối Livepeer trung bình có 4 GPU. Với 100 bộ điều phối đang hoạt động, chúng tôi có thể ước tính một cách thận trọng rằng mạng có 400 GPU, nâng bội số định giá lưu hành trên mỗi GPU lên 590.000 đô la. Điều này có thể so sánh với Render - người cũng có mô hình AI tổng quát tham vọng - với hơn 3000 GPU và có giá trị khoảng 530.000 đô la cho mỗi GPU (lưu hành) và 760.000 đô la cho mỗi GPU được pha loãng hoàn toàn.
Cả Akash và Nosana đều có mức tăng trưởng cao hơn trong định giá của họ. Nosana với mức vốn hóa thị trường 93 triệu USD được định giá 900.000 đô la mỗi cổ phiếu. GPU và Akash với mức vốn hóa thị trường là 650 triệu đô la, được định giá gần 3,7 triệu đô la mỗi năm GPU. Với Akash là ngoại lệ đáng kể ở đây, điều quan trọng cần lưu ý là mạng có nhiều tài nguyên CPU hơn, hiện đang kiếm được doanh thu và thường có mô hình cung cấp mở hơn, nơi khách hàng thuê phần cứng để chạy bất kỳ khối lượng công việc nào họ muốn so với chạy một mô hình được lưu trữ cụ thể (đi kèm với một số sự đánh đổi dễ sử dụng).
Vì tài nguyên điện toán nói chung là một loại hàng hóa (đặc biệt nếu được dành riêng để chạy các mô hình AI nguồn mở), nên người ta có thể mong đợi giá trị tương đối của các mạng này sẽ hội tụ theo thời gian (với một số lợi thế cho các mạng lớn hơn có thể hỗ trợ khối lượng công việc và khách hàng lớn). Đặc biệt là cách các mạng này tokenomics được thiết kế, sự tăng trưởng chung về nhu cầu hàng hóa (khối lượng công việc AI như video tổng hợp) sẽ chuyển thành nhu cầu token hoặc burns.
Doanh thu
Như đã đề cập trước đó, doanh thu từ đơn vị khối lượng công việc AI tổng hợp ($0,05 mỗi giây) lớn hơn gần bốn bậc so với doanh thu từ đơn vị transcoding hiện tại ($0,003 mỗi phút). Về doanh thu transcoding, Livepeer hiện giao dịch ở mức giá gấp khoảng 705 lần doanh thu, lấy mức doanh thu trung bình trong 4 quý vừa qua. Đưa ra các giả định cấp cao, chúng ta có thể hình dung một cách lỏng lẻo việc triển khai thành công khối lượng công việc AI tổng hợp trên mạng có thể tác động đến việc định giá như thế nào.
Thu hút 10% nhu cầu transcoding hiện tại (hiện là 2,3 triệu giờ mỗi năm) vào khối lượng công việc tạo ra với doanh thu đơn vị 0,025 đô la mỗi giây (một nửa tỷ lệ của các đối thủ cạnh tranh hàng đầu), khi đó Livepeer sẽ kiếm được khoảng 21 triệu đô la doanh thu hàng năm mới so với mức hiện tại. 326,000 đô la hiện đang tạo ra từ việc transcoding. Giả sử bội số doanh thu nén xuống 100 lần, giá trị ngụ ý thu được sẽ là 2,1 tỷ đô la (một lần nữa, đây là một kịch bản thành công mang tính minh họa).
Những thử thách
Ngoài rủi ro chung về việc các mô hình video tổng quát không đáp ứng được mong đợi của người tiêu dùng, những thách thức cốt lõi đối với khối lượng công việc video tổng quát và Livepeer cụ thể là:
-
Open-Source Dependency: Không rõ các công ty như Stable Diffusion sẽ xuất bản miễn phí các mô hình tổng quát đắt tiền dưới dạng nguồn mở để các mạng như Livepeer áp dụng trong bao lâu. Nếu chi phí đào tạo các mô hình mới, tốt hơn tăng lên đáng kể để đáp ứng tiêu chuẩn chất lượng cao của người tiêu dùng trực quan, thì các công ty sẽ cần phải kiếm tiền và bù đắp chi phí bằng cách nào đó. Điều này khiến Livepeer và các mạng GPU mở khác rơi vào tình thế bấp bênh khi không có nguồn tài trợ lớn cho các kỹ sư AI để phát triển các mô hình nội bộ - đặc biệt là so với các công ty nguồn đóng truyền thống raising 9 chỉ số.
-
Tính cạnh tranh: Trên mặt trận video tổng hợp, Livepeer sẽ phải đối mặt với sự cạnh tranh từ cả các công ty tập trung có vốn hóa tốt như Runway và Pika cũng như các mạng GPU khác có thể chạy cùng một mô hình trong các nút của họ hoặc cho phép các nhà phát triển cung cấp tài nguyên để chạy mô hình của họ (Akash). Các nhà cung cấp tập trung đang cạnh tranh để có mô hình tốt hơn và mối quan hệ bán hàng tốt hơn, chẳng hạn như quan hệ đối tác Runway với Canva. Về mặt phi tập trung, Livepeer cung cấp những gì mà mô hình nguồn mở tương tự được lưu trữ trên Nosana không có? Câu trả lời có thể nằm ở đâu đó với sự kết hợp giữa video tổng hợp với transcoding cần thiết để phân phối, nhưng vẫn chưa rõ sự phối hợp ở đây sẽ biểu hiện như thế nào.
-
Go-to-Market (GTM): Một thách thức cốt lõi đối với hầu hết mọi sản phẩm tiền điện tử, nhưng ai là khách hàng chính xác và mạng sẽ thu hút cả cung và cầu (GPU) như thế nào? Đặc biệt đối với video tổng hợp, có thể sẽ được sử dụng lần đầu tiên bên trong các công cụ SaaS hiện có, làm thế nào một mạng phi tập trung không có cơ chế bán hàng chuyên dụng lại thu hút và thu hút các nhà phát triển trong các công ty và startups?
Tương lai phía trước
Việc thúc đẩy khối lượng công việc video AI cho Livepeer có ý nghĩa chiến lược. Các mô hình AI chuyển văn bản thành video sẽ tăng đáng kể lượng nội dung video được truyền qua đường truyền internet vì nó cắt giảm đáng kể chi phí sản xuất. Điều này sau đó sẽ yêu cầu transcoding nhiều hơn, đây là dịch vụ cơ bản mà Livepeer cung cấp. Bằng cách cung cấp dịch vụ tạo video và các dịch vụ liên quan trên cùng một mạng, sẽ giảm được chi phí tích hợp và xung đột tổng thể của khách hàng đối với hệ thống nói chung.
Nhìn chung, nhằm thúc đẩy cung cấp khối lượng công việc video AI, Livepeer tạo ra một vòng phản hồi tích cực cho sự phát triển và khả năng phòng thủ của nó. Chi phí sản xuất video thấp hơn dẫn đến nhiều tệp video hơn, dẫn đến nhu cầu transcoding nhiều hơn, doanh thu thu hút nguồn cung cấp GPU mới, thu hút khối lượng công việc quy mô lớn hơn, v.v.
Bài viết được FXCE Crypto biên tập từ "Livepeer & Generative AI Video" của tác giả Dustin Teander với mục đích cung cấp thông tin và phi lợi nhuận. Chúng tôi không khuyến nghị đầu tư và không chịu trách nhiệm cho các quyết định đầu tư liên quan đến nội dung bài dịch.