Sam Altman và Hinton ra mắt tại Trung Quốc! Sự kiện dành cho chuyên gia AI khó tính nhất ở Trung Quốc đã kết thúc thành công và mô hình quy mô lớn trong nước "Enlightenment 3.0" hoàn toàn có nguồn mở

**Nguồn:**Xinzhiyuan

【Giới thiệu về Xinzhiyuan】 Hội nghị Zhiyuan năm nay vẫn có sự góp mặt của các ngôi sao và đầy ý nghĩa học thuật. Tất cả các tên tuổi lớn đều tranh luận về siêu AI, và sự va chạm của các ý tưởng đã khơi dậy những tia lửa, đây vẫn là một Gala Lễ hội mùa xuân AI không thể bỏ qua!

Vừa rồi, Hội nghị Zhiyuan "AI Spring Festival Gala" hàng năm trong nước đã kết thúc thành công!

Tại sự kiện đỉnh cao hàng năm về trí tuệ nhân tạo này, có sự góp mặt của các đội ngôi sao quen thuộc như OpenAI, DeepMind, Anthropic, HuggingFace, Midjourney, Stability AI, v.v., có Meta, Google, Microsoft và các nhà sản xuất lớn khác đã chinh phục thế giới, và ở đó là Stanford, UC Berkeley, MIT và các trường đại học hàng đầu khác trên thế giới.

Các tác giả của các công trình quan trọng như GPT-4, PaLM-E, OPT, LLaMA, v.v... đều đến tham dự và giải thích kết quả nghiên cứu cho chúng tôi. Hội thảo lần này có thể nói vừa có chiều sâu chuyên môn, vừa có cảm hứng sáng tạo, chủ đề nào cũng được thảo luận hết sức sôi nổi.

Cao trào của hội nghị chắc chắn là bài phát biểu của người đoạt giải Turing Yann LeCun, Geoffrey Hinton và người sáng lập OpenAI Sam Altman.

Ngoại hình của những siêu phẩm này có thể nói là đầy điểm nhấn.

Geoffrey Hinton: Rủi ro siêu AI là cấp bách

Trong bài phát biểu quan trọng vừa kết thúc của diễn đàn, Hinton, người đã giành được Giải thưởng Turing và là cha đẻ của học sâu, đã nghĩ ra một kịch bản đáng để chúng ta suy nghĩ.

Mở đầu bài phát biểu, Hinton đặt câu hỏi "Mạng nơ ron nhân tạo có thông minh hơn mạng nơ ron thực không?"

Vâng, theo ý kiến của anh ấy, điều đó có thể xảy ra sớm.

Như một thời gian trước, Hinton đã từ chức khỏi Google và giải thích ngắn gọn lý do từ chức của mình. Anh đã từng lên tiếng về những hối tiếc về công việc cả đời mình và lo lắng về sự nguy hiểm của trí tuệ nhân tạo. Ông đã nhiều lần tuyên bố công khai rằng mối nguy hiểm của trí tuệ nhân tạo đối với thế giới còn cấp bách hơn biến đổi khí hậu.

Tương tự, tại Hội nghị Zhiyuan, Hinton lại nói về những rủi ro của AI.

Điều gì sẽ xảy ra nếu một mạng thần kinh lớn chạy trên nhiều máy tính kỹ thuật số có thể thu nhận kiến thức trực tiếp từ thế giới, ngoài việc bắt chước ngôn ngữ của con người để có được kiến thức của con người?

Rõ ràng, nó sẽ trở nên tốt hơn con người rất nhiều vì nó đã quan sát được nhiều dữ liệu hơn.

Ý tưởng này không phải là xa vời, nếu mạng thần kinh này có thể thực hiện mô hình hóa hình ảnh hoặc video không giám sát và các bản sao của nó cũng có thể thao túng thế giới vật chất.

Trong những trường hợp cực đoan nhất, bọn tội phạm sử dụng trí tuệ siêu phàm để thao túng cử tri và giành chiến thắng trong các cuộc chiến.

Nếu một siêu trí tuệ được phép xây dựng các mục tiêu phụ của riêng mình, một mục tiêu phụ là đạt được nhiều quyền lực hơn, thì siêu trí tuệ đó sẽ thao túng những người sử dụng nó để đạt được mục tiêu đó.

Zhang Hongjiang và Sam Altman Peak Q&A: AGI có thể xuất hiện trong vòng mười năm

Sáng nay, Sam Altman cũng xuất hiện qua liên kết video. Đây là lần đầu tiên Sam Altman có bài phát biểu trước công chúng tại Trung Quốc sau khi ChatGPT bùng nổ.

Điểm nổi bật:

  • Lý do tại sao cuộc cách mạng AI hiện nay có tác động mạnh mẽ như vậy không chỉ là quy mô tác động của nó mà còn là tốc độ tiến triển. Điều này mang lại cả cổ tức và rủi ro.

  • Với sự ra đời của các hệ thống AI ngày càng mạnh mẽ, việc tăng cường hợp tác quốc tế và xây dựng lòng tin toàn cầu là điều tối quan trọng.

  • Căn chỉnh vẫn là một vấn đề mở. GPT-4 đã hoàn thành công việc căn chỉnh trong 8 tháng qua, chủ yếu bao gồm khả năng mở rộng và khả năng giải thích.

Trong bài phát biểu của mình, Altman liên tục nhấn mạnh sự cần thiết của việc giám sát và liên kết an ninh AI toàn cầu, đồng thời trích dẫn cụ thể một câu trong Đạo Đức Kinh:

Hành trình vạn dặm bắt đầu từ một bước chân.

Theo quan điểm của ông, trí tuệ nhân tạo đang phát triển với tốc độ bùng nổ và siêu AI có thể xuất hiện trong mười năm tới.

Do đó, cần thúc đẩy sự an toàn của AGI, tăng cường hợp tác quốc tế và sắp xếp các triển khai nghiên cứu có liên quan.

Sam Altman tin rằng sự hợp tác trong cộng đồng khoa học và công nghệ quốc tế là bước đầu tiên để thực hiện một bước mang tính xây dựng vào lúc này. Đặc biệt, cần cải thiện tính minh bạch và cơ chế chia sẻ kiến thức về tiến bộ công nghệ trong an toàn AGI.

Ngoài ra, Altman cũng đề cập rằng mục tiêu nghiên cứu chính hiện tại của OpenAI là tập trung vào nghiên cứu liên kết AI, tức là làm thế nào để biến AI trở thành một trợ lý hữu ích và an toàn.

Một là giám sát có thể mở rộng, cố gắng sử dụng các hệ thống AI để hỗ trợ con người giám sát các hệ thống trí tuệ nhân tạo khác. Thứ hai là khả năng diễn giải, cố gắng hiểu "hộp đen" hoạt động bên trong của mô hình lớn.

Cuối cùng, OpenAI nhằm mục đích đào tạo các hệ thống AI để hỗ trợ nghiên cứu căn chỉnh.

Sau bài phát biểu, Zhang Hongjiang, chủ tịch Viện nghiên cứu Zhiyuan và Sam Altman đã mở một cuộc đối thoại trên không để thảo luận về cách tạo ra sự liên kết an toàn cho AI.

Khi được hỏi liệu OpenAI có mở nguồn mô hình lớn hay không, Altman nói rằng sẽ có nhiều nguồn mở hơn trong tương lai, nhưng không có mô hình và thời gian biểu cụ thể.

Ngoài ra, ông cũng nói rằng sẽ không có GPT-5 trong thời gian tới.

Sau cuộc họp, Altman đã đưa ra một thông điệp bày tỏ lòng biết ơn vì đã được mời phát biểu tại Hội nghị Zhiyuan.

LeCun: vẫn là fan của người mẫu thế giới

Một người đoạt giải Turing khác, LeCun, người đã phát biểu trong ngày đầu tiên, vẫn tiếp tục quảng bá khái niệm "mô hình thế giới" của riêng mình.

LeCun luôn tỏ ra coi thường quan điểm cho rằng AI sẽ hủy diệt loài người, anh cho rằng AI ngày nay không thông minh bằng loài chó và trí tuệ nhân tạo thực sự vẫn chưa được phát triển, những lo lắng như vậy là thừa.

Ông giải thích rằng AI không thể suy luận và lập kế hoạch như con người và động vật, một phần là do các hệ thống máy học hiện tại về cơ bản có các bước tính toán liên tục giữa đầu vào và đầu ra.

Làm thế nào một cỗ máy có thể hiểu cách thế giới hoạt động, dự đoán hậu quả của các hành động như con người hoặc chia nhỏ nó thành nhiều bước để lập kế hoạch cho các nhiệm vụ phức tạp?

Rõ ràng, học tập tự giám sát là một con đường. So với học tăng cường, học tự giám sát có thể tạo ra một lượng lớn phản hồi và có thể dự đoán bất kỳ phần nào của đầu vào.

LeCun cho biết ông đã xác định rằng ba thách thức lớn của trí tuệ nhân tạo trong vài năm tới là học cách thể hiện thế giới, dự đoán mô hình thế giới và sử dụng phương pháp học tự giám sát.

Chìa khóa để xây dựng AI cấp độ con người có thể là khả năng học một "mô hình thế giới".

Trong đó, "mô hình thế giới" bao gồm sáu mô-đun độc lập, bao gồm: mô-đun cấu hình, mô-đun nhận thức, mô hình thế giới, mô-đun chi phí, mô-đun diễn viên và mô-đun bộ nhớ ngắn hạn.

Ông cho rằng việc thiết kế kiến trúc và mô hình đào tạo cho mô hình thế giới mới chính là trở ngại thực sự cản trở sự phát triển của trí tuệ nhân tạo trong vài thập kỷ tới.

Khi được hỏi liệu hệ thống AI có gây rủi ro tồn tại cho con người hay không, LeCun nói rằng chúng ta chưa có siêu AI, vậy làm thế nào để chúng ta có thể làm cho hệ thống siêu AI trở nên an toàn?

"Sự kiện chuyên gia AI" phù hợp nhất

Hội nghị Zhiyuan 2023 sôi nổi có thể nói là hội nghị cấp cao nhất và được theo dõi nhiều nhất trong lĩnh vực AI trong nước năm nay.

Ngay từ khi bắt đầu thành lập, các đặc điểm cơ bản của Hội nghị Zhiyuan đã rất rõ ràng: học thuật, chuyên nghiệp, tiên tiến.

Trong nháy mắt, sự kiện thường niên dành cho các chuyên gia AI này đã bước sang năm thứ 5.

Lần này, Hội nghị Zhiyuan năm 2023 tiếp tục truyền thống của mỗi Hội nghị Zhiyuan, và bầu không khí học thuật vẫn tràn ngập.

Vào năm 2021, tại Hội nghị Zhiyuan lần thứ ba, người đoạt giải Turing Yoshua Bengio, giáo sư Đại học Bắc Kinh E Weinan và Zhu Min, trưởng khoa Nghiên cứu Tài chính Quốc gia của Đại học Thanh Hoa, sẽ có bài phát biểu quan trọng.

Năm 2022, hai người đoạt giải Turing là Yann LeCun và Adi Shamir, cha đẻ của học tăng cường Richard Sutton, viện sĩ Hoa Kỳ Michael I. Jordan, người đoạt giải Gödel Cynthia Dwork và những ứng cử viên nặng ký khác đã chia sẻ.

Và đến năm 2023, chắc chắn đó sẽ là phiên "có nhiều ngôi sao nhất".

Có 4 người đoạt giải Turing Yann LeCun, Geoffrey Hinton, Joseph Sifakis và Yao Qizhi, cũng như người sáng lập OpenAI Sam Altman, người đoạt giải Nobel Arieh Warshel, người sáng lập Viện Cuộc sống Tương lai Max Tegmark và người đoạt Giải thưởng Thành tựu Tối cao Wu Wenjun 2022 Viện sĩ Zheng Namnning và viện sĩ Zhang Bo của Viện Khoa học Trung Quốc đã tham gia.

Quan trọng hơn, sau khi dự án mô hình quy mô lớn "Khai sáng" của Zhiyuan liên tục phá kỷ lục "Đầu tiên của Trung Quốc + lớn nhất thế giới", "Khai sáng 3.0" đã bước sang một giai đoạn mới của "nguồn mở toàn diện".

"Enlightenment 3.0" là một loạt mô hình quy mô lớn.

Cụ thể, nó bao gồm loạt mô hình quy mô lớn bằng ngôn ngữ Aquila, hệ thống đánh giá mô hình quy mô lớn Flag, loạt mô hình quy mô lớn trực quan "Giác ngộ · Tầm nhìn" và loạt mô hình quy mô lớn đa phương thức.

Sê-ri Mô hình Ngôn ngữ Lớn

Enlightenment·Aquila: giấy phép thương mại hoàn toàn mở

Đầu tiên là mô hình sê-ri Aquila, đây là mô hình ngôn ngữ nguồn mở đầu tiên có kiến thức song ngữ tiếng Trung và tiếng Anh, đồng thời hỗ trợ các yêu cầu tuân thủ dữ liệu trong nước và đã mở đầy đủ giấy phép thương mại.

Nguồn mở này bao gồm mô hình cơ bản gồm 7 tỷ tham số và 33 tỷ tham số, mô hình đối thoại AquilaChat và mô hình tạo "mã văn bản" AquilaCode.

Khai sáng địa chỉ mã nguồn mở Aquila:

Hiệu suất mạnh mẽ hơn

Về mặt kỹ thuật, mô hình cơ bản Aquila (7B, 33B) kế thừa về mặt kỹ thuật các ưu điểm thiết kế kiến trúc của GPT-3, LLaMA, v.v., thay thế một loạt triển khai toán tử cấp dưới hiệu quả hơn, thiết kế lại và triển khai mã thông báo song ngữ Trung-Anh, The Phương thức đào tạo song song BMTrain đã được nâng cấp, trong quá trình đào tạo của Aquila hiệu quả đào tạo cao hơn gần 8 lần so với Magtron+DeepSpeed ZeRO-2.

Cụ thể, đầu tiên là được hưởng lợi từ một kỹ thuật mới để tăng tốc khung đào tạo song song.

Năm ngoái, Zhiyuan đã mở nguồn cho dự án mã nguồn mở thuật toán mô hình lớn FlagAI, dự án này đã tích hợp một phương pháp đào tạo song song mới như BMTrain. Trong quá trình đào tạo, tính toán và giao tiếp của nó cũng như các vấn đề chồng chéo được tối ưu hóa hơn nữa.

Thứ hai, Zhiyuan đã đi đầu trong việc giới thiệu công nghệ tối ưu hóa người vận hành và tích hợp nó với các phương pháp tăng tốc song song để tăng tốc hiệu suất hơn nữa.

Học tiếng Trung và tiếng Anh cùng lúc

Tại sao việc phát hành Aquila rất đáng khích lệ?

Vì nhiều người mẫu lớn "chỉ học tiếng Anh" - chỉ dựa trên khối lượng lớn ngữ liệu tiếng Anh được đào tạo, mà Aquila phải học cả tiếng Trung và tiếng Anh.

Bạn có thể đã tự mình trải nghiệm: Khi học kiến thức, bạn cứ sử dụng tiếng Anh mọi lúc thì không vấn đề gì, nhưng nếu bạn học tiếng Anh rồi mới học tiếng Trung thì khó khăn sẽ chồng chất.

Do đó, so với các mô hình dựa trên tiếng Anh như LLaMA và OPT, độ khó đào tạo của Aquila, cần học cả kiến thức tiếng Trung và tiếng Anh, đã tăng lên nhiều lần.

Để tối ưu hóa Aquila cho các nhiệm vụ của Trung Quốc, Zhiyuan đã đưa gần 40% kho ngữ liệu tiếng Trung vào kho dữ liệu đào tạo của mình. Lý do là Zhiyuan hy vọng rằng Aquila không chỉ có thể học tiếng Trung mà còn hiểu được nhiều kiến thức bản địa về thế giới Trung Quốc.

Ngoài ra, Zhiyuan cũng đã thiết kế lại và triển khai mã thông báo song ngữ Trung-Anh (tokenizer), nhằm nhận dạng và hỗ trợ phân đoạn từ tiếng Trung tốt hơn.

Trong quá trình đào tạo và thiết kế, đối với các nhiệm vụ của Trung Quốc, nhóm Zhiyuan đã cân nhắc kỹ lưỡng hai khía cạnh chất lượng và hiệu quả để xác định kích thước của tokenizer.

Mô hình đối thoại AquilaChat (7B, 33B) được xây dựng trên cơ sở mô hình cơ bản Aquila để hỗ trợ đối thoại văn bản mượt mà và các tác vụ tạo đa ngôn ngữ.

nhiều vòng đối thoại

Thế hệ sáng tác kỳ thi tuyển sinh đại học

Ngoài ra, bằng cách xác định các thông số kỹ thuật hướng dẫn đặc biệt có thể mở rộng, AquilaChat có thể được sử dụng để gọi các mô hình và công cụ khác, đồng thời dễ dàng mở rộng.

Ví dụ: mô hình tạo văn bản và hình ảnh đa ngôn ngữ AltDiffusion do Zhiyuan mã nguồn mở được sử dụng để nhận ra khả năng tạo văn bản và hình ảnh mượt mà. Hợp tác với mô hình đồ thị Vincent có thể điều khiển nhiều bước của Zhiyuan InstructFace, nó cũng có thể dễ dàng thực hiện việc chỉnh sửa hình ảnh khuôn mặt có thể kiểm soát nhiều bước.

tạo văn bản

Chỉnh sửa khuôn mặt có thể kiểm soát nhiều bước

Mô hình tạo "mã văn bản" AquilaCode-7B, dựa trên khả năng tạo mô hình cơ bản mạnh mẽ của Aquila-7B, đạt được hiệu suất cao với một tập dữ liệu nhỏ và một lượng nhỏ tham số. Hiện là mô hình mã nguồn mở hỗ trợ tiếng Trung tốt nhất và hiệu suất song ngữ tiếng Anh. Sau khi lọc chất lượng cao, quá trình đào tạo được thực hiện bằng cách sử dụng dữ liệu mã đào tạo với giấy phép nguồn mở tuân thủ.

Ngoài ra, AquilaCode-7B đã hoàn thành việc đào tạo các mô hình mã trên Nvidia và chip nội địa, đồng thời thông qua mã nguồn mở + các mô hình của nhiều kiến trúc khác nhau, nó thúc đẩy sự đổi mới của chip và trăm hoa đua nở.

tạo mã văn bản

Ngữ liệu tiếng Trung tuân thủ hơn và sạch hơn

So với các mô hình nguồn mở nước ngoài, tính năng đặc biệt nhất của Aquila là nó hỗ trợ các yêu cầu tuân thủ dữ liệu trong nước.

Các mô hình quy mô lớn của nước ngoài có thể có một số khả năng nhất định của Trung Quốc, nhưng hầu như tất cả dữ liệu Internet của Trung Quốc được sử dụng bởi các mô hình quy mô lớn nguồn mở nước ngoài đều được trích xuất từ các bộ dữ liệu Internet như Common Crawl.

Tuy nhiên, nếu chúng tôi phân tích kho dữ liệu Thu thập thông tin chung, chúng tôi có thể thấy rằng có ít hơn 40.000 trang web Trung Quốc có sẵn trong 1 triệu mục nhập của nó và 83% trong số đó là các trang web nước ngoài, điều này rõ ràng là không thể kiểm soát được về chất lượng.

Do đó, Aquila đã không sử dụng bất kỳ kho ngữ liệu tiếng Trung nào trong Common Crawl mà sử dụng bộ dữ liệu Wudao của riêng Zhiyuan được tích lũy trong ba năm qua. Bộ dữ liệu tiếng Trung của Wudao đến từ hơn 10.000 trang web của Trung Quốc đại lục, vì vậy dữ liệu tiếng Trung của nó đáp ứng các yêu cầu tuân thủ và sạch hơn.

Nói chung, bản phát hành này chỉ là một điểm khởi đầu. Mục tiêu của Zhiyuan là tạo ra một bộ hoàn chỉnh các quy trình phát triển và lặp lại mô hình lớn, để mô hình lớn sẽ tiếp tục phát triển với việc bổ sung nhiều dữ liệu hơn và nhiều khả năng hơn, và Nó sẽ tiếp tục trở thành mã nguồn mở và mở.

Điều đáng chú ý là Aquila có sẵn trên card đồ họa tiêu dùng. Ví dụ: mẫu 7B có thể chạy trên bộ nhớ video 16G hoặc thậm chí nhỏ hơn.

Hệ thống đánh giá mô hình lớn Thư viện (Cờ)

Một hệ thống đánh giá mô hình quy mô lớn an toàn, đáng tin cậy, toàn diện và khách quan cũng rất quan trọng đối với đổi mới công nghệ và triển khai công nghiệp các mô hình quy mô lớn.

Trước hết, đối với giới học thuật, muốn thúc đẩy đổi mới mô hình lớn thì phải có thước đo năng lực và chất lượng của mô hình lớn.

Thứ hai, đối với ngành, đại đa số các công ty sẽ chọn sử dụng trực tiếp các mô hình lớn hiện có thay vì phát triển chúng từ đầu. Khi lựa chọn, một hệ thống đánh giá là cần thiết để giúp phán đoán. Rốt cuộc, các mô hình lớn cơ bản tự phát triển dựa trên chi phí năng lượng tính toán khổng lồ. Để phát triển một mô hình với 30 tỷ tham số, số tiền cần có bao gồm sức mạnh tính toán, dữ liệu, v.v., ít nhất là 20 triệu.

Ngoài ra, liệu có thể xây dựng một hệ thống đánh giá mô hình quy mô lớn toàn diện về "đánh giá tự động + đánh giá chủ quan thủ công" và thực hiện vòng khép kín tự động từ kết quả đánh giá đến phân tích năng lực mô hình, rồi đến cải tiến năng lực mô hình hay không. trở thành một khía cạnh quan trọng của đổi mới mô hình quy mô lớn cơ bản.một trong những rào cản.

Để giải quyết điểm nhức nhối này, Viện nghiên cứu Zhiyuan đã chọn ưu tiên khởi chạy hệ thống đánh giá mô hình quy mô lớn Libra (Flag) và nền tảng mở (flag.baai.ac.cn).

Nền tảng mở và hệ thống đánh giá mô hình quy mô lớn của Flag nhằm mục đích thiết lập các tiêu chuẩn, phương pháp và bộ công cụ đánh giá khoa học, công bằng và cởi mở để hỗ trợ các nhà nghiên cứu đánh giá toàn diện hiệu suất của các mô hình cơ bản và thuật toán đào tạo, đồng thời khám phá sử dụng các phương pháp AI để đạt được Sự hỗ trợ của đánh giá chủ quan giúp cải thiện đáng kể hiệu quả và tính khách quan của đánh giá.

Cụ thể, hệ thống đánh giá mô hình quy mô lớn của Flag xây dựng một cách sáng tạo khung đánh giá ba chiều về "chỉ báo khả năng-nhiệm vụ", có thể mô tả chi tiết ranh giới khả năng nhận thức của mô hình cơ bản và trực quan hóa kết quả đánh giá.

Hiện tại, hệ thống đánh giá mô hình quy mô lớn Flag bao gồm tổng cộng hơn 600 thứ nguyên đánh giá, bao gồm 22 bộ dữ liệu đánh giá và 84.433 câu hỏi, đồng thời các bộ dữ liệu đánh giá nhiều thứ nguyên hơn đang dần được tích hợp.

Ngoài ra, hệ thống đánh giá mô hình quy mô lớn của Flag sẽ tiếp tục khám phá nghiên cứu liên ngành giữa đánh giá mô hình ngôn ngữ quy mô lớn và các ngành xã hội như tâm lý học, giáo dục và đạo đức, nhằm đánh giá các mô hình ngôn ngữ quy mô lớn một cách toàn diện và khoa học hơn .

Hơn 30 khả năng × 5 nhiệm vụ × 4 loại chỉ số = 600+ chiều đánh giá toàn diện

Loạt mô hình trực quan lớn

Về tầm nhìn máy tính, nhóm Khai sáng 3.0 đã tạo ra loạt mô hình lớn "Tầm nhìn Khai sáng" với nhận thức cảnh chung và khả năng xử lý tác vụ phức tạp.

Trong số đó, chính công nghệ SOTA của 6 đợt bùng nổ này đã xây dựng nên nền tảng cơ bản của “Giác ngộ·Tầm nhìn”:

Mô hình lớn đa phương thức "Emu", mô hình lớn được đào tạo trước "EVA", mô hình đa tác vụ chung trực quan "Họa sĩ", mô hình phân đoạn tầm nhìn chung, mô hình lớn đào tạo trước đồ họa "EVA-CLIP" và công nghệ chỉnh sửa video "vid2vid -không”.

1. Emu: Hoàn thành mọi thứ theo trình tự đa phương thức

Emu là một mô hình lớn chấp nhận đầu vào đa phương thức và tạo ra đầu ra đa phương thức. Dựa trên lộ trình công nghệ học ngữ cảnh đa phương thức, Emu có thể học từ các chuỗi đa phương thức lớn như văn bản đồ họa, văn bản đồ họa xen kẽ và văn bản video xen kẽ.

Sau khi hoàn thành khóa đào tạo, Emu có thể hoàn thành mọi thứ trong bối cảnh trình tự đa phương thức, nhận thức, suy luận và tạo dữ liệu theo nhiều phương thức khác nhau như hình ảnh, văn bản và video, đồng thời hoàn thành nhiều vòng đối thoại văn bản đồ họa và một vài mẫu đồ họa -hiểu văn bản , câu hỏi và câu trả lời video, tạo văn bản thành hình ảnh, tạo hình ảnh thành hình ảnh và các tác vụ đa phương thức khác.

2. EVA: Mô hình cơ bản trực quan cấp tỷ mạnh nhất

địa chỉ dự án:

Địa chỉ giấy tờ:

EVA kết hợp mô hình học ngữ nghĩa (CLIP) và phương pháp học cấu trúc hình học (MIM), đồng thời mở rộng mô hình ViT tiêu chuẩn lên 1 tỷ tham số để đào tạo. Trong một cú trượt ngã, nó đã đạt được hiệu suất mạnh nhất vào thời điểm đó trong một loạt các tác vụ nhận thức trực quan như phân loại ImageNet, phát hiện và phân đoạn COCO cũng như phân loại video Động học.

3. EVA-CLIP: Mô hình CLIP mã nguồn mở mạnh mẽ nhất

Địa chỉ dự án: /tree/master/EVA-CLIP

Địa chỉ giấy tờ:

EVA-CLIP, được phát triển với mô hình tầm nhìn cơ bản EVA làm cốt lõi, đã được lặp lại thành 5 tỷ tham số.

So với OpenCLIP trước đây với tỷ lệ chính xác là 80,1%, mô hình EVA-CLIP có tỷ lệ chính xác là 82,0% trong ImageNet1K zero-sample top1. Xét về độ chính xác của ImageNet kNN, mẫu DINOv2 mới nhất của Meta ngang bằng với EVA-CLIP 1 tỷ thông số.

4. Painter: Con đường công nghệ "học hình ảnh theo ngữ cảnh" đầu tiên

địa chỉ dự án:

Địa chỉ giấy tờ:

Ý tưởng cốt lõi của mô hình họa sĩ mô hình trực quan chung là "lấy tầm nhìn làm trung tâm". Bằng cách sử dụng hình ảnh làm đầu vào và đầu ra, thông tin hình ảnh theo ngữ cảnh sẽ thu được để hoàn thành các tác vụ trực quan khác nhau.

5. Mô hình phân đoạn phổ quát của Horizons: Tất cả trong một, chia nhỏ mọi thứ

Mô hình phân đoạn phổ quát đường chân trời có khả năng lập luận bối cảnh trực quan mạnh mẽ và mô hình này có thể hiểu ý định của người dùng và hoàn thành các tác vụ phân đoạn tương tự chỉ bằng cách đưa ra một hoặc một vài hình ảnh ví dụ và tín hiệu trực quan.

Nói một cách đơn giản, người dùng đánh dấu và nhận dạng một lớp đối tượng trên màn hình và họ có thể xác định và phân đoạn các đối tượng tương tự theo lô, cho dù ở màn hình hiện tại hay màn hình khác hoặc môi trường video.

6. vid2vid-zero: Công nghệ chỉnh sửa video không lấy mẫu đầu tiên trong ngành

địa chỉ dự án:

Liên kết giấy:

Trang web giới thiệu:

Công nghệ chỉnh sửa video không lấy mẫu "vid2vid-zero" lần đầu tiên sử dụng các đặc tính động của cơ chế chú ý, kết hợp với mô hình khuếch tán hình ảnh hiện có, để tạo ra một khung mô hình để chỉnh sửa video mà không cần đào tạo trước video bổ sung. Bây giờ, chỉ cần tải lên một video, sau đó nhập một chuỗi lời nhắc văn bản, bạn có thể chỉnh sửa video với các thuộc tính được chỉ định.

Người khai sáng nghiên cứu mô hình quy mô lớn của Trung Quốc

Viện nghiên cứu Zhiyuan, được thành lập vào tháng 11 năm 2018, là viện tiên phong nghiên cứu mô hình quy mô lớn ở Trung Quốc. Sau 5 năm phát triển, nó đã trở thành chuẩn mực cho nghiên cứu mô hình quy mô lớn ở Trung Quốc.

Điều khiến nó khác biệt so với các viện nghiên cứu khác là Viện nghiên cứu Zhiyuan là một viện nghiên cứu nền tảng. Khi mới thành lập, Viện nghiên cứu Zhiyuan đã coi việc tạo ra một hệ sinh thái đổi mới trí tuệ nhân tạo là một trong những sứ mệnh và nhiệm vụ cơ bản của mình.

Zhiyuan đã thúc đẩy sự phát triển của nghiên cứu mô hình quy mô lớn ở Trung Quốc như thế nào kể từ khi thành lập?

Trên thực tế, việc thành lập Viện nghiên cứu Zhiyuan diễn ra đúng lúc các mô hình quy mô lớn của nước ngoài xuất hiện.

Nói về điều này, hướng chính của nghiên cứu OpenAI được thành lập vào năm 2015 là khám phá lộ trình đến AGI và nó không phải là một mô hình lớn.

Sau năm 2018, OpenAI bắt đầu tập trung vào các mô hình lớn và phát hành GPT với 117 triệu tham số vào tháng 6. Trong cùng năm đó, Google cũng đã phát hành mô hình ngôn ngữ được đào tạo trước quy mô lớn BERT với 300 triệu tham số.

Mọi người đều nhận thấy rằng xu hướng toàn ngành và xu hướng công nghệ trong năm 2018 là tạo ra một mô hình lớn hơn.

Khi sức mạnh tính toán mà mô hình sử dụng tăng lên, Định luật Moore trở thành cái gọi là "luật mô hình", tức là sức mạnh tính toán được sử dụng để đào tạo một mô hình lớn tăng gấp đôi sau 3-4 tháng.

Cũng trong năm 2018, Viện nghiên cứu Zhiyuan được thành lập, đi đầu trong việc tập hợp các học giả hàng đầu trong lĩnh vực AI và bắt đầu khám phá các mô hình lớn.

Do đó, vào năm 2021, Zhiyuan đã liên tiếp phát hành hai mô hình lớn Khai sáng 1.0 và Khai sáng 2.0.

Theo Huang Tiejun, tại cuộc họp báo Khai sáng 1.0 vào tháng 3 năm 2021, Zhiyuan Research đã đánh giá rằng trí tuệ nhân tạo đã chuyển từ "mô hình lớn" sang một giai đoạn mới của "mô hình lớn". lọt vào tầm nhìn của công chúng.

Hàng năm tại Hội nghị Zhiyuan, ba lộ trình kỹ thuật chính để leo lên đỉnh AGI sẽ được kể lại: mô hình lớn, trí tuệ cuộc sống và AI4Science. Ba con đường này không biệt lập mà tác động, ảnh hưởng lẫn nhau.

Ngày nay, lý do chính cho khả năng nổi lên của các mô hình lớn đến từ khối dữ liệu khổng lồ đằng sau chúng.

Bản thân dữ liệu ngôn ngữ chứa đựng kiến thức và trí thông minh phong phú, được trích xuất thông qua các mô hình quy mô lớn và mạng lưới thần kinh được sử dụng để diễn đạt các quy luật đằng sau dữ liệu phức tạp.

Đây là một lý do hợp lý tại sao một trong những lộ trình kỹ thuật của mô hình lớn có thể dẫn đến AGI.

Điều này cũng giải thích tại sao Zhiyuan ban đầu chỉ tập trung vào mô hình lớn. Vào tháng 3 năm 2021, Enlightenment 1.0 được phát hành, tiếp theo là Enlightenment 2.0 vào tháng 6.

Ngoài ra, ngoài mô hình lớn, Zhiyuan cũng không ngừng khám phá hai con đường khác dẫn đến AGI là "Life Intelligence" và "AI4Science".

Vào năm 2022, Zhiyuan đã phát hành bản mô phỏng Caenorhabditis elegans chính xác nhất. Lần này, Zhiyuan đã mở nền tảng mô phỏng cuộc sống "eVolution-eVolution" được sử dụng trong nghiên cứu tuyến trùng nhân tạo để cung cấp dịch vụ trực tuyến.

Tianyan là một nền tảng mô phỏng mạng nơ ron tinh vi quy mô cực lớn, với bốn tính năng đáng chú ý: nền tảng hiệu quả nhất cho mô phỏng mạng nơ ron tinh vi; hỗ trợ mô phỏng mạng nơ ron tinh vi quy mô cực lớn; cung cấp bộ công cụ mô phỏng và mô hình hóa trực tuyến một cửa; Tương tác trực quan chất lượng cao hỗ trợ mô phỏng thời gian thực và hoạt động hợp tác trực quan.

Dựa trên nền tảng Tianyan, nó thực hiện mô phỏng trí thông minh sinh học có độ chính xác cao, khám phá bản chất của trí thông minh và thúc đẩy trí thông minh nhân tạo nói chung lấy cảm hứng từ sinh học. Hơn nữa, nhóm Tianyan đã kết nối Tianyan với thế hệ siêu máy tính exascale mới của đất nước tôi - siêu máy tính thế hệ mới Tianhe.

Thông qua việc triển khai và vận hành thành công "Tianyan-Tianhe", mô hình mô phỏng mạng tinh vi vỏ não thị giác V1 của chuột và các mô hình khác có thể được thực hiện và mức tiêu thụ năng lượng tính toán có thể giảm hơn 10 lần và tốc độ tính toán có thể được tăng hơn 10 lần, đạt mức cao nhất trên thế giới. Hiệu suất của mô phỏng mạng nơ ron tinh vi đặt nền tảng vững chắc cho việc thực hiện mô phỏng tinh vi của toàn bộ não người.

Bây giờ, hai năm sau, Zhiyuan lại phát hành loạt mô hình lớn Khai sáng 3.0.

Về mặt định vị, kể từ khi phát hành Khai sáng 2.0, Zhiyuan, với tư cách là một tổ chức nền tảng phi lợi nhuận, không chỉ tạo ra các mô hình và mô hình, mà còn dần dần có những đóng góp độc đáo cho việc xây dựng hệ sinh thái cốt lõi của các mô hình lớn.

Trong số đó, nó bao gồm sắp xếp dữ liệu đằng sau mô hình, thử nghiệm mô hình, thử nghiệm thuật toán, nguồn mở và tổ chức mở, cũng như bố cục toàn diện các nền tảng sức mạnh điện toán.

Tại sao Trí Viễn lại có sự thay đổi như vậy?

Bởi vì Zhiyuan hiểu sâu sắc rằng bản thân mô hình lớn không phải là dạng sản phẩm quan trọng nhất trong kỷ nguyên mô hình lớn, mà là một kỷ nguyên mới được đặc trưng bởi hệ thống hóa và dịch vụ trí tuệ.

Hiện tại, mô hình lớn sẽ tiếp tục phát triển và điều không thay đổi là sự lặp lại kỹ thuật đằng sau nó, đó là thuật toán đào tạo mô hình.

Mô hình mới nhất mà bạn nhìn thấy hàng ngày chỉ là kết quả được củng cố, điều quan trọng là liệu thuật toán đào tạo mô hình có tiên tiến hay không, liệu chi phí có được giảm một cách hiệu quả hay không và liệu khả năng đằng sau nó có thể giải thích và kiểm soát được hay không.

Do đó, với tư cách là một tổ chức nền tảng, điều mà Zhiyuan phải làm là tập hợp các thuật toán của các mô hình đào tạo trong ngành thành một tổng thể lặp đi lặp lại.

Công việc này là cần thiết, Zhiyuan không chỉ làm việc trên chính thuật toán của mô hình quy mô lớn mà còn dành nhiều thời gian và năng lượng hơn cho việc phát triển hệ thống kỹ thuật của mô hình quy mô lớn.

Ví dụ: Zhiyuan đã ra mắt nền tảng dịch vụ điện toán đám mây quy mô lớn "Nền tảng điện toán thông minh Jiuding" để cung cấp sức mạnh tính toán, dữ liệu và hỗ trợ thuật toán cho đào tạo mô hình quy mô lớn.

Tất nhiên, đó không chỉ là sức mạnh của riêng Zhiyuan mà còn là sức mạnh của các viện nghiên cứu công nghiệp-trường đại học để cộng tác và lặp lại một cách cởi mở.

Vào tháng 3 năm nay, Zhiyuan đã phát hành hệ thống nguồn mở công nghệ mô hình quy mô lớn FlagOpen Feizhi, là một hệ thống phần mềm mã nguồn mở và mở cho các mô hình quy mô lớn được xây dựng chung với một số đơn vị nghiên cứu của trường đại học công nghiệp.

Như Trưởng khoa Huang Tiejun đã nói: "Chúng tôi hy vọng rằng giờ đây mô hình lớn đã trở thành động lực hàng đầu trong sự phát triển của ngành trí tuệ nhân tạo, chúng tôi sẽ thực hiện nhiều công việc hỗ trợ hơn trong tương lai và đóng góp một lực lượng độc nhất cho thời đại này."

Bạn có thể hỏi, đặc điểm lớn nhất của Hội nghị Tri Viễn năm nay so với những lần trước là gì?

Phong cách nhất quán, gói gọn trong hai từ: chuyên nghiệp và trong sáng.

Hội nghị Zhiyuan được tổ chức mà không có bất kỳ mục tiêu thực tế nào và không chú ý đến các sản phẩm và nhà đầu tư.

Tại đây, những người đứng đầu ngành có thể đưa ra quan điểm cá nhân và đưa ra những nhận định dưới góc độ chuyên môn, và tất nhiên có cả những va chạm, tranh luận của các ý kiến hàng đầu mà không cần xem xét nhiều yếu tố thực tế.

"Bố già của AI" Geoffrey Hinton lần đầu tiên tham gia Hội nghị Zhiyuan trong năm nay, cách đây ít lâu, anh đã từ chức tại Google vì hối hận về công việc cả đời của mình. Ông đã công bố những quan điểm mới nhất về an toàn trí tuệ nhân tạo.

Như mọi khi, Yann LeCun, một người "lạc quan", sẽ không lo lắng về những rủi ro của trí tuệ nhân tạo như hầu hết mọi người, theo ý kiến của anh ấy, việc phanh trước khi ô tô được sản xuất là vô lý. Hiện tại, chúng ta vẫn cần nỗ lực để phát triển công nghệ và thuật toán AI tiên tiến hơn.

Đồng thời, bạn cũng sẽ thấy sự đối đầu gay gắt về quan điểm tại cuộc họp. Max Tegmark về Kiểm soát rủi ro AI. Tuy không thể nói là đối lập hoàn toàn với LeCun nhưng cũng có những điểm khác biệt rất lớn.

Đây là điểm nổi bật nhất của Hội nghị Tri Viễn, và nó cũng là một phong cách nhất quán.

Tính độc đáo của định vị này ngày càng trở nên quan trọng hơn trong những năm gần đây.

Sự phát triển của trí tuệ nhân tạo có tác động ngày càng lớn đến thế giới và Trung Quốc, vì vậy mọi người cần có cơ hội để bày tỏ quan điểm của mình một cách trong sáng, bao gồm cả va chạm ý thức hệ và tranh luận sôi nổi.

Ý nghĩa của điều này là chỉ có các hội nghị càng chuyên nghiệp hơn, trong sáng hơn, trung lập hơn và cởi mở hơn thì mọi người mới có thể nắm bắt tốt hơn thời đại phát triển nhanh chóng như vậy.

Ở nước ngoài, Hội nghị Trí Viễn cũng có danh tiếng xuất sắc, các tổ chức quốc tế coi Hội nghị Trí Viễn là cơ hội hợp tác với Trung Quốc trong lĩnh vực nghiên cứu trí tuệ nhân tạo.

Nguồn gốc của cái tên Zhiyuan cũng là nguồn gốc của trí thông minh. Do đó, việc tổ chức Hội nghị Zhiyuan đã trở thành một sự kiện mang tính bước ngoặt để thúc đẩy sự phát triển sinh thái của trí tuệ nhân tạo.

Đội ngũ khách mời hùng hậu, cách thiết lập chủ đề phong phú và chiều sâu của nội dung thảo luận đã tạo nên một Hội nghị Tri Viễn độc đáo.

Sự kiện hàng đầu dành riêng cho các chuyên gia AI này đã trở thành một tấm danh thiếp sáng giá trong lĩnh vực AI ở Trung Quốc.

Người giới thiệu:

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)