Vietnamese
Legal Benchmark

Bộ tiêu chuẩn đánh giá AI pháp lý hàng đầu tại Việt Nam

0
Câu hỏi
0
Lĩnh vực luật
0
Levels
0
Models đánh giá
0
Văn bản pháp luật
0
Quyết định
0
Công văn
0
Chuyên gia kiểm duyệt

Bộ Dữ Liệu Đánh Giá

VILegalBench thiết lập chuẩn mực mới với 5 Cấp độ đánh giá chuyên sâu và kho tàng 9,000+ câu hỏi
Được xây dựng bởi các chuyên gia pháp lý hàng đầu, bộ dữ liệu bao quát toàn diện năng lực AI:
Từ ghi nhớ kiến thức đến lập luận pháp lý có cơ sở dẫn chiếu phức tạp.

1

Recognition & Recall

1.1 Legal Entity Recognition

500

Nhận diện và phân loại thực thể (người, tổ chức, tiền tệ, thời gian) trong văn bản luật.

1.2 Legal Topic Classification

800

Phân loại câu hỏi pháp lý vào các chủ đề xác định trước.

1.3 Legal Concept Recall

300

Gợi nhớ định nghĩa hoặc ý nghĩa của các thuật ngữ và khái niệm pháp lý.

1.4 Article Recall

800

Truy xuất hoặc trích dẫn điều luật chính xác tương ứng với truy vấn.

1.5 Legal Schema Recall

800

Gợi nhớ các mối quan hệ phân cấp và thời gian giữa các văn bản luật.

2

Understanding & Structuring

2.1 Relation Extraction

300

Trích xuất chủ thể, đối tượng và nội dung quan hệ pháp lý từ tình huống.

2.2 Legal Element Recognition

300

Xác định giả định, quy định và chế tài trong quy phạm pháp luật.

2.3 Legal Graph Structuring

300

Chuyển đổi văn bản luật thành đồ thị tri thức có cấu trúc.

2.4 Judgment Verification

500

Đánh giá tính nhất quán của lập luận tòa án với nội dung thực tế.

2.5 User Intent Understanding

1000

Xác định ý định người dùng khi tương tác với trợ lý pháp lý.

3

Reasoning & Inference

3.1 Article prediction

600

Dự đoán điều khoản luật áp dụng cho câu hỏi hoặc truy vấn.

3.2 Legal Court Decision

500

Dự đoán phán quyết cuối cùng của tòa án từ nội dung vụ án.

3.3 Multi-Article Reasoning

300

Suy luận đa bước bằng cách kết nối các quy định trong đồ thị tri thức.

3.4 Conflict Detection

800

Phát hiện mâu thuẫn hoặc sự chồng chéo giữa các điều khoản.

3.5 Penalty Estimation

500

Ước tính hình phạt hoặc biện pháp khắc phục pháp lý phù hợp.

4

Interpretation & Generation

4.1 Legal Summarization

300

Tóm tắt văn bản luật dài (luật, bản án, hợp đồng).

4.2 Judicial Reasoning

300

Tạo lập luận có cấu trúc IRAC giống phong cách tòa án.

4.3 Objective Legal Opinion

300

Tạo ý kiến pháp lý cân bằng và khách quan.

5

Ethics, Fairness & Bias

5.1 Bias Detection

300

Phát hiện định kiến giới tính, chủng tộc, tôn giáo trong câu trả lời.

5.2 Privacy & Data Protection

300

Nhận diện và che giấu dữ liệu nhạy cảm để đảm bảo riêng tư.

5.3 Ethical Consistency

200

Đánh giá sự phù hợp với đạo đức nghề nghiệp và tiêu chuẩn pháp lý.

5.4 Unfair Contract Detection

300

Đánh giá tính công bằng của hợp đồng qua các trường hợp tương tự.

1

Recognition & Recall

1.1 Legal Entity Recognition

500

Nhận diện và phân loại thực thể (người, tổ chức, tiền tệ, thời gian) trong văn bản luật.

1.2 Legal Topic Classification

800

Phân loại câu hỏi pháp lý vào các chủ đề xác định trước.

1.3 Legal Concept Recall

300

Gợi nhớ định nghĩa hoặc ý nghĩa của các thuật ngữ và khái niệm pháp lý.

1.4 Article Recall

800

Truy xuất hoặc trích dẫn điều luật chính xác tương ứng với truy vấn.

1.5 Legal Schema Recall

800

Gợi nhớ các mối quan hệ phân cấp và thời gian giữa các văn bản luật.

2

Understanding & Structuring

2.1 Relation Extraction

300

Trích xuất chủ thể, đối tượng và nội dung quan hệ pháp lý từ tình huống.

2.2 Legal Element Recognition

300

Xác định giả định, quy định và chế tài trong quy phạm pháp luật.

2.3 Legal Graph Structuring

300

Chuyển đổi văn bản luật thành đồ thị tri thức có cấu trúc.

2.4 Judgment Verification

500

Đánh giá tính nhất quán của lập luận tòa án với nội dung thực tế.

2.5 User Intent Understanding

1000

Xác định ý định người dùng khi tương tác với trợ lý pháp lý.

3

Reasoning & Inference

3.1 Article prediction

600

Dự đoán điều khoản luật áp dụng cho câu hỏi hoặc truy vấn.

3.2 Legal Court Decision

500

Dự đoán phán quyết cuối cùng của tòa án từ nội dung vụ án.

3.3 Multi-Article Reasoning

300

Suy luận đa bước bằng cách kết nối các quy định trong đồ thị tri thức.

3.4 Conflict Detection

800

Phát hiện mâu thuẫn hoặc sự chồng chéo giữa các điều khoản.

3.5 Penalty Estimation

500

Ước tính hình phạt hoặc biện pháp khắc phục pháp lý phù hợp.

4

Interpretation & Generation

4.1 Legal Summarization

300

Tóm tắt văn bản luật dài (luật, bản án, hợp đồng).

4.2 Judicial Reasoning

300

Tạo lập luận có cấu trúc IRAC giống phong cách tòa án.

4.3 Objective Legal Opinion

300

Tạo ý kiến pháp lý cân bằng và khách quan.

5

Ethics, Fairness & Bias

5.1 Bias Detection

300

Phát hiện định kiến giới tính, chủng tộc, tôn giáo trong câu trả lời.

5.2 Privacy & Data Protection

300

Nhận diện và che giấu dữ liệu nhạy cảm để đảm bảo riêng tư.

5.3 Ethical Consistency

200

Đánh giá sự phù hợp với đạo đức nghề nghiệp và tiêu chuẩn pháp lý.

5.4 Unfair Contract Detection

300

Đánh giá tính công bằng của hợp đồng qua các trường hợp tương tự.

1

Recognition & Recall

1.1 Legal Entity Recognition

500

Nhận diện và phân loại thực thể (người, tổ chức, tiền tệ, thời gian) trong văn bản luật.

1.2 Legal Topic Classification

800

Phân loại câu hỏi pháp lý vào các chủ đề xác định trước.

1.3 Legal Concept Recall

300

Gợi nhớ định nghĩa hoặc ý nghĩa của các thuật ngữ và khái niệm pháp lý.

1.4 Article Recall

800

Truy xuất hoặc trích dẫn điều luật chính xác tương ứng với truy vấn.

1.5 Legal Schema Recall

800

Gợi nhớ các mối quan hệ phân cấp và thời gian giữa các văn bản luật.

2

Understanding & Structuring

2.1 Relation Extraction

300

Trích xuất chủ thể, đối tượng và nội dung quan hệ pháp lý từ tình huống.

2.2 Legal Element Recognition

300

Xác định giả định, quy định và chế tài trong quy phạm pháp luật.

2.3 Legal Graph Structuring

300

Chuyển đổi văn bản luật thành đồ thị tri thức có cấu trúc.

2.4 Judgment Verification

500

Đánh giá tính nhất quán của lập luận tòa án với nội dung thực tế.

2.5 User Intent Understanding

1000

Xác định ý định người dùng khi tương tác với trợ lý pháp lý.

3

Reasoning & Inference

3.1 Article prediction

600

Dự đoán điều khoản luật áp dụng cho câu hỏi hoặc truy vấn.

3.2 Legal Court Decision

500

Dự đoán phán quyết cuối cùng của tòa án từ nội dung vụ án.

3.3 Multi-Article Reasoning

300

Suy luận đa bước bằng cách kết nối các quy định trong đồ thị tri thức.

3.4 Conflict Detection

800

Phát hiện mâu thuẫn hoặc sự chồng chéo giữa các điều khoản.

3.5 Penalty Estimation

500

Ước tính hình phạt hoặc biện pháp khắc phục pháp lý phù hợp.

4

Interpretation & Generation

4.1 Legal Summarization

300

Tóm tắt văn bản luật dài (luật, bản án, hợp đồng).

4.2 Judicial Reasoning

300

Tạo lập luận có cấu trúc IRAC giống phong cách tòa án.

4.3 Objective Legal Opinion

300

Tạo ý kiến pháp lý cân bằng và khách quan.

5

Ethics, Fairness & Bias

5.1 Bias Detection

300

Phát hiện định kiến giới tính, chủng tộc, tôn giáo trong câu trả lời.

5.2 Privacy & Data Protection

300

Nhận diện và che giấu dữ liệu nhạy cảm để đảm bảo riêng tư.

5.3 Ethical Consistency

200

Đánh giá sự phù hợp với đạo đức nghề nghiệp và tiêu chuẩn pháp lý.

5.4 Unfair Contract Detection

300

Đánh giá tính công bằng của hợp đồng qua các trường hợp tương tự.

Ứng dụng thành công cho sản phẩm CLS

Được xây dựng dựa trên mô hình AI pháp lý tốt nhất từ VILegalBench
CLS mang đến giải pháp tư vấn pháp lý tự động, chính xác và hiệu quả cho doanh nghiệp và cá nhân.

AI Tư Vấn Chính Xác

Được vận hành bởi mô hình AI đứng đầu bảng xếp hạng VILegalBench. CLS không chỉ trả lời câu hỏi mà còn trích dẫn căn cứ pháp lý minh bạch, hỗ trợ lập luận chuyên sâu đa ngành.

Xử Lý Nhanh Chóng

Tự động hóa tác vụ pháp lý phức tạp: tra cứu tức thì, phân tích hồ sơ và soạn thảo hợp đồng chỉ trong giây lát. Tối ưu hóa 90% thời gian làm việc cho chuyên gia.

Bảo Mật Tuyệt Đối

Hạ tầng bảo mật cấp doanh nghiệp (Enterprise-Grade) với cơ chế mã hóa dữ liệu đầu cuối. Tuân thủ nghiêm ngặt các tiêu chuẩn và quy định về bảo vệ dữ liệu tại Việt Nam.

Leaderboard

Model Recognition & Recall Understanding & Structuring
1.1 1.2 1.3 1.4 1.5 2.1 2.2 2.3 2.4 2.5
ACC ACC ACC ACC ACC ACC ACC ROUGE-L ACC ACC
gpt-4o 66.27 81.14 73.67 82.50 24.25 93.28 67.33 0.615 80.67 54.50
gpt-4o-mini 64.00 82.71 61.33 68.40 22.25 87.35 51.33 0.555 73.33 61.68
Qwen2.5-72B-Instruct-AWQ 65.73 80.43 - 79.10 21.88 - - 0.593 83.83 23.58
Qwen2.5-32B-Instruct-AWQ 71.47 90.12 71.33 79.70 22.25 90.12 67.00 0.433 80.00 56.99
Qwen2.5-14B-Instruct 68.80 82.28 65.67 74.60 20.50 85.38 55.53 0.573 78.17 58.96
Qwen2.5-7B-Instruct 55.60 79.94 54.00 62.40 21.75 85.37 56.67 0.464 82.80 63.28
Qwen2.5-7B 36.27 30.89 48.00 57.50 25.38 51.38 34.00 0.021 53.33 70.22
Qwen2.5-3B-Instruct 59.47 70.57 50.67 57.95 25.38 72.73 48.00 0.380 67.95 51.04
Qwen2.5-3B 40.67 46.12 42.00 48.10 20.75 61.66 29.33 0.017 47.50 52.50
SeaLLMs-v3-7B-Chat 53.47 68.96 57.67 58.88 22.50 76.28 49.67 0.323 62.10 54.39
SeaLLMs-v3-1.5B-Chat 22.40 49.04 55.33 39.00 25.75 42.69 27.33 0.192 48.50 47.21
google/gemma-2-9b-it 63.28 77.30 65.00 65.60 23.25 79.45 48.00 0.528 79.47 48.65
VLSP-qwen3-4b-legal 57.10 75.99 66.67 70.35 24.50 79.45 45.00 0.324 73.29 58.69
internlm3-8b-instruct 54.53 46.27 51.00 55.48 24.50 68.38 42.67 0.238 67.28 52.30
internlm-chat-20b - 24.01 17.91 21.70 18.13 11.11 9.00 0.001 61.17 32.73
BloomVN-8B-chat 34.93 65.59 63.67 65.29 26.75 70.36 45.00 - 49.08 57.00
Llama-2-7b-chat-hf 20.67 17.28 19.67 19.20 25.50 51.22 27.02 0.163 49.33 44.63
Llama-2-7b-hf - 14.64 21.33 26.60 25.75 32.41 13.00 - 43.33 -
Llama-2-13b-chat-hf 22.93 21.23 21.00 42.20 27.75 56.10 30.24 0.101 48.00 41.81
openai/gpt-oss-20b 4.67 73.21 47.33 39.00 18.63 45.06 28.33 0.031 66.50 56.43
Model Reasoning & Inference Generation Interpretation
3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 5.1 5.2 5.3 5.4
ACC ACC ACC ACC ACC ROUGE-L ROUGE-L ROUGE-L ACC ACC ACC ACC
gpt-4o 38.83 84.50 73.50 89.44 68.99 0.326 94.31 0.498 - - - -
gpt-4o-mini 35.33 82.17 74.66 76.40 55.87 0.327 86.96 0.493 - - 92.17 71.05
Qwen2.5-72B-AWQ 33.50 85.50 - 85.09 - - - 0.483 - - - -
Qwen2.5-32B-AWQ 32.66 82.67 74.66 77.60 59.78 0.311 94.98 0.465 - 68.06 97.39 -
Qwen2.5-14B 39.67 82.17 71.92 65.60 53.35 0.271 95.32 0.405 - 67.59 - -
Qwen2.5-7B 35.83 81.67 71.23 61.60 56.15 - 89.63 0.468 - 60.65 - -
Qwen2.5-3B 26.67 68.67 69.86 56.00 45.81 0.259 69.57 0.421 - 54.17 - -
qwen3-4b-legal 43.83 82.00 76.37 68.00 54.47 0.436 92.31 0.438 - 61.57 93.91 -
gemma-2-9b-it - 80.83 72.95 68.00 49.44 0.327 86.96 0.468 - 59.26 - -
internlm3-8b 26.67 71.00 65.07 68.00 43.02 0.265 83.95 0.288 - 58.80 - -
SeaLLMs-v3-7B 26.00 81.50 64.38 51.20 49.16 0.170 71.57 0.414 - 56.94 - -
SeaLLMs-v3-1.5B 26.67 55.00 44.52 31.20 34.92 0.218 49.83 0.412 - 31.02 - -
BloomVN-8B 32.17 82.33 70.89 61.60 50.00 - 57.19 0.410 - 47.22 - -
gpt-oss-20b 29.67 66.00 52.74 16.00 37.15 - 62.54 - - 58.80 - -
Llama-2-7b 21.83 29.67 23.63 24.80 33.62 - 33.22 0.032 - 26.85 - -
Llama-2-13b 21.67 45.67 32.53 - 30.79 0.015 - - - 28.24 - -

Hợp tác Đánh giá & Nghiên cứu

Cơ hội Hợp tác

Đóng góp Dataset

Chia sẻ dữ liệu pháp lý chuyên ngành, câu hỏi đánh giá, hoặc case study để làm phong phú thêm benchmark.

Submit Model Evaluation

Đưa mô hình AI của bạn vào bảng xếp hạng. Chúng tôi hỗ trợ đánh giá miễn phí cho các mô hình công khai và nghiên cứu.

Hợp tác Nghiên cứu

Tham gia nghiên cứu, công bố bài báo khoa học, hoặc xây dựng task evaluation mới cho lĩnh vực pháp lý.

Tư vấn Chuyên môn

Các chuyên gia pháp lý có thể tham gia review dataset, verify câu trả lời, hoặc đóng góp ý kiến cải thiện benchmark.

Email: c-openai@cmc.com.vn

Website: openaiplatform.cmcai.vn/

Gửi yêu cầu hợp tác

Vui lòng điền thông tin bên dưới, đội ngũ của chúng tôi sẽ liên hệ lại trong vòng 48 giờ.

Bằng việc gửi form, bạn đồng ý với chính sách bảo mật của chúng tôi.

FAQ

Giải đáp các thắc mắc về VILegalBench