Thảo luận:Cây quyết định

Untitled sửa

  • "including resource costs and risks"

được dịch là

  • bao gồm hao phí và rủi ro tài nguyên

trong khi đó, nó có nghĩa là:

  • bao gồm các hao phí về tài nguyên và những rủi ro

Mong sửa lại.--Hai Dang Quang 14:24, 21 tháng 8 2006 (UTC)


ok, lỗi này bạn chỉ đúng. ThanksTmct 14:59, 21 tháng 8 2006 (UTC)

consequences sửa

Từ này được dịch là hệ quả, có phải nó là hậu quả không?--Hai Dang Quang 14:26, 21 tháng 8 2006 (UTC)

Đúng là có nghĩa "hậu quả", nhưng còn tùy ngữ cảnh.Tmct 14:59, 21 tháng 8 2006 (UTC)

tree structure sửa

Từ này hình như được gọi cấu trúc phả hệ, chứ không phải cấu trúc dạng cây như trong bài dịch?--Hai Dang Quang 14:27, 21 tháng 8 2006 (UTC)

Đúng là cấu trúc cây. Tuy cấu trúc phả hệ cũng có hình dáng giống như vậy, nhưng trong hầu hết các trường hợp sử dụng, nó có tính "thừa kế". Tmct 14:59, 21 tháng 8 2006 (UTC)
TMCT đã đặt chữ "phả hệ" sang mức sâu hơn. Đúng vậy chỉ nên dùng "phả hệ" trong trường hợc có thừa kế đặc tính của các "thế hệ" cha mẹ. Chữ "phả hệ" này tùy trường hợp, có thể dùng trong các ngôn ngữ OOP. LĐ 16:01, 21 tháng 8 2006 (UTC)
Cấu trúc dạng cây (tree structure) , còn cấu trúc phả hệ( genealogy structure ).--Bùi Dương 16:48, 21 tháng 8 2006 (UTC)

Dịch câu sửa

Trong bài tiếng Anh Decision Tree có câu:

  • Decision tree is a predictive model; that is, a mapping of observations about an item to conclusions about the item's target value

Theo tôi nên dịch là:

... có nghĩa là, sự liên kết giữa kết quả quan sát một đối tượng (vật thể) nào đấy với những kết luật về giá trị tương xứng của nó --Hai Dang Quang 14:37, 21 tháng 8 2006 (UTC)

Còn tôi:

...một ánh xạ từ các quan sát về một vật/hiện tượng tới các kết luận về giá trị mục tiêu của vật/hiện tượng. Tmct 14:59, 21 tháng 8 2006 (UTC)
Theo LĐ, câu của MC dịch đúng nghĩa hơn.
Theo tôi, sau khi quan sát vật thể đó rồi, tôi mới ra kết luật về giá trị tương xứng. giá trị mục tiêu báo với người đọc rằng, một giá trị cho trước nào đó đã định sẵn cho nó, gần giống với nghĩa mục tiêu của chúng ta là đạt được giá trị .. so and so. Như vậy, giá trị mục tiêu đặt trước, rồi mới quan sát, thay vì nghĩa của câu là quan sát rồi mới xác định giá trị tương xứng của nó.--Hai Dang Quang 19:05, 21 tháng 8 2006 (UTC)
Vấn đề ở đây người viết (tác giả câu Anh ngữ) cho ý rõ ràng: Một hàm (ánh xạ) từ đối tượng A -> đối tượng B. việc chuyển dịch sẽ "hợp ý" tác giả hơn nếu giữ nguyên được "cấu trúc ý" này của tác giả . Dó đó, MC chính xác hơn. Còn việc "suy diễn" nghĩa này nghĩa nọ là do người dịch. Cấu trúc dịch kiểu tmct, đã mô phỏng đúng về việc tác giả ghi lại một "ánh xạ" chứ không phải cách diển tả thứ tự các hành vi "trước sau" (của người dịch). (Hơn nữa, không có sự sai ở đây -- chỉ có chính xác hơn về ý nghĩa) LĐ (15.235.153.106 19:46, 21 tháng 8 2006 (UTC))

Trong nội dung chính xác không có thứ tự sau trước nào hết, câu chỉ nói về 1 ánh xạ từ "dữ liệu đã thu thập" (các quan sát) tới "các kết luận", ánh xạ thì không có liên quan gì đến trình tự thời gian. Ở đây không phải như cách thông thường là quan sát hiện tượng rồi đưa ra kết luận. Khi nào bạn hiểu cơ chế của học phân loại bằng cây quyết định (learning by decision tree), bạn sẽ không thắc mắc nữa. Tmct 19:53, 21 tháng 8 2006 (UTC)


  • A leaf represents the predicted value of target variable given the values of the variables represented by the path from the root.

Theo tôi nên dịch là:

Mỗi nhánh lá đại diện cho một giá trị dự đoán của biến số đối tượng, với những giá trị cho trước của các biến số, đại diện bằng các nhánh của chúng từ gốc --Hai Dang Quang 14:45, 21 tháng 8 2006 (UTC)

Còn tôi:

Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó.

("Nút lá", "nút gốc", "đường đi" là thuật ngữ Lý thuyết đồ thị, cây là một loại đồ thị) - Tmct 14:59, 21 tháng 8 2006 (UTC)

'node (Nút) khác với leaf (lá) ở chỗ nút là nơi phân nhánh xảy ra, là điểm cuối cùng của phân nhánh.--Hai Dang Quang 16:06, 21 tháng 8 2006 (UTC)

Ở đây Nếu trong "dataqbase" thì Hai Dang Quang đúng leaf là "nơi chứa dữ liệu" mà không có liên kết tiếp cho thế hệ đi sau. (Trên "cây dữ liệu" thì nó là "lá", còn "node" đúng là các "nút" có khả năng liên kết tạo ra phân nhánh con. (Nút có thể chứa dữ liệu hay không là tùy cấu trúc của cây nữa)

Thuật ngữ tiếng Anh là "leaf" hoặc "leaf node", tương đương tiếng Việt là "lá" hoặc "nút lá" (nhưng "nút lá" thông dụng hơn). Không phải node (nút) nghĩa là phải là nút có nút con. Nút có con là "nút trong" (internal node). Xem thêm en:Tree structure. Tmct 19:53, 21 tháng 8 2006 (UTC)


  • Here, a decision tree describes a tree structure wherein leaves represent classifications and branches represent conjunctions of features that lead to those classifications [1].

Trong bài dịch là:

Khi đó, câu quyết định mô tả một cấu trúc cây, trong đó,

Nên đổi là:

Ở đây, cây quyết định mô tả một cấu trúc cây, trong đó,

--Hai Dang Quang 15:03, 21 tháng 8 2006 (UTC)


"Khi đó" nghĩa là "Khi dùng trong khai phá dữ liệu". Chúng ta viết văn Việt, quan trọng là chuyển tải đúng ý chứ không phải nhất nhất sát từng chữ với bản tiếng Anh. Cảm ơn bạn tìm được lỗi chính tả. Tmct 15:15, 21 tháng 8 2006 (UTC)
Khi, lúc là từ chỉ thời gian, trong khi ngữ cảnh của chữ here trong câu này ám chỉ đến một kỹ thuật, hay một quy trình.

--Hai Dang Quang 16:03, 21 tháng 8 2006 (UTC)

Lại vấn đề về tiếng Việt.Tmct 19:53, 21 tháng 8 2006 (UTC)

  • A decision tree can be learned by splitting the source set into subsets based on an attribute value test [1].

Câu dịch:

Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính [1].

Hơi tối nghĩa, theo tôi nên:

Một cây quyết định có thể được tiếp thu bằng cách phân tập hợp nguồn thành các nhóm nhỏ dựa vào kết quả thử nghiệm giá trị thuộc tính [1].

--Hai Dang Quang 16:17, 21 tháng 8 2006 (UTC)

"Học", "tập con" là thuật ngữ chuyên ngành. Ở đây không có "kết quả thử nghiệm", mà chỉ có "dữ liệu test", đáng ra nên để nguyên là test. Một lần nữa, khi hiểu về machine learning, bạn sẽ không thắc mắc như vậy.Tmct 19:53, 21 tháng 8 2006 (UTC)

  • This process is repeated on each derived subset in a recursive manner.

Trong bài dịch là:

Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất.

Theo tôi nên dịch là:

Quá trình này được lặp lại cho mỗi nhóm nhỏ đã được phân định.

Hay ngắn hơn:

Quá trình này được lặp lại trên mỗi phân nhóm.

Xin bỏ một cách đệ qui vì chữ lặp lại trong tiếng Việt đã đủ cho người đọc hiểu. Tôi hiểu chữ dẫn xuất tuy không tìm thấy trong từ điển Lạc Việt, nhưng hình như chữ này tương đương với trích dẫn thì phải. --Hai Dang Quang 16:53, 21 tháng 8 2006 (UTC)

Lặp và đệ qui không giống nhau, trong câu trên nói về hai thứ khác nhau, không thể bỏ được cái nào. "Dẫn xuất" là thuật ngữ, nó không có nghĩa trích dẫn mà có nghĩa "là kết quả thu được/nhận được từ một quá trình nào đó".Tmct 19:53, 21 tháng 8 2006 (UTC)

  • The recursion is completed when splitting is either non-feasible, or a singular classification can be applied to each element of the derived subset.

Trong bài dịch:

Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất.

Theo tôi nên dịch là:

Quá trình đệ qui kết thúc khi không thể phân nhánh hơn được nữa, hay khi mỗi phân nhánh có thể được phân loại riêng biệt và đứng một mình.

--Hai Dang Quang 17:13, 21 tháng 8 2006 (UTC)

Ở đây "a singular" là "một", không phải "mỗi" (each/every). Với trình độ tiếng Việt và với kiến thức về cây quyết định của tôi, phần sau của đoạn dịch của bạn hoàn toàn sai. Tmct 19:53, 21 tháng 8 2006 (UTC)

  • A random forest classifier uses a number of decision trees, in order to improve the classification rate.

Trong bài dịch là:

Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại.

Theo tôi nên dịch là:

Thủ tục (hay quy trình) phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để tăng tốc độ xử lý.

--Hai Dang Quang 17:41, 21 tháng 8 2006 (UTC)

Classifier ở đây cũng có thể là một chương trình/phần mềm/hệ thống. rate ở đây là tỷ lệ, không phải tốc độ. classification là phân loại, không phải xử lý. Tmct 19:53, 21 tháng 8 2006 (UTC)
Tmct nói đúng, đây là tỉ lệ phân loại, vì nó là giá trị.--Hai Dang Quang 21:06, 21 tháng 8 2006 (UTC)

  • Decision trees are also a descriptive means for calculating conditional probabilities.

Trong bài dịch là:

Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện.

Theo tôi nên dịch là:

Cây quyết định cũng là một phương pháp diễn giải các phép tính xác suất có điều kiện.

--Hai Dang Quang 17:48, 21 tháng 8 2006 (UTC)

Calculating là danh từ kiểu verb-ing, nó chỉ "sự" hành động. đó là "việc tính toán", không phải "phép tính"
"Means" không phải phương pháp mà là phương tiện.
Sao tôi lại phải giải thích tiếng Anh cho người dùng tiếng Anh nhiều hơn tiếng Việt thế này? :(( Tmct 19:53, 21 tháng 8 2006 (UTC)
Sao tôi lại phải giải thích tiếng Anh vì tiếng Việt của bạn tối nghĩa lắm. Xin nói thật, mong thứ lỗi cho tôi.--Hai Dang Quang 21:06, 21 tháng 8 2006 (UTC)
Dịch thiếu chính xác không làm cho câu văn đỡ tối nghĩa hơn đâu. Hề hề, tiếng Việt như câu của tôi ở trên mà bạn còn thấy tối nghĩa thì tôi chịu rồi.
Tmct 21:43, 21 tháng 8 2006 (UTC)
TB. Bạn không phải mong thứ lỗi vì tôi không có thói quen "tức" khi nghe nói thật. Cũng mong bạn không "tức" khi tôi nói thật nhưng không mong thứ lỗi.

  • The dependent variable, Y, is the variable that we are trying to understand, classify or generalise. The other variables x1, x2, x3 etc are the variables that will help us on that job.

Trong bài dịch là:

Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa. x1, x2, x3 ... là các biến sẽ giúp ta thực hiện công việc đó.

Có thể phân ý đầu tiên ra thành hai phần và dịch là:

Biến số phụ thuộc ở đây là biến số Y, và là biến số mà chúng ta cần tìm hiểu, phân loại hay tổng quát. Các biến số x1, x2, x3 ... là những biến số sẽ giúp ta thực hiện công việc đó.

--Hai Dang Quang 18:15, 21 tháng 8 2006 (UTC)

Không dùng "biến số" vì nhiều khi nó không có giá trị bằng "số". "Biến phụ thuộc Y là biến mà..." là cấu trúc rất bình thường trong tiếng Việt. Trong tiếng Việt cũng không phải lúc nào cũng "các" hay "những" thì mới biểu thị số nhiều. Tmct 19:53, 21 tháng 8 2006 (UTC)

Data mining sửa

Theo tôi nên dịch là Khai thác dữ liệu, chứ không nên là khai phá dữ liệu.

  1. Khai phá: change a waste land into cultivated areas
  2. Khai thác: exploit, develope

--Hai Dang Quang 14:56, 21 tháng 8 2006 (UTC)

Đây là thuật ngữ chuyên ngành đã được nhiều người quen dùng. "Khai phá" cũng không hề sai nghĩa. Ngoài ra, đã có chuyển hướng cho "khai thác". Tmct 14:59, 21 tháng 8 2006 (UTC)
Khai thác dữ liệu chính xác và thuần việt hơn.--Bùi Dương 16:51, 21 tháng 8 2006 (UTC)

Tôi không chặt cây, không khai hoang, không phá đi một cái gì cả, chỉ khai thác những cái gì vốn có mà thôi. Hay nói cách khác, tôi tận dụng nó, khai thác thêm những tính năng của nó để làm việc gì. --Hai Dang Quang 15:54, 21 tháng 8 2006 (UTC)


Theo tôi chữ "khai phá" ở đây không hoàn toàn có nghĩa là "chặt phá" mà là theo hướng khai hoang và mở mang. Ở đây bạn đã quá nhấn mạnh nghĩa của chữ waste nhưng không để ý rằng mục tiêu tối hậu của cụm từ mà bạn định nghĩa là cultivate. LĐ 16:18, 21 tháng 8 2006 (UTC)

Khi tôi khai thác dữ liệu, tôi tổng hợp nó, phân hạng nó, để xem dữ liệu có cho tôi những tổng kết hoặc khái quát được một (trào lưu, xu hướng v.v.) nào không mà thôi. Tôi không đi khai hoang cái gì cả.--Hai Dang Quang 16:35, 21 tháng 8 2006 (UTC)

Một khi dữ liệu chưa được phân hạng, định dạng, xếp lớp, ...phân tích , tổng hợp thì nó chỉ là 1 đống hỗn độn hoàn toàn tương tự trước khi khai phá dất rừng miền Nam trong thế kĩ 17. Như vậy, ông bạn đã phải phân tích, tổng kết, khái quát, phân hạng dữ liệu tức là đã "khai phá" đó. Còn bước "khai thác" có thể hiểu là bước sử dụng, ứng dụng hay trích ly ra từ "đống dữ liệu" đã được (hay chưa được) "khai phá" ! Tuy nhiên, ở đây LĐ chỉ đưa nghĩa còn việc dùng "khai thác" hay "khai phá" tùy ý vì LĐ cũng chua bao giờ dùng "khai phá". LĐ 18:16, 21 tháng 8 2006 (UTC)
Nếu Google "khai thác dữ liệu" sẽ thấy đa số kết quả không có nghĩa "data mining" mà chỉ là hai từ riêng biệt "khai thác" và "dữ liệu" trong một ngữ cảnh khác. Đây là một lý do lớn để tránh dùng "khai thác dữ liệu" làm thuật ngữ - nó bị lẫn với các cụm từ không phải thuật ngữ -> gây khó hiểu cho người đọc. Tmct 20:00, 21 tháng 8 2006 (UTC)

computing sửa

Trong bài có câu:

  • Decision tree can be described also as the synergy of mathematical and computing techniques that aids on the description, categorisation and generalisation of a given set of data.

Trong bài dịch là:

Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước.

Theo tôi từ computing techniques ở đây nên dịch là kỹ thuật tin học hoặc kỹ thuật máy tính hơn, vì nó ám chỉ đến việc sử dụng máy tính (ie. dùng cấu trúc cây, cái mà ngoài việc dùng máy tính, là một việc dài dòng, tẻ nhạt và khó xử lý đối với con người). tính toántoán học quá gần nhau, hơn thế tính toán không ám chỉ được việc sử dụng máy tính để làm. tính toán còn có thể hiểu nhầm là calculation (hay calculating techniques). --Hai Dang Quang 18:01, 21 tháng 8 2006 (UTC)


Theo LĐ không nên dung kỹ thuật tin học. Chữ kỹ thuật máy tính có thể dùng trong những trường hợp sợ ngộ nhận; nhưng bình thường thì dịch thành kĩ thuật tính toán không có gì sai hết. LĐ 18:25, 21 tháng 8 2006 (UTC)

Practical example sửa

  • Theo mình phần này nên dịch như sau:


Anh bạn Đá vịt (đùa) của chúng ta là người quản lý một câu lạc bộ gôn nổi tiếng. Đáng buồn thay, anh ta đang lúng túng về mức độ (mật độ) tham dự của khách hàng. Lắm lúc, hình như ai cũng muốn chơi gôn cả, và các nhân viên phục vụ phải làm việc cật lực. Song cũng có nhiều ngày, chẳng biết vì lý do gì, không ai đến chơi gôn cả, thành ra các nhân viên phục vụ có quá nhiều thời gian phất phơ. Mục tiêu của Đa-vít là tối ưu hóa sự có mặt của nhân viên bằng cách dự tính trước thời điểm khi nào có người đến chơi gôn. Để hoàn thành việc này, anh ta cần phải hiểu nguyên nhân tại sao người chơi quyết định đến chơi và nếu như họ đến thì vì lý do gì. Anh ta suy luận rằng thời tiết nhất định phải là nguyên nhân cơ bản, và vì thế, anh ta quyết định sử dụng tin tức dự báo thời tiết cho tuần lễ sắp đến. Thế là trong hai tuần, anh ta ghi chép lại các tin tức sau:

  • Dự báo thời tiết nắng, nhiều mây (trời râm) hay trời mưa.
  • Nhiệt độ (độ Fahrenheit).
  • Độ ẩm tương đối tính bằng phần trăm
  • Có gió nhiều hay không
  • và đương nhiên, có người đến chơi gôn hôm đó hay không

Đa-vít biên soạn nhóm dữ liệu này vào một bảng gồm 14 hàng và 5 cột, như dưới đây:


Nhóm dữ liệu chơi gôn
Biến số không phụ thuộc Biến số phụ thuộc
Dự báo thời tiết Nhiệt độ Độ ẩm (%) Có gió Chơi gôn
Nắng 85 85 Không Không
Nắng 80 80 Không
Nhiều mây 83 78 Không

vân vân.

(Hình dưới có thể biên tập lại cho tiếng Việt vào) thảo luận quên ký tên này là của Hai Dang Quang (thảo luận • đóng góp).


  • "Dự báo thời tiết" (weather forcast) bao gồm cả nhiệt độ và độ ẩm, không trùng với "outlook" (ở đây chỉ là nắng/mưa/nhiều mây). Dịch "outlook" thành "dự báo thời tiết" sẽ gây khó hiểu/hiểu nhầm.
Bạn nói đúng, không có Dự báo mà chỉ nên có thời tiết thôi.--Hai Dang Quang 21:20, 21 tháng 8 2006 (UTC)
Mời bạn xem lại nghĩa của từ outlook, nó chỉ là appearance của thời tiết thôi, còn bản thân thời tiết thì vẫn bao gồm nhiệt độ, độ ẩm, sức gió, hướng gió, tầm nhìn xa... Tmct 22:24, 21 tháng 8 2006 (UTC)
  • "nếu như họ đến thì vì lý do là gì" câu này dịch sai. ý nguyên gốc nói đến việc giải thích cái sự "hiểu" của anh này.
Đây là nguyên văn câu tiếng Anh: if there is any explanation for that.. Nếu tôi dịch kiểu (văn phong) của bạn thì phải là nếu có, có giải thích nào cho cái đó không, có phải không?--Hai Dang Quang 21:20, 21 tháng 8 2006 (UTC)
Văn phong của tôi là cách dịch hiện nằm trong bài: "tìm hiểu xem có cách giải thích nào cho việc đó hay không". Tmct 22:22, 21 tháng 8 2006 (UTC)
  • "anh ta ghi chép lại các tin tức sau": không phải "tin tức" mà là "thông tin"/"dữ kiện" (thói quen dùng từ tiếng Việt).
Như vậy có sự khác nhau giữa tin tứcthông tin? :0)) --Hai Dang Quang 21:20, 21 tháng 8 2006 (UTC)
Có chứ. Trong ngữ cảnh của câu đang bàn, tin tức (news) không giống với thông tin(information) hoặc dữ kiện(data).
Nếu bạn có thời gian Việt hóa các hình vẽ và bảng thì rất hoan nghênh. Tuy nhiên, mong bạn không sửa thuật ngữ và sửa ý tiếng Việt vốn có trong bài, vì các thảo luận của bạn đã không chứng tỏ sự nắm vững về kiến thức trong bài cũng như thuật ngữ trong ngành. Tmct 20:20, 21 tháng 8 2006 (UTC)
Có thể bạn đã làm trong ngành, và quen với những cái mà bạn gọi là thuật ngữ, nhưng tôi thấy có nhiều chữ tôi đọc bản dịch tiếng Việt của bạn, tôi không hiểu, trong khi tôi hiểu khá rõ và có hình ảnh trong đầu khi đọc bản tiếng Anh. Đây là tôi góp ý thôi, còn việc thực hiện, chắc là tôi nên nhường cho bạn, để khỏi tránh va vấp sau này. --Hai Dang Quang 21:20, 21 tháng 8 2006 (UTC)
Khó khăn của bạn dễ hiểu thôi. Bạn học Tin hoàn toàn bằng tiếng Anh, nên có thể nói chắc chắn rằng trong Tin học, tiếng Anh là tiếng mẹ đẻ của bạn, trong khi tiếng Việt chỉ là ngoại ngữ. Chuyện gần như thế cũng đã xảy ra với tôi, tôi đã từng có thời gian toàn phải chuyển ngược thuật ngữ từ Việt sang Anh để hiểu mỗi khi đọc tài liệu Tin học tiếng Việt. Đến giờ vẫn còn có những lĩnh vực mà tôi phải làm chuyện dịch ngược đó, Đồ họa máy tính chẳng hạn. Tmct 22:13, 21 tháng 8 2006 (UTC)
Quay lại trang “Cây quyết định”.