Hoan nghênh sửa

Xin chào Oriondream, và hoan nghênh bạn đã tham gia vào dự án này! Dưới đây là một số liên kết có thể có ích cho bạn:

Bạn có thể tham khảo, và xem qua một số bài đã có để biết cách tạo một mục từ hợp lệ. Dù là viết bài mới hay đóng góp vào những bài đã có, rất mong bạn lưu ý về quyền tác giả. Khi thảo luận, bạn nhớ ký tên bằng cách dùng 4 dấu ngã (~~~~). Trong quá trình sử dụng, nếu bạn cần thêm trợ giúp, mời vào bàn giúp đỡ.

Mời bạn tự giới thiệu về bản thân trên trang thành viên của mình. Trang này dành cho thông tin và tiện ích cá nhân trong quá trình làm việc với Wikipedia.

Đặc biệt: Để thử sửa đổi, định dạng... mời bạn vào Wikipedia:Chỗ thử, xin đừng thử vào bài có sẵn.

Công cụ này sẽ đặc biệt hữu ích với bạn.


Mong bạn đóng góp nhiều vào dự án. Xin cám ơn. –Nguyễn Thanh Quang 02:32, ngày 18 tháng 12 năm 2005 (UTC)Trả lời

Tìm kiếm bài đã có trước khi viết sửa

Chào bạn,

Cám ơn các đóng góp nhiệt tình của bạn. Theo hướng dẫn tại Wikipedia:Viết trang mới, chúng ta nên tìm kiếm các bài viết đã có về cùng chủ đề trước khi viết. Như vậy sẽ tránh mất công sức (đúng trên vai ... người đi trước). Bài bộ máy tìm kiếm dữ liệu có nội dung rất trùng với bài đã có máy truy tìm dữ liệu. Mong bạn giúp trộn hai bài này thành 1.

Cám ơn bạn và mong được tiếp tục cùng hợp tác, - Trần Thế Trung | (thảo luận) 15:01, ngày 22 tháng 12 năm 2005 (UTC)Trả lời

Khi sửa đổi bài sửa

Khi bạn sửa đổi bài, bạn nên để ý đừng đè lên sửa đổi có ích khác của người khác. Chẳng hạn như ở bài Gigabyte (lịch sử sửa đổi). --Á Lý Sa (thảo luận) 12:13, ngày 24 tháng 1 năm 2006 (UTC)Trả lời

Không có chi. Lúc đầu bác chưa quen thôi. --Á Lý Sa (thảo luận) 12:52, ngày 24 tháng 1 năm 2006 (UTC)Trả lời

Re: Công cụ wiki hóa sửa

Tôi không hiểu bạn đang hỏi về gì. Chắc bạn muốn hỏi về cách để phần mềm tự động wiki hóa bài khi lưu nó lần đầu tiên. Việc wiki hóa bao gồm nhiều thứ, như việc để một dòng trống giữa các đoạn văn, và việc làm một số chữ thành liên kết đến nội dung liên quan, và việc cộng thêm thẻ thể loại hay liên kết liên wiki. Bây giờ chưa có cách để tự động làm trống một dòng giữa các đoạn văn khi lưu trang, nhưng DHN-bot là một phần mềm tự động (robot) có thể vào những bài mới tạo ra để "wiki hóa" một chút. – Nguyễn Xuân Minh (thảo luận, đóng góp) 05:59, ngày 26 tháng 1 năm 2006 (UTC)Trả lời

Nếu Oriondream dùng cụm từ "công cụ wiki hóa" để chỉ một phần mềm mà có thể biến hóa một bài viết thường tại một website khác thành một bài viết cho Wikipedia thì tôi chắc rằng chúng ta sẽ phải đợi vài thập niên vì đây thuộc vào lãnh vực trí huệ nhân tạo (artificial intelligence).

  • Khi gặp "Tổng thống là người bổ nhiệm các đại sứ" thì cái phần mềm đó phải đọc các đoạn văn chung quanh để biết là nên liên kết với Tổng thống Việt Nam hay Tổng thống Hoa Kỳ.
  • Khi gặp "Alexandre Dumas đã viết cách sách sau..." thì nó phải biết đó là Alexandre Dumas (cha) hay Alexandre Dumas (con).
  • Một đoạn văn viết về thời ông còn trẻ sẽ dùng Lý Công Uẩn, làm sao phần mềm đó biết cách liên kết đến Lý Thái Tổ. Nếu không liên kết được thì mọi người nghĩ đó là 2 tên của 2 người khác nhau.
  • và rất nhiều vấn đề khác đòi hỏi khả năng "đọc và hiểu" mà hiện giờ chúng ta hãy còn khó khăn trong việc đào tạo con người làm việc đó thì làm sao có thể đào tạo máy làm việc đó

Mekong Bluesman 06:56, ngày 26 tháng 1 năm 2006 (UTC)Trả lời

Và nếu Mekong Bluesman hiểu đúng ý của bạn, thì công cụ này sẽ bị vướng với nhiều vấn đề bản quyền, tại vì rất ít trang web thuộc phạm vi công cộng hay nằm dưới giấy phép tự do như GFDL, cho nên có rất ít trang thích hợp để bỏ vào Wikipedia.

Tuy nhiên, chúng ta đang tìm kiếm một website hay cơ sở dữ liệu có nhiều thông tin về các tỉnh, huyện, thị xã, phường, v.v. của Việt Nam mà có bản quyền thích hợp với Wikipedia. Nếu bạn biết đến một website hay cơ sở dữ liệu như vậy thì xin bạn cho biết, tại vì chúng ta có thể dùng một nguồn gốc như vậy để phát triển dự án này nhiều.

– Nguyễn Xuân Minh (thảo luận, đóng góp) 08:19, ngày 26 tháng 1 năm 2006 (UTC)Trả lời
Tôi không đề cập đến vấn đề bỏ trang này hay trang kia vào Wiki. Hiện tôi đang điều hành một website ít nhiều mang tính học thuật nên tôi muốn tạo ra công cụ kia để các đoạn văn bản sau khi được xử lý, các cụm từ - khái niệm sẽ được thay bằng các liên kết đến trang tương ứng trong Wiki. Điều này cực kì có ích nếu người xem muốn đọc chi tiết về một khái niệm.

Đã có người đề nghị tại Wikipedia:Dự án/Phát triển Wikipedia tiếng Việt. Nếu bạn giúp phát triển được thì hoan nghênh nhiệt liệt. - Trần Thế Trung | (thảo luận) 08:48, ngày 26 tháng 1 năm 2006 (UTC)Trả lời
Tôi đã có lần đề nghị Đặng Trần Hiếu phát triển công cụ liên kết từ diễn đàn đến Wiki (do người viết dùng mã, chứ không tự động). Xem tại Wikipedia:Tạo tính năng tra cứu Wikipedia cho diễn đàn- Trần Thế Trung | (thảo luận) 08:50, ngày 26 tháng 1 năm 2006 (UTC)Trả lời

Oriondream viết

Ví dụ đoạn: "Tổng thống là người bổ nhiệm các đại sứ" Sau khi được wiki hóa sẽ thành "Tổng thống là người bổ nhiệm các đại sứ" vì tổng thống đã được định nghĩa trong Wiki còn tổng thống là thì không.
Ví dụ đoạn sau: Alexandre Dumas đã viết các sách sau Sau khi được wiki hóa sẽ thành Alexandre Dumas đã viết các sách sau

Bây giờ thì tôi hiểu là Oriondream muốn làm gì. Một trong nhiều project của tôi khi tôi còn làm việc cho một đại học là nghiên cứu về vấn đề parsing, cho cả ngôn ngữ lập trình và ngôn ngữ tự nhiên. (Ngôn ngữ lập trình, vì đơn giản hơn, nên dễ parse hơn.) Một vấn đền đơn giản mà một sinh viên năm thứ 2 (hay thứ 3) có thể làm là viết một chương trình nhận dạng các từ khóa của một chương trình văn bản khác (source code). Có nghĩa là lấy một source code C++ nào đó và sinh viên phải viết một program nhận ra các if, for, while, do ... until,... trong cái source code đó.

Việc mà Oriondream muốn làm cũng rất là tương tự. Lấy một bài nào đó trong Wikipedia tiếng Việt; đi từ chữ thứ nhất của bài đến chữ cuối cùng của bài; so sánh các chữ đó với tên của tất cả các bài đã được viết tại Wikipedia tiếng Việt; nếu tìm được một trùng hợp 100% thì tạo liên kết đến bài đó.

Việc đó làm dễ lắm (bình thường nó là một bài cho sinh viên và họ có 1 tuần để hoan thành - với một programmer thì còn ít hơn), nhưng không giúp gì nhiều vì sau đó vẫn cần người để đổi các liên kết từ "tổng thống" (bìng thường và đã được viết) sang các bài về tổng thống thích hạp.

Mekong Bluesman 09:21, ngày 26 tháng 1 năm 2006 (UTC)Trả lời

  • Mekong Bluesman đã hiểu gần đúng ý tôi. Tuy nhiên một phần mềm như vậy sẽ mở rộng cụm từ tổng ra thành tổng thống chứ không chọn mỗi chữ tổng hoặc mỗi chữ thống - thế nên mới là gần đúng.
  • Việc cần người đổi liên kết tổng thống thành bài viết tổng thống thích hợp thì Mekong Bluesman chưa hiểu đúng. Tôi đã viết rất rõ ràng là xem có những từ nào có sẵn trong Wiki thì chuyển thành liên kết đến wiki chứ không nói chuyển mọi từ thành liên kết đến Wiki.
    • Chỗ này lại là bạn Oriondream chưa hiểu đúng. Ý bác Mekong nói là cần đổi mã tổng thống thành ra mã [[tổng thống Hoa Kỳ|tổng thống]] hay [[tổng thống Đức|tổng thống]], vân vân... để liên kết đến bài có sẵn về tổng thống Hoa Kỳ hay tổng thống Đức, tùy ngữ cảnh, (ví dụ tùy theo bài về hành pháp Hoa Kỳ hay về chính trị nước Đức) . Avia (thảo luận) 15:58, ngày 26 tháng 1 năm 2006 (UTC)Trả lời
      • Ngay từ đầu tôi đã hiểu ý Mekong đúng như Avia giải thích. Nếu Avia không bỏ sót cụm từ có sẵn tôi viết ở trên thì Avia sẽ nhận ra sự khác biệt nho nhỏ giữa 2 ý tưởng của tôi và của Mekong.
Oriondream 16:22, ngày 26 tháng 1 năm 2006 (UTC)Trả lời
  • Có lẽ Mekong Bluesman cũng là dân IT nên cho rằng đó là một việc làm dễ dàng phải không? Nếu dễ dàng thì mong Mekong Bluesman dành chút thời gian viết chương trình dùm. Theo ý kiến cá nhân, một văn bản có hàng nghìn từ. Mỗi lần kiểm tra là mất một SQL query. Tiếp đó lại phải expand các từ ra rồi lại query xem có trong wiki không (tổng thành tổng thống). Thế là lại mất vài nghìn SQL query nữa. Một người trong nghề sẽ hiểu ngay rằng để đáp ứng một request như thế cực kì tốn tài nguyên. Trích câu tôi hỏi anh Minh là có dịch vụ web nào không.


Oriondream 10:44, ngày 26 tháng 1 năm 2006 (UTC)Trả lời

Tốn tài nguyên máy chủ, nhưng nếu phân ra máy khách (tôi không là dân IT nên nếu dùng nhầm thuật ngữ thì bỏ qua) thì không. Ví dụ mọi người có thể tải về phần mềm "Wikipad" để soạn thảo bài cho wiki, có chức năng wiki hóa, dựa vào một cơ sở dữ liệu thỉnh thoảng được cập nhật/đồng bộ với cơ sở của wiki (ấn nút "cập nhật") (Wikipedia tiếng Việt 1 tháng thêm chừng vài trăm bài, nên chỉ cần vài ba tuần cập nhật cũng chưa muộn). Công cụ Wikipad sinh ra cái gì chưa vừa ý thì người viết bài có thể sửa thêm. Wikipedia hiện có một "dịch vụ web" để biết danh sách tất cả các trang đã có: Đặc biệt:Allpages.- Trần Thế Trung | (thảo luận) 11:03, ngày 26 tháng 1 năm 2006 (UTC)Trả lời
Và một dịch vụ để biết các bài mới viết Đặc biệt:Newpages, giúp việc cập nhật cho Wikipad nhanh hơn. - Trần Thế Trung | (thảo luận) 11:07, ngày 26 tháng 1 năm 2006 (UTC)Trả lời
Ngoài ra, Wikipad có thể hoạt động không cần cơ sở dữ liệu của Wikipedia, mà dùng cơ sở dữ liệu từ điển tiếng Việt, từ điển thuật ngữ chuyên ngành riêng của nó, vì sẽ có những từ được wiki hóa chưa có trong Wikipedia, nhưng trong tương lai sẽ được viết. Chắc một ngày nào đó sẽ có ai đó viết Thổ Nhĩ Kỳ. - Trần Thế Trung | (thảo luận) 11:13, ngày 26 tháng 1 năm 2006 (UTC)Trả lời

Tôi sẽ dùng thí dụ để Oriondream hiểu.

Tôi đã viết một bài có đoạn văn sau đây: "Quốc hội của liên bang họp từ ngày 2 đến ngày 24 tháng 8 mỗi năm dưới sự điều khiển của Chủ tịch" và tôi phải wiki hóa câu đó.

Cũng thí dụ là các bài sau đây đã được viết bởi các người khác: "2" (năm), "2 tháng 8", "24" (năm), "24 tháng 8", "Chủ tịch" (chức vụ), "Chủ tịch Nhà nước", "Chủ tịch Hội đồng bộ trưởng", "Chủ tịch Công ty hữu hạn", "Chủ tịch Quốc hội", "Liên bang" (chính thể), "Liên bang Australia", "Liên bang Canada", "Liên bang Đức", "Quốc hội Australia", "Quốc hội Canada", "Quốc hội Đức", "Quốc hội" (cơ quan); cũng như các bài nói về "quốc" (cái đào đất), "hội" (một cơ quan), "liên" (hoa sen) và "bang" (tiếng nổ).

0. (Tôi đã từng dạy và làm việc tại đại học về computer science không có nghĩa là tôi là một programmer tốt cho vấn đề này. Cái program tôi viết ra có thể rất dễ hiểu và trong sáng cho các người khác đọc để hiểu nhưng rất có thể dùng rất nhiều tài nguyên của máy. Một programmer với một chút kiến thức về data stucture và nhiều kiến thức về SQL sẽ cười cái program đó của tôi.)

1. Việc không làm liên kết sai từ "quốc hội" sang "quốc" (cái đào đất) và "hội" (một cơ quan), hay làm sai từ "liên bang" sang "liên" (hoa sen) và "bang" (tiếng nổ), là một chuyện rất dễ dàng giải quyết. Trong ngôn ngữ lập trình còn có các từ khóa "do ... until", "drop ... catch" (nghĩa là có 2 chữ cách nhau bằng các chữ khác) mà họ vẫn làm được.

2. Việc kế tiếp là phải quyết định liên kết "quốc hội" đến bài quốc hội nào (Australia, Canada hay Đức, hay bài "Quốc hội" tổng quát), liên kết "liên bang" đến bài liên bang nào và "chủ tịch" đến chủ tịch nào.

3. Giải quyết vấn đề trên có 2 cách. Cách hay nhất và đúng nhất là dùng trí huệ nhân tạo (artificial intelligence) để "đọc và hiểu" toàn bài. Do đó biết được câu bên trên là viết về chính trị của nước Đức, thí dụ, nên phải làm liên kết về các bài "Quốc hội Đức", "Liên bang Đức" và "Chủ tịch Quốc hội". Việc này khó nhưng có thể làm được với các máy tính mạnh (vì nếu không program sẽ chạy rất chậm).

4. Cách thứ hai là liên kết về các bài "Quốc hội", "Liên bang" và "Chủ tịch" tổng quát. Cách này thì nhanh và giản dị hơn nhưng cuối cùng vẫn phải có bàn tay và trí óc con người để liên kết về các bài chính xác hơn.

5. Cuối cùng, có các vấn đề đòi hỏi khả năng "đọc và hiểu" của máy rất cao để có thể tạo ra các liên kết đúng (chỉ cần đúng thôi, không cần chính xác). Khi tôi viết "từ ngày 2 đến ngày 24 tháng 8" thì nó mang nghĩa "từ ngày 2 tháng 8 đến ngày 24 tháng 8". Làm cách nào máy hiểu để liên kết ký tự 2 đó đến bài "2 tháng 8"? Khi tôi viết "các ngôn ngữ dùng tại Trung Quốc là Bắc Kinh, Quảng Đông, Triều Châu, ..." thì làm sao máy hiểu đó là các tiếng chứ không phải là các địa danh?

Mekong Bluesman 17:22, ngày 26 tháng 1 năm 2006 (UTC)Trả lời

Tóm lại sửa

  • tôi muốn hỏi Wikipedia hiện có dự án nào về một công cụ/dịch vụ web dùng để phân tích/chuyển đổi một văn bản thành text/html thành một văn bản khác đã được wiki hóa chưa?
Chưa
  • Nếu chưa, tôi có thể đề xuất khởi động dự án như vậy ở đâu?
Wikipedia:Dự án/Phát triển Wikipedia tiếng Việt và ở Bugzilla. Ngoài việc đề xuất, mọi nỗ lực giải quyết đề xuất của bạn đều được đón chào.

- Trần Thế Trung | (thảo luận) 11:28, ngày 26 tháng 1 năm 2006 (UTC)Trả lời
Rất cảm ơn câu trả lời của Trần Thế Trung. Oriondream 16:25, ngày 26 tháng 1 năm 2006 (UTC)Trả lời