Tính toán song song

Tính toán song song (tiếng Anh: Parallel computing), là một hình thức tính toán trong đó nhiều phép tính và tiến trình được thực hiện đồng thời,^[1] hoạt động trên nguyên tắc là những vấn đề lớn đều có thể chia thành nhiều phần nhỏ hơn, sau đó được giải quyết tương tranh ("trong lĩnh vực tính toán"). Có nhiều hình thức khác nhau của tính toán song song: song song cấp bit, song song cấp lệnh, song song dữ liệu, và song song tác vụ. Xử lý song song đã được sử dụng từ nhiều năm qua, chủ yếu là trong lĩnh vực tính toán hiệu năng cao. Gần đây hình thức tính toán này được quan tâm nhiều hơn, do những hạn chế vật lý ngăn chặn việc tăng hiệu năng tính toán chỉ bằng cách tăng tần số.^[2] Vì việc tiêu hao điện năng (dẫn đến sinh nhiệt) từ máy tính đã trở thành một mối lo ngại trong những năm gần đây,^[3] tính toán song song đã trở thành mô hình thống trị trong lĩnh vực kiến trúc máy tính, phần lớn là dưới dạng bộ xử lý đa nhân.^[4]

Các máy tính song song có thể được phân loại tùy theo cấp độ hỗ trợ cho song song của phần cứng, với những chiếc máy tính đa nhân và đa xử lý có bộ phận đa xử lý trong một máy đơn lẻ, trong khi cụm máy tính, xử lý song song hàng loạt, và điện toán lưới sử dụng nhiều máy tính để xử lý cùng một công việc. Những kiến trúc máy tính song song chuyên dụng thỉnh thoảng cũng sử dụng các bộ xử lý truyền thống nhằm tăng tốc độ cho những công việc đặc trưng.

Thuật toán song song khó viết hơn so với những thuật toán tuần tự,^[5] vì sự tương tranh tạo ra nhiều lớp mới tiềm tàng các lỗi phần mềm, trong đó lỗi điều kiện ganh đua là phổ biến nhất. Quản lý việc giao tiếp và đồng bộ giữa các luồng xử lý là một trong những trở ngại lớn nhất để tạo ra một chương trình song song tốt.

Khả năng tăng tốc cao nhất có thể đạt được của một chương trình khi được song song hóa tuân theo định luật Amdahl.

Bối cảnh

Theo truyền thống, phần mềm máy tính được viết cho tính toán tuần tự. Để giải quyết một vấn đề, một thuật toán được xây dựng và thực thi tuần tự theo các dòng lệnh. Những câu lệnh này lại được chạy trên một đơn vị xử lý trung tâm (CPU) của chiếc máy tính. Chỉ có một câu lệnh được chạy trong một khoảng thời gian. Sau khi câu lệnh đó kết thúc, câu tiếp theo mới được thực hiện.^[6]

Tính toán song song, mặt khác, lại sử dụng đồng thời các bộ đa xử lý để giải quyết một vấn đề. Việc này được hoàn thành bằng cách tách vấn đề thành nhiều phần độc lập sau đó mỗi bộ xử lý có thể chạy thuật toán của nó đồng thời với những cái khác. Các bộ phận xử lý có thể khác nhau và bao gồm các dạng tài nguyên như: một máy tính đơn gồm nhiều bộ đa xử lý, nhiều máy tính được kết nối mạng, phần cứng chuyên biệt, hoặc có thể là sự kết hợp của những dạng trên.^[6]

Tăng tần số là cách chủ đạo để cải thiện khả năng xử lý của máy tính từ giữa những năm 1980 cho đến năm 2004. Thời gian chạy của một chương trình được tính bằng số câu lệnh nhân với thời gian trung bình của một câu lệnh. Như vậy nếu duy trì tất cả những thứ khác ổn định, gia tăng tần số xung nhịp sẽ làm giảm thời gian trung bình để thực thi một câu lệnh. Như vậy tần số tăng sẽ giảm đi thời gian chạy của những chương trình chạy trong CPU.^[7]

Tuy nhiên, mức tiêu hao năng lượng của một con chip được tính bởi công thức P = C × V² × F, trong đó P là công suất tiêu thụ, C là điện dung được chuyển trong mỗi chu kỳ xung nhịp (tỷ lệ thuận với số lượng transistor có đầu vào thay đổi), V là điện áp, và F là tần số của bộ xử lý (số chu kỳ mỗi giây).^[8] Như vậy tăng tần số cũng làm năng lượng sử dụng của bộ xử lý tăng theo. Việc tăng tiêu hao năng lượng này đã dẫn đến quyết định ngừng phát triển bộ xử lý Tejas và Jayhawk của Intel tháng 5 năm 2004, được cho là sự chấm dứt của việc sử dụng tăng tần số như một kiến trúc máy tính chủ đạo.^[9]

Định luật Moore là một quan sát thực tế cho thấy mật độ transistor trong bộ vi xử lý tăng gấp hai lần sau mỗi 18 đến 24 tháng.^[10] Bất chấp nhược điểm về tiêu hao năng lượng, và những dự đoán về sự chấm dứt của nó, định luật Moore vẫn khá thông dụng. Với sự kết thúc của phương pháp tăng tần số, các transistor bổ sung này (không còn được sử dụng cho việc tăng tần số) có thể được sử dụng để tạo ra phần cứng bổ sung cho tính toán song song.

Định luật Amdahl và định luật Gustafson

Biểu diễn định luật Amdahl. Khả năng tăng tốc của một chương trình song song hóa bị hạn chế bởi việc có bao nhiêu phần của chương trình có thể được song song. Ví dụ, nếu 90% chương trình được song song, tốc độ tăng cực đại khi sử dụng tính toán song song sẽ là gấp 10 lần, không phụ thuộc vào bao nhiêu bộ xử lý được sử dụng.

Trong trường hợp tối ưu, khả năng tăng tốc từ việc song song hóa là tuyến tính - gấp đôi các thành phần xử lý sẽ làm giảm một nửa thời gian chạy, và gấp đôi lần nữa sẽ lại tiếp tục giảm thời gian chạy xuống còn một nửa. Tuy nhiên, có rất ít thuật toán song song có thể đạt được sự tăng tốc tối ưu. Hầu hết đều chỉ đạt đến gần mức tuyến tính khi số thành phần xử lý là nhỏ và tiệm cận đến một giá trị không đổi khi số lượng các thành phần xử lý tăng lên nhiều.

Tiềm năng của việc tăng tốc bởi một thuật toán trên nền tảng tính toán song song được đưa ra bởi định luật Amdahl, ban đầu được xây dựng bởi Gene Amdahl trong những năm 1960.^[11] Trong đó nói rõ rằng chỉ một phần nhỏ của chương trình không thể được song song cũng sẽ hạn chế khả năng tăng tốc tổng thể của việc song song hóa. Một chương trình giải quyết một vấn đề toán học hoặc kỹ thuật lớn thường sẽ bao gồm một số bộ phận song song và bộ phận không song song (tuần tự). Nếu $\alpha$ là tỷ lệ thời gian chạy mà một chương trình tuần tự bỏ ra trên bộ phận không song song, thì

S={\frac {1}{\alpha }}

là tỷ lệ tăng tốc tối đa khi song song hóa chương trình. Ví dụ, nếu coi phần tuần tự của một chương trình là 10% thời gian chạy, tốc độ tăng sẽ không thể đạt được quá 10 lần, bất kể có bao nhiêu bộ xử lý được thêm vào. Điều này đặt ra một giới hạn về tính hữu ích của việc thêm các đơn vị thực hiện song song với nhau nhiều hơn. "Khi công việc không thể được phân chia vì ràng buộc về trình tự, dù có áp dụng thêm nhiều phương pháp cũng không ảnh hưởng đến tiến độ. Mang thai một đứa trẻ phải mất 9 tháng, cho dù có bao nhiêu người phụ nữ đi nữa."^[12]

Giả sử một công việc có hai bộ phận độc lập, A và B. B chiếm khoảng 25% thời gian của toàn bộ tính toán. Với nỗ lực, một lập trình viên có thể làm cho phần việc này nhanh gấp 5 lần, nhưng điều này chỉ làm giảm thời gian của toàn bộ tính toán đi một chút. Ngược lại, người đó có thể chỉ phải làm việc ít hơn để khiến cho phần A nhanh gấp hai lần. Phương án thứ hai sẽ làm cho toàn bộ công việc tiến triển nhanh hơn so với phương án thứ nhất, mặc dù B có tốc độ tăng lớn hơn (5× so với 2×).

Định luật Gustafson là một nguyên lý khác trong tính toán, liên quan chặt chẽ đến định luật Amdahl.^[13] Nó chỉ ra rằng việc tăng tốc với $P$ bộ xử lý là

S(P)=P-\alpha (P-1).\,

Định luật Amdahl giả định kích thước bài toán là cố định và thời gian chạy của các phần tuần tự của chương trình là độc lập với số lượng bộ xử lý, trong khi định luật Gustafson không đưa ra giả thuyết này.

Phụ thuộc

Hiểu biết về phụ thuộc dữ liệu là bước cơ bản trong việc thực hiện thuật toán song song. Không một chương trình nào có thể chạy nhanh hơn chuỗi dài nhất của các phép tính phụ thuộc (được biết đến như là đường tới hạn), khi mà các phép tính phụ thuộc vào các phép tính trước trong chuỗi phải được thực hiện theo thứ tự. Tuy nhiên, hầu hết các thuật toán không chỉ bao gồm một chuỗi dài các phép tính phụ thuộc, luôn luôn có khả năng phải thực hiện các phép tính độc lập song song.

Cho P_i và P_j là hai đoạn của chương trình. Bernstein's conditions^[14] mô tả khi nào hai đoạn độc lập với nhau và có thể được thực hiện song song. Với P_i, đặt I_i là tất cả các biến đầu vào, O_i là biến đầu ra, tương tự ta làm như vậy với P_j. P _i và P_j là độc lập nếu chúng thỏa mãn

$I_{j}\cap O_{i}=\varnothing ,\,$
$I_{i}\cap O_{j}=\varnothing ,\,$
$O_{i}\cap O_{j}=\varnothing .\,$

Không thỏa mãn điều kiện đầu tiên sẽ tạo ra một phụ thuộc lưu lượng, giông như câu lệnh đầu tiên sẽ tạo ra một kết quả được sử dụng ở câu lệnh thứ hai. Điều kiện thứ hai có thể coi là chống phụ thuộc, khi mà câu lệnh thứ hai (P_j) sẽ ghi đè lên biến được sử dụng ở biểu thức thứ nhất (P_i). Điều kiện thứ ba và cuối cùng thể hiện một sự phụ thuộc đầu ra: Khi hai câu lệnh cùng thực hiện một công việc, kết quả cuối cùng phải lấy từ các câu lệnh thực hiện một cách hợp lý nhất.^[15]

Xem xét các hàm sau đây, trong đó thể hiện nhiều loại phụ thuộc:

1: function Dep(a, b)
2: c:= a•b
3: d:= 2•c
4: end function

Hoạt động 3 trong Dep(A, B) không thể được thực thi trước hoặc thậm chí song song với hoạt động 2, vì hoạt động 3 sử dụng kết quả từ hoạt động 2. Nó vi phạm điều kiện 1 và do đó giới thiệu một phụ thuộc dòng chảy.

1: function NoDep(a, b)
2: c:= a•b
3: d:= 2•b
4: e:= a+b
5: end function

Trong ví dụ này, không có phụ thuộc giữa các chỉ lệnh, do đó, tất cả đều có thể chạy song song.

Điều kiện của Bernstein không cho phép bộ nhớ được chia sẻ giữa các quá trình khác nhau. Nó cho rằng, một số phương tiện thực thi một lệnh giữa các truy cập là cần thiết, ví dụ như semaphores, barriers hoặc một số phương pháp đồng bộ khác.

Race conditions, mutual exclusion, synchronization, và parallel slowdown

Công việc phụ trong một chương trình song song thường được gọi là threads. Một số kiến trúc máy tính song song sử dụng các phiên bản nhỏ và nhẹ hơn gọi là fibers, trong khi các phiên bản lớn được gọi là processes. Tuy nhiên, "threads" thường được chấp nhận như một thuật ngữ chung cho các công việc phụ. Threads sẽ phải thường xuyên cập nhật các biến được chia sẻ giữa chúng. Các chỉ lệnh giữa hai chương trình có thể được xen kẽ theo bất kỳ thứ tự nào. Ví dụ, xem chương trình sau đây:

Thread A	Thread B
1A: Read variable V	1B: Read variable V
2A: Add 1 to variable V	2B: Add 1 to variable V
3A Write back to variable V	3B: Write back to variable V

Nếu chỉ lệnh 1B được thực hiện giữa 1A và 3A, hoặc nếu chỉ lệnh được thực hiện giữa 1B và 3B, chương trình sẽ tạo ra dữ liệu không chính xác. Đây được gọi là một race condition. Chương trình sẽ phải sử dụng khóa để cung cấp mutual exclusion. Khóa là một cấu trúc ngôn ngữ lập trình cho phép một thread kiểm soát một biến và ngăn ngừa các biến khác đọc hoặc ghi nó, cho đến khi biến đó được mở khóa. Thread giữ khóa có thể hoàn toàn thoải mái truy cập phần tới hạn của nó (phần của chương trình yêu cầu quyền truy cập chuyên biệt tới một số biến), và mở khóa các dữ liệu khi nó được hoàn tất. Vì vậy, để đảm bảo chương trình thực hiện chính xác, chương trình trên có thể được viết lại để sử dụng khóa:

Thread A	Thread B
1A: Lock variable V	1B: Lock variable V
2A: Read variable V	2B: Read variable V
3A: Add 1 to variable V	3B: Add 1 to variable V
4A Write back to variable V	4B: Write back to variable V
5A: Unlock variable V	5B: Unlock variable V

Một thread sẽ khóa biến V thành công, trong khi các thread khác sẽ bị khóa lại—không thể truy cập cho đến khi V được mở khóa. Điều này đảm bảo chương trình được thực hiện đúng. Để đảm bảo chương trình thực hiện chính xác, khóa rất có thể sẽ làm chậm chương trình khi cần thiết.

Khóa nhiều biến bằng cách sử dụng phương pháp khóa non-atomic có khả năng tạo ra một deadlock. Một khóa atomic khóa nhiều biến cùng một lúc. Nếu nó không thể khóa một trong số các biến đó, nó sẽ không khóa biến nào. Nếu hai thread cùng khóa hai biến giống nhau bằng khóa non-atomic, có khả năng một thread sẽ khóa một biến và thread thứ hai sẽ khóa biến còn lại. Trong trường hợp này, không thread nào có thể hoàn tất, và kết quả là deadlock.

Nhiều chương trình song song yêu cầu các công việc phụ act in synchrony (thực hiện đồng bộ). Điều này đòi hỏi việc sử dụng một barrier (hàng rào). Những barrier thường được tạo ra bằng cách sử dụng khóa phần mềm. Một lớp của thuật toán, được gọi là lock-free and wait-free algorithms, hoàn toàn có thể tránh được việc sử dụng khóa và barrier. Tuy nhiên, cách tiếp cận này thường khó thực hiện và yêu cầu thiết kế cấu trúc dữ liệu một cách chính xác.

Không phải tất cả mọi song song hóa đều cho kết quả tăng tốc độ. Nói chung, khi một công việc được chia ra thành càng nhiều thread, thì thời gian những thread đó sử dụng để kết nối với nhau sẽ ngày càng tăng. Suy cho cùng, tổng chi phí từ việc kết nối vượt trội thời gian sử dụng để giải quyết vấn đề, và song song hóa hơn nữa (nghĩa là, tách khối lượng công việc thành nhiều thread hơn) sẽ là tăng hơn là giảm thời gian cần thiết để hoàn thành. Đây được gọi là parallel slowdown.

Fine-grained, coarse-grained, và embarrassing parallelism

Các ứng dụng thường được phân loại theo mức độ thường xuyên của các công việc phụ của họ cần phải đồng bộ hóa hoặc giao tiếp với nhau. Một ứng dụng được cho là song song hạt mịn nếu các công việc phụ của nó giao tiếp nhiều lần mỗi giây; gọi là song song hạt thô nếu chúng kết nối nhiều lần mỗi giây, và là embarrassingly parallel nếu rất ít hoặc không bao giờ kết nối. Các ứng dụng embarrassingly parallel được xem là dễ song song nhất.

Mô hình thống nhất

Ngôn ngữ lập trình song song và các máy tính song song phải có một mô hình thống nhất (còn được gọi là một mô hình bộ nhớ). Các mô hình thống nhất xác định các quy tắc về cách hoạt động trên bộ nhớ máy tính xảy ra và làm thế nào tạo ra kết quả.

Một trong những mô hình thống nhất đầu tiên là mô hình tuần tự thống nhất của Leslie Lamport. Tuần tự thống nhất là một tính chất của một chương trình song song khi thực hiện song song của nó tạo ra kết quả tương tự như một chương trình tuần tự. Cụ thể, một chương trình là tuần tự thống nhất nếu "... kết quả của bất kỳ hành động nào đều giống như là các hành động của tất cả các bộ xử lý được thực hiện theo một quy tắc tuần tự, và các hoạt động của mỗi bộ xử lý cá nhân xuất hiện trong trình tự này theo một thứ tự xác định bởi chương trình".^[16]

Bộ nhớ giao tác phần mềm là một dạng phổ biến của mô hình thống nhất. Bộ nhớ giao tác phần mềm vay mượn từ lý thuyết cơ sở dữ liệu khái niệm của giao dịch nguyên tử và áp dụng chúng để truy cập bộ nhớ.

Dưới góc độ toán học, các mô hình này có thể được thể hiện bằng nhiều cách. Mạng Petri, được giới thiệu trong luận án tiến sĩ của Carl Adam Petri năm 1962, là một cố gắng sớm để hệ thống hóa các quy tắc của mô hình thống nhất. Lý thuyết luồng dữ liệu sau này xây dựng dựa trên những, và kiến trúc luồng dữ liệu được tạo ra để thực hiện những ý tưởng của lý thuyết luồng dữ liệu. Bắt đầu từ cuối những năm 1970, process calculi như Phép tính của hệ thống truyền thông và Quá trình giao tiếp tuần tự đã được phát triển để cho phép đại số lý luận về hệ thống gồm các thành phần tương tác. Những bổ sung gần đây cho quá trình tính toán, ví dụ như phép tính π, đã thêm vào các khả năng cho lý luận về cấu trúc liên kết năng động. Những logic như TLA+ của Lamport, và các mô hình toán học như là dấu vết và biểu đồ sự kiện tác động, cũng đã được phát triển để mô tả hành vi của hệ thống tương tranh.

Phân loại Flynn

Michael J. Flynn đã tạo ra một trong những hệ thống phân loại sớm nhất cho các máy tính và chương trình song song (và tuần tự), bây giờ được gọi là Phép phân loại của Flynn. Flynn phân loại chương trình và máy tính bằng cách chúng có thể đã được điều hành bằng cách sử dụng một hay nhiều bộ chỉ lệnh, những chỉ lệnh đó có thể có hoặc không sử dụng một hay nhiều bộ dữ liệu.

Bản mẫu:Phân loại Flynn

Kiểu phân loại single-instruction-single-data (SISD) tương đương với một chương trình hoàn toàn tuần tự. Kiểu phân loại single-instruction-multiple-data (SIMD) tương tự như thực hiện các hoạt động liên tục trên cùng một tập dữ liệu lớn. Kiểu này thường được dùng trong các ứng dụng xử lý tín hiệu. Multiple-instruction-single-data (MISD) là một kiểu phân loại hiếm khi được sử dụng. Trong khi các kiến trúc máy tính để xử lý vấn đề này được nghĩ ra (ví dụ như mảng tâm thu), vài ứng dụng phù hợp được hiện thực hóa. Các chương trình multiple-instruction-multiple-data (MIMD) đang là dạng phổ biến nhất trong các chương trình song song.

Theo David A. Patterson và John L. Hennessy, "Một số cỗ máy là sự kết hợp của những loại này, nhưng mô hình cổ điển này đã tồn tại bởi tính đơn giản, dễ hiểu, và đưa ra được xấp xỉ đầu tiên với kết quả tốt. Nó cũng là chương trình được sử dụng rộng rãi nhất-có lẽ vì tính dễ hiểu của mình."^[17]

Hình thức song song

Song song cấp bit

Từ sự ra đời của công nghệ chế tạo chip máy tính very-large-scale integration (VLSI) từ những năm 1970 cho đến năm 1986, tăng tốc trong kiến trúc máy tính được điều khiển bằng cách tăng gấp đôi kích cỡ từ máy tính—khối lượng thông tin bộ xử lý có thể thao tác trên một chu kỳ.^[18] Tăng kích thước từ làm giảm số lượng chỉ lệnh các bộ xử lý phải thực thi để thực hiện một hoạt động trên các biến có kích cỡ lớn hơn độ dài của từ. Ví dụ, khi một bộ xử lý 8-bit phải tạo thêm 2 nguyên số 16-bit, trước tiên bộ xử lý phải thêm vào các bit bậc thấp hơn 8 từ mỗi số nguyên bằng cách sử dụng lệnh cộng tiêu chuẩn, sau đó thêm vào các bit bậc cao hơn 8 bằng cách sử dụng lệnh cộng có nhớ và bit nhớ lấy từ việc thêm vào bậc thấp; do đó, bộ xử lý 8-bit cần đến hai câu lệnh để hoàn thành một thao tác, trong khi bộ xử lý 16-bit có thể làm xong công việc này chỉ với một câu lệnh duy nhất.

Trong lịch sử, các vi xử lý 4-bit đã từng được thay thế bằng 8-bit, 16-bit, sau đó là 32-bit. Xu hướng này đã kết thúc với sự ra đời của bộ vi xử lý 32-bit, đã trở thành tiêu chuẩn cho các tính toán chung trong hai thập kỷ. Cho đến gần đây (khoảng 2003–2004), với sự ra đời của kiến trúc x86-64, bộ xử lý 64-bit đã trở nên phổ biến.

Song song cấp lệnh

Một đường liên kết 5 giai đoạn điển hình trong một máy RISC (IF = Nạp lệnh, ID = Giải mã lệnh, EX = thực thi, MEM = truy cập bộ nhớ, WB = Register write back)

Một chương trình máy tính, về bản chất là một loạt những câu lệnh được thực hiện bởi một bộ xử lý. Những câu lệnh này sẽ được sắp xếp lại và kết hợp thành các nhóm mà sau đó được thực hiện song song mà không thay đổi kết quả của chương trình. Đây được gọi là song song cấp câu lệnh. Những ưu điểm của song song cấp câu lệnh đã thống trị kiến trúc máy tính từ giữa những năm 1980 cho đến giữa thập niên 1990.^[19]

Các bộ xử lý hiện đại có những đường liên kết câu lệnh đa công đoạn. Mỗi giai đoạn trong đường liên kết tương ứng với mỗi hành động khác nhau mà bộ xử lý thực hiện với câu lệnh trong giai đoạn đó; bộ xử lý với một đường liên kết N giai đoạn có thể có đến N câu lệnh ở những giai đoạn khác nhau. Ví dụ tiêu chuẩn của một bộ xử lý đường liên kết là bộ xử lý RISC, với 5 công đoạn: nạp lệnh, giải mã, thực thi, truy cập bộ nhớ, và write back. Bộ xử lý Pentium 4 có một đường liên kết 35 giai đoạn.^[20]

Một bộ xử lý siêu vô hướng với liên kết 5 giai đoạn, có khả năng phát ra 2 câu lệnh một chu kỳ. Nó có thể có 2 câu lệnh trong mỗi giai đoạn của đường liên kết, với tổng số lên đến 10 câu lệnh (màu xanh lá cây) được thực hiện đồng thời.

Ngoài mô hình song song cấp câu lệnh từ đường liên kết, một số bộ xử lý cũng có thể tạo ra nhiều hơn một câu lệnh tại một thời điểm. Chúng được gọi là bộ xử lý siêu vô hướng. Các câu lệnh chỉ được nhóm lại với nhau khi giữa chúng không có phụ thuộc dữ liệu. Scoreboarding và thuật toán Tomasulo (tương tự như scoreboarding nhưng sử dụng đổi tên thanh ghi) là hai trong số những kỹ thuật phổ biến nhất cho việc thực thi sai thứ tự và song song cấp câu lệnh.

Song song dữ liệu

Song song dữ liệu là song song vốn có trong Vòng lặp chương trình, trong đó tập trung vào phân phối dữ liệu qua các nút tính toán khác nhau để được xử lý song song. "Vòng song song thường dẫn đến những chuỗi hoạt động tương tự (không nhất thiết phải giống nhau) hoặc các chức năng được thực hiện trên các yếu tố của một cấu trúc dữ liệu lớn."^[21] Nhiều ứng dụng khoa học và kỹ thuật áp dụng song song dữ liệu.

Một phụ thuộc loop-carried là sự phụ thuộc của một vòng lặp đi lặp lại trên đầu ra của một hoặc nhiều lần lặp lại trước. Phụ thuộc loop-carried ngăn chặn sự song song hóa của các vòng. Ví dụ, xem xét giả mã sau khi tính một vài số Fibonacci đầu tiên:

1: PREV1:= 0
2: PREV2:= 1
4: do:
5: CUR:= PREV1 + PREV2
6: PREV1:= PREV2
7: PREV2:= CUR
8: while (CUR < 10)

Vòng này không thể song song vì CUR phụ thuộc vào chính nó (PREV2) và PREV1, được tính toán trong mỗi lần lặp vòng. Vì mỗi lần lặp phụ thuộc vào kết quả của lần lặp trước đó, nên chúng không thể song song. Khi vấn đề trở nên lớn hơn, khối lượng của dữ liệu song song luôn luôn tăng theo.^[22]

Song song tác vụ

Song song tác vụ là thuộc tính của một chương trình song song mà "các phép tính hoàn toàn khác nhau có thể được thực hiện trên các bộ dữ liệu giống hoặc khác nhau".^[21] This contrasts with data parallelism, where the same calculation is performed on the same or different sets of data. Task parallelism does not usually scale with the size of a problem.^[22]

Phần cứng

Bộ nhớ và sự kết nối

Bộ nhớ chính trong một máy tính song song có thể là bộ nhớ chia sẻ (chia sẻ giữa tất cả các yếu tố xử lý trong một vùng địa chỉ đơn lẻ), hoặc bộ nhở phân tán (trong đó mỗi yếu tố xử lý có vòng địa chỉ cục bộ riêng).^[23] Bộ nhớ phân tán đề cập đến việc bộ nhớ được phân phối một cách hợp lý, nhưng cũng bao hàm đến việc nó bị phân tán vật lý. Bộ nhớ chia sẻ phân tán và ảo hóa bộ nhớ kết hợp hai phương pháp tiếp cận, nơi mà các phần tử xử lý có bộ nhớ cục bộ riêng và truy cập vào bộ nhớ trên bộ xử lý không cục bộ. Truy cập vào bộ nhớ cục bộ thường nhanh hơn là truy cập vào bộ nhớ không cục bộ.

Một cái nhìn hợp lý về kiến trúc Non-Uniform Memory Access (NUMA). Bộ xử lý trong một thư mục có thể truy cập bộ nhớ của thư mục đó với độ trễ ít là truy cập vào bộ nhớ trong bộ nhớ của các thư mục khác.

Kiến trúc máy tính trong đó mỗi phần tử của bộ nhớ chính có thể được truy cập với độ trễ và băng thông bằng nhau được gọi là hệ thống Truy cập bộ nhớ đồng bộ (UMA). Thông thường, việc đó chỉ có thể được thực hiện bởi một hệ thống bộ nhớ chia sẻ, trong đó bộ nhớ không bị phân tán vật lý. Một hệ thống không có thuộc tính này được gọi là kiến trúc truy cập bộ nhớ không đồng bộ (NUMA). Hệ thống bộ nhớ phân tán có NUMA.

Hệ thống máy tính sử dụng các vùng nhớ đệm—các bộ nhớ nhỏ, nhanh đặt gần bộ xử lý mà lưu trữ các bản sao tạm thời của các giá trị bộ nhớ (gần trong cả ý nghĩa về vật lý và logic). Hệ thống máy tính song song gặp khó khăn với vùng nhớ đệm có thể lưu trữ cùng một giá trị ở nhiều vị trí, với khả năng thực thi chương trình không chính xác. Những máy tính này yêu cầu một hệ thống đồng bộ vùng nhớ đệm, trong đó theo dõi các giá trị lưu trữ và dọn dẹp chúng theo trình tự, do đó đảm bảo chương trình được thực hiện đúng. Bus snooping là một trong những phương pháp phổ biến nhất cho việc theo dõi những giá trị nào đang được truy cập (và nên được thanh lọc). Thiết kế hệ thống đồng bộ vùng nhớ đệm lớn, hiệu suất cao là một vấn đề rất khó trong kiến trúc máy tính. Kết quả là, kiến trúc máy tính chia sẻ bộ nhớ không được coi trọng như hệ thống bộ nhớ phân tán.^[23]

Kiểu kết nối bộ xử lý-bộ xử lý và bộ xử lý-bộ nhớ có thể được thực hiện trong phần cứng theo nhiều cách, bao gồm thông qua chia sẻ (bộ nhớ đa cổng hoặc đa hợp), một bộ chuyển mạch thanh ngang, một dòng chia sẻ hay một mạng liên kết của vô số các cấu trúc liên kết bao gồm star, ring, tree, hypercube, fat hypercube (một hypercube với nhiều hơn một bộ xử lý tại nút a), hoặc mạng n chiều.

Máy tính song song dựa trên kết nối mạng cần phải có một số loại định tuyến để cho phép việc truyền thông điệp giữa các nút không được kết nối trực tiếp. Phương pháp được sử dụng cho kết nối giữa các bộ xử lý có thể được phân cấp trong các máy vi xử lý lớn.

Các dạng máy tính song song

Máy tính song song có thể được tạm phân loại theo mức độ các phần cứng hỗ trợ song song. Kiểu phân loại này nói chung tương tự như khoảng cách giữa các nút tính toán cơ bản. Đây không phải là loại trừ lẫn nhau; ví dụ, các cụm đa xử lý đối xứng là tương đối phổ biến.

Tính toán đa nhân

Một bộ xử lý đa lõi là một bộ xử lý bao gồm nhiều đơn vị thực hiện ("nhân") trên cùng một chip. Những bộ xử lý này khác với bộ xử lý siêu vô hướng, có thể tạo ra nhiều câu lệnh trên một chu kỳ từ một dòng lệnh (thread). Mỗi lõi trong bộ xử lý đa lõi đều có khả năng là siêu vô hướng—có nghĩa là, trên mỗi chu kỳ, mỗi lõi có thể tạo ra nhiều câu lệnh từ một dòng lệnh.

Xử lý đa luồng đồng thời (trong đó HyperThreading của Intel là nổi tiếng nhất) là một hình thức ban đầu của giả đa nhân. Một bộ xử lý có khả năng xử lý đa luồng đồng thời chỉ có một đơn vị thực hiện ("nhân"), nhưng khi đơn vị thực hiện đó không hoạt động (chẳng hạn như trong lỗi không tìm thấy trong vùng nhớ đệm), nó sử dụng đơn vị thực hiện đó để xử lý một chuỗi thứ hai.Cell microprocessor của IBM, được thiết kế để sử dụng cho Sony PlayStation 3, là một bộ xử lý đa lỗi nổi bật khác.

Đa xử lý đối xứng

Một bộ đa xử lý đối xứng (SMP) là một hệ thống máy tính với nhiều bộ xử lý giống hệt nhau chia sẻ bộ nhớ và kết nối thông qua một kênh.^[24] Bus contention ngăn chặn các kiến trúc khỏi việc mở rộng. Kết quả là, SMPS thường không bao gồm hơn 32 bộ xử lý.^[25] "Vì kích thước nhỏ của bộ xử lý và việc giảm đáng kể trong các yêu cầu về băng thông đạt được bởi các vùng nhớ đệm lớn, bộ đa xử lý đối xứng như vậy là cực kỳ hiệu quả, với điều kiện là tồn tại một băng thông bộ nhớ đủ dung lượng."^[24]

Tính toán phân tán

Một máy tính phân tán (còn được gọi là bộ đa xử lý bộ nhớ phân tán) là một hệ thống máy tính phân tán bộ nhớ trong đó các thành phần xử lý được kết nối bởi mạng. Máy tính phân tán có khả năng mở rộng cao.

Tính toán cụm

Một cụm Beowulf

Cluster là một nhóm các máy tính kết nối lỏng làm việc cùng nhau chặt chẽ, như vậy trong một số khía cạnh nào đó chúng có thể được coi là một chiếc máy tính.^[26] Các cụm gồm nhiều máy tính độc lập được kết nối qua mạng. Khi các máy trong cụm không cần phải đối xứng, cân bằng tải sẽ trở nên khó hơn nếu chúng không đối xứng. Dạng phổ biến nhất của cụm là cụm Beowulf, là một cụm thực hiện trên nhiều máy tính commercial off-the-shelf giống nhau kết nối qua mạng cục bộ TCP/IP Ethernet.^[27] Công nghệ Beowulf được phát triển đầu tiên bởi Thomas Sterling và Donald Becker. Đại đa số các siêu máy tính TOP500 là cụm.^[28]

Tính toán song song hàng loạt

Một bộ xử lý song song hàng loạt (MPP) là một máy tính đơn được kết nối với nhiều bộ xử lý. MPPs có nhiều đặc điểm tương tự như cụm, nhưng MPPs có kết nối mạng riêng biệt (trong khi các cụm sử dụng phần cứng cho mạng). MPPs cũng có xu hướng lớn hơn so với các cụm, thường có "nhiều hơn" 100 bộ xử lý.^[29] Trong một MPP, "mỗi CPU có bộ nhớ riêng của nó và bản sao của hệ điều hành và ứng dụng. Mỗi hệ thống con giao tiếp với những cái khác thông qua một kết nối tốc độ cao."^[30]

Một phòng máy của Blue Gene/L, xếp hạng là siêu máy tính nhanh thứ tư trên thế giới theo bảng xếp hạng TOP500 11/2008. Blue Gene / L là một bộ xử lý song song hàng loạt.

Blue Gene / L, siêu máy tính nhanh thứ năm thế giới theo xếp hạng TOP500 tháng 6 năm 2009, là một MPP.

Tính toán mạng lưới

Tính toán mạng lưới là dạng phân tán nhất của tính toán song song. Nó sử dụng các máy tính kết nối thông qua mạng Internet để làm việc với một vấn đề nhất định. Vì băng thông thấp và độ trễ rất cao của Internet, tính toán mạng lưới thường chỉ đối mặt với vấn đề embarrassingly parallel. Nhiều ứng dụng tính toán mạng lưới đã được tạo ra, trong đó SETI@home và Folding@Home là những ví dụ nổi tiếng nhất.^[31]

Hầu hết những ứng dụng đều sử dụng middleware, phần mềm ở giữa hệ điều hành và các ứng dụng quản lý tài nguyên mạng và chuẩn hoá giao diện phần mềm. Middleware tính toán mạng lưới phổ biển nhất là Berkeley Open Infrastructure for Network Computing (BOINC). Thông thường, phần mềm tính toán mạng lưới sử dụng các "chu kỳ rỗi", thực hiện tính toán vào các thời điểm khi một máy tính đang không hoạt động.

Máy tính song song chuyên ngành

Trong tính toán song song, có những thiết bị song song chuyên ngành vẫn còn những khu vực quan tâm thích hợp. Khi không có miền riêng, chúng có xu hướng áp dụng đối với chỉ một vài phần của vấn đề song song.

Máy tính cấu hình lại với các mảng cổng lập trình trường

Điện toán cấu hình lại là việc sử dụng một mảng cổng có thể lập trình trường (FPGA) làm bộ xử lý cho máy tính đa năng. Một FPGA là, về bản chất, một con chip máy tính có thể tự nối lại cho một nhiệm vụ nhất định.

FPGA có thể được lập trình với các ngôn ngữ mô tả phần cứng như VHDL hoặc Verilog. Tuy nhiên, lập trình trong các ngôn ngữ này có thể tẻ nhạt. Một số nhà cung cấp đã tạo các ngôn ngữ C đến HDL cố gắng mô phỏng cú pháp và / hoặc ngữ nghĩa của ngôn ngữ lập trình C, mà hầu hết các lập trình viên quen thuộc. Các ngôn ngữ C đến HDL nổi tiếng nhất là Mitrion-C, Impulse C, Dime-C và Handel-C. Các tập hợp con cụ thể của SystemC dựa trên C ++ cũng có thể được sử dụng cho mục đích này.

Quyết định của AMD để mở công nghệ HyperTransport cho các nhà cung cấp của bên thứ ba đã trở thành công nghệ cho phép máy tính cấu hình lại hiệu suất cao.^[32] Theo Michael R. D'amour, Giám đốc điều hành của DRC Computer Corporation, "Khi chúng tôi lần đầu tiên bước vào AMD, họ đã gọi cho chúng tôi ' những người đánh cắp ổ cắm '. Bây giờ họ gọi chúng tôi là đối tác của họ. "^[32]

Tính toán đa năng trên các đơn vị xử lý đồ họa (GPGPU)

Card Tesla GPGPU của Nvidia

Tính toán đa năng trên các đơn vị xử lý đồ họa (GPGPU) là một xu hướng khá phổ biến gần đây trong nghiên cứu kỹ thuật máy tính. GPUs là các bộ xử lý đồng bộ được tối ưu hóa mạnh cho việc xử lý đồ họa máy tính.^[33] Xử lý đồ họa máy tính là một lĩnh vực bị chi phối bởi các thao tác dữ liệu song song—đặc biệt là các thao tác ma trận đại số tuyến tính.

Trong những ngày đầu, các chương trình GPGPU sử dụng đồ họa thông thường APIs để chạy. Tuy nhiên, một số ngôn ngữ và nền tảng lập trình mới đã được xây dựng để thực hiện tính toán đa năng trên GPU với cả Nvidia và AMD tạo ra môi trường lập trình với CUDA và CTM tương ứng. Các ngôn ngữ lập trình GPU khác là BrookGPU, PeakStream, và RapidMind. Nvidia cũng đã tung ra các sản phẩm dành riêng cho tính toán trong dòng Tesla của họ. Tập đoàn công nghệ Khronos Group đã tạo ra kỹ thuật OpenCL, một khuôn khổ cho việc viết chương trình chạy trên nền tảng bao gồm CPU và GPU. Apple, Intel, Nvidia và nhiều nhãn hiệu khác đều hỗ trợ OpenCL.

Mạch tích hợp ứng dụng cụ thể

Một số phương pháp tiếp cận mạch tích hợp ứng dụng cụ thể (ASIC) đã được nghĩ ra để đối phó với các ứng dụng song song.^[34]^[35]^[36]

Vì một ASIC (theo định nghĩa) là dành riêng cho một ứng dụng nhất định, nó có thể được tối ưu hóa hoàn toàn cho ứng dụng đó. Kết quả là, đối với một ứng dụng nhất định, ASIC là một xu hướng tốt hơn một máy tính đa năng. Tuy nhiên, ASIC được tạo ra bởi X-ray lithography. Quá trình này đòi hỏi một màn chắn rất tốn kém. Một màn chắn đơn có thể có giá hơn một triệu đô la Mỹ.^[37] (Các bóng bán dẫn cần thiết cho chip càng nhỏ, các màn chắn sẽ càng đắt tiền.) Trong khi đó, tăng hiệu quả tính toán đa năng theo thời gian (như mô tả của định luật Moore) có xu hướng xóa bỏ lợi nhuận trong chỉ một hoặc hai thế hệ chip.^[32] Chi phí ban đầu cao, và xu hướng bị vượt qua bởi tính toán đa năng của định luật Moore, đã làm cho ASIC không khả thi với hầu hết các ứng dụng tính toán song song. Tuy nhiên, một số đã được xây dựng. Một ví dụ là máy peta-flop RIKEN MDGRAPE-3 đã sử dụng tùy chỉnh ASIC cho mô phỏng động học phân tử.

Xử lý liên hợp

Cray-1 là bộ xử lý liên hợp nổi tiếng nhất.

Một bộ xử lý liên hợp là hệ thống CPU hoặc máy tính có thể thực hiện cùng một lệnh trên các bộ dữ liệu lớn. "Các bộ xử lý liên hợp có những thao tác cấp cao làm việc trên các mảng tuyến tính của số hoặc vector. Một ví dụ thao tác liên hợp là A = B × C, trong đó A, B, và C là các vector phần tử 64 của các số dấu phẩy động 64-bit."^[38] Chúng liên quan chặt chẽ đến phân loại SIMD của Flynn.^[38]

Các máy tính Cray trở nên nổi tiếng với bộ xử lý liên hợp của chúng trong những năm 1970 và 1980. Tuy nhiên, bộ xử lý liên hợp—trong cả các hệ thống CPU cũng như máy tính—đã gần như biến mất. Các bộ xử lý lệnh hiện đại có bao gồm một số câu lệnh xử lý liên hợp, chẳng hạn như AltiVec và Streaming SIMD Extensions (SSE).

Phần mềm

Ngôn ngữ lập trình song song

Ngôn ngữ lập trình tương tác, thư viện, APIs, và các mô hình lập trình song song (như thuật toán Skeletons) đã được xây dựng cho các máy tính lập trình song song. Những thứ này có thể được chia thành các lớp dựa trên những giả thuyết chúng tạo ra về kiến trúc bộ nhớ cơ bản—bộ nhớ chia sẻ, bộ nhớ phân tán, hay DSM. Các ngôn ngữ lập trình chia sẻ bộ nhớ giao tiếp bằng cách điều khiển các biến chia sẻ bộ nhớ. Bộ nhớ phân tán sử dụng truyền tin. POSIX Threads và OpenMP là hai trong số các API phổ biến nhất sử dụng bộ nhớ chia sẻ, trong khi Giao diện truyền tin (MPI) là API sử dụng hệ thống truyền tin nổi bật nhất.^[39] Một khái niệm được sử dụng trong chương trình lập trình song song là Khái niệm tương lai, khi một phần của chương trình hứa hẹn sẽ mang lại dữ liệu cần thiết cho một phần khác ở một thời điểm trong tương lai.

Song song hóa tự động

Song song hóa tự động của một chương trình tuần tự bởi trình biên dịch là holy grail của tính toán song song. Mặc dù các nhà nghiên cứu trình biên dịch đã làm việc hàng thập kỷ, song song hóa tự động vẫn chỉ đạt được những thành công giới hạn.^[40]

Các ngôn ngữ lập trình song song có thể là song song hiện hoặc (tốt nhất) ngầm một phần, trong đó các lập trình viên chỉ thị trình biên dịch song song hóa. Cũng có một vài ngôn ngữ lập trình song song ngầm hoàn toàn tồn tại—SISAL, song song Haskell, và Mitrion-C (cho FPGAs).

Tạo điểm kiểm tra ứng dụng

Các máy tính càng lớn và càng phức tạp thì càng dễ sai và thời gian giữa các thất bại càng ngắn. Tạo điểm kiểm tra ứng dụng là kỹ thuật mà hệ thống máy tính tạo một "bản ghi nhanh" của ứng dụng—một bản ghi của tất cả các phân bổ tài nguyên và trạng thái của biến ở thời điểm đó, giống như một kết xuất bộ nhớ; thông tin này có thể được sử dụng để khôi phục lại chương trình nếu máy tính bị gặp sự cố. Tạo điểm kiểm tra ứng dụng có nghĩa là chương trình chỉ phải khởi động lại từ điểm kiểm tra cuối cùng chứ không phải từ đầu. Đối với ứng dụng có thể chạy trong hàng tháng, điều này rất quan trọng. Tạo điểm kiểm tra ứng dụng có thể được sử dụng cho xử lý di chuyển thuận lợi.

Phương pháp thuật toán

Khi các máy tính song song trở nên lớn hơn và nhanh hơn, sẽ là khả thi để giải quyết những vấn đề mà trước đây đã mất quá lâu để chạy. Tính toán song song được sử dụng trong phạm vi rất rộng, từ sinh học (kết xoắn protein và phân tích chuỗi) đến kinh tế (toán học tài chính). Các dạng vấn đề thường gặp được tìm thấy trong các ứng dụng tính toán song song là:^[41]

Đại số tuyến tính dày đặc.
Đại số tuyến tính thưa.
Phương pháp quang phổ (như biến đổi Fourier nhanh của Cooley–Tukey)
Vấn đề n-body (như mô phỏng Barnes–Hut)
Các vấn đề Mạng lưới cấu trúc (như Phương pháp lưới Boltzmann)
Các vấn đề mạng lưới không cấu trúc (như trong phân tích phần tử hữu hạn)
Mô phỏng Monte Carlo
Tổ hợp logic (như kỹ thuật mật mã brute-force)
Đồ thị giao nhau (như thuật toán)
Quy hoạch động
Phương pháp nhánh và cận
Mô hình đồ họa (như phát hiện mô hình Markov ẩns và xây dựng mạng Bayesian)
Mô phỏng Máy trạng thái hữu hạn

Lịch sử

ILLIAC IV, "có lẽ là siêu máy tính nổi tiếng nhất"^[42]

Nguồn gốc của song song (MIMD) xuất phát từ Federico Luigi, Conte Menabrea và "Phác thảo của máy giả tích phát minh bởi Charles Babbage" của ông.^[43]^[44] IBM giới thiệu 704 vào năm 1954, thông qua một dự án, trong đó Gene Amdahl là một trong những kiến trúc sư chính. Nó đã trở thành máy tính thương mại đầu tiên sử dụng lệnh số học dấu phẩy động hoàn toàn tự động.^[45]

Vào tháng 4 năm 1958, S. Gill (Ferranti) thảo luận về lập trình song song và nhu cầu phân nhánh và chờ đợi.^[46] Cũng trong năm 1958, hai nhà nghiên cứu của IBM John Cocke và Daniel Slotnick lần đầu tiên thảo luận về việc sử dụng song song trong các tính toán số học.^[47] Tập đoàn Burroughs đã giới thiệu D825 năm 1962, một máy tính bốn bộ xử lý có thể truy cập lên đến 16 module bộ nhớ thông qua một bộ chuyển mạch thanh ngang.^[48] Năm 1967, Amdahl và Slotnick công bố một cuộc tranh luận về tính khả thi của xử lý song song tại của Hội nghị xử lý thông tin xã hội Liên bang Mỹ.^[47] Từ cuộc tranh luận này mà định luật Amdahl đã được đặt ra để xác định giới hạn sự tăng tốc do song song.

Năm 1969, công ty của Mỹ Honeywell giới thiệu hệ thống Multics đầu tiên của mình, một hệ thống đa xử lý đối xứng có khả năng chạy lên đến tám bộ xử lý song song.^[47] C.mmp, một dự án bộ đa xử lý ở Đại học Carnegie Mellon những năm 1970, là "một trong những bộ đa xử lý đầu tiên với hơn một vài bộ vi xử lý".^[44] "Bộ đa xử lý đầu tiên kết nối kênh với snooping vùng nhớ đệm là Synapse N+1 năm 1984."^[44]

Máy tính song song SIMD có nguồn gốc từ những năm 1970. Hoạt động của những máy tính SIMD đời đầu là giảm dần các chậm trể ở cổng ở đơn vị kiểm soát của bộ xử lý trên nhiều lệnh.^[49] Năm 1964, Slotnick đã đề xuất xây dựng một máy tính song song hàng loạt cho Phòng thí nghiệm quốc gia Lawrence Livermore.^[47] Thiết kế của ông được tài trợ bởi Không quân Hoa Kỳ, là nỗ lực tính toán song song SIMD đầu tiên, ILLIAC IV.^[47] Chìa khóa cho việc thiết kế của nó là một song song khá cao, lên đến 256 bộ xử lý, cho phép máy làm việc trên bộ dữ liệu lớn mà sau này được biết đến như là xử lý liên hợp. Tuy nhiên, ILLIAC IV được gọi là "nổi tiếng nhất trong các siêu máy tính", vì dự án đã được chỉ hoàn thành được một phần tư, nhưng tốn 11 năm và chi phí gấp gần bốn lần so với ước tính ban đầu.^[42] Khi nó cuối cùng cũng có thể chạy ứng dụng đầu tiên vào năm 1976, nó đã hoàn toàn thua kém so với những siêu máy tính thương mại lúc đó như Cray-1.

Xem thêm

Tham khảo

^ Almasi, G.S. and A. Gottlieb (1989). Highly Parallel Computing. Benjamin-Cummings publishers, Redwood City, CA.
^ S.V. Adve et al. (November 2008). "Parallel Computing Research at Illinois: The UPCRC Agenda" Lưu trữ 2008-12-09 tại Wayback Machine (PDF). Parallel@Illinois, University of Illinois at Urbana-Champaign. "The main techniques for these performance benefits – increased clock frequency and smarter but increasingly complex architectures – are now hitting the so-called power wall. The computer industry has accepted that future performance increases must largely come from increasing the number of processors (or cores) on a die, rather than making a single core go faster."
^ Asanovic et al. Old [conventional wisdom]: Power is free, but transistors are expensive. New [conventional wisdom] is [that] power is expensive, but transistors are "free".
^ Asanovic, Krste et al. (ngày 18 tháng 12 năm 2006). "The Landscape of Parallel Computing Research: A View from Berkeley" (PDF). University of California, Berkeley. Technical Report No. UCB/EECS-2006-183. "Old [conventional wisdom]: Increasing clock frequency is the primary method of improving processor performance. New [conventional wisdom]: Increasing parallelism is the primary method of improving processor performance... Even representatives from Intel, a company generally associated with the 'higher clock-speed is better' position, warned that traditional approaches to maximizing performance through maximizing clock speed have been pushed to their limit."
^ Patterson, David A. và John L. Hennessy (1998). Computer Organization and Design, Second Edition, Morgan Kaufmann Publishers, p. 715. ISBN 1-55860-428-6.
^ ^a ^b Barney, Blaise. “Introduction to Parallel Computing”. Lawrence Livermore National Laboratory. Bản gốc lưu trữ ngày 29 tháng 6 năm 2013. Truy cập ngày 9 tháng 11 năm 2007.
^ Hennessy, John L. và David A. Patterson (2002). Computer Architecture: A Quantitative Approach. 3rd edition, Morgan Kaufmann, p. 43. ISBN 1-55860-724-2.
^ Rabaey, J. M. (1996). Digital Integrated Circuits. Prentice Hall, p. 235. ISBN 0-13-178609-1.
^ Flynn, Laurie J. "Intel Halts Development of 2 New Microprocessors". The New York Times, ngày 8 tháng 5 năm 2004. Truy cập ngày 22 tháng 4 năm 2008.
^ Moore, Gordon E. (1965). “Cramming more components onto integrated circuits” (PDF). Electronics Magazine. tr. 4. Bản gốc (PDF) lưu trữ ngày 18 tháng 2 năm 2008. Truy cập ngày 11 tháng 11 năm 2006.
^ Amdahl, G. (April 1967) "The validity of the single processor approach to achieving large-scale computing capabilities". In Proceedings of AFIPS Spring Joint Computer Conference, Atlantic City, N.J., AFIPS Press, pp. 483–85.
^ Brooks, Frederick P. Jr. The Mythical Man-Month: Essays on Software Engineering. Chapter 2 – The Mythical Man Month. ISBN 0-201-83595-9
^ Reevaluating Amdahl's Law Lưu trữ 2012-06-23 tại Wayback Machine (1988). Communications of the ACM 31(5), pp. 532–33.
^ Bernstein, A. J. (October 1966). "Program Analysis for Parallel Processing,' IEEE Trans. on Electronic Computers". EC-15, pp. 757–62.
^ Roosta, Seyed H. (2000). "Parallel processing and parallel algorithms: theory and computation". Springer, p. 114. ISBN 0-387-98716-9.
^ Lamport, Leslie (September 1979). "How to Make a Multiprocessor Computer That Correctly Executes Multiprocess Programs", IEEE Transactions on Computers, C-28,9, pp. 690–91.
^ Patterson and Hennessy, p. 748.
^ Culler, David E.; Jaswinder Pal Singh and Anoop Gupta (1999). Parallel Computer Architecture - A Hardware/Software Approach. Morgan Kaufmann Publishers, p. 15. ISBN 1-55860-343-3.
^ Culler et al. p. 15.
^ Patt, Yale (April 2004). "The Microprocessor Ten Years From Now: What Are The Challenges, How Do We Meet Them? (wmv). Distinguished Lecturer talk at Carnegie Mellon University. Truy cập ngày 7 tháng 11 năm 2007.
^ ^a ^b Culler et al. p. 124.
^ ^a ^b Culler et al. p. 125.
^ ^a ^b Patterson and Hennessy, p. 713.
^ ^a ^b Hennessy and Patterson, p. 549. Lỗi chú thích: Thẻ <ref> không hợp lệ: tên “HP549” được định rõ nhiều lần, mỗi lần có nội dung khác
^ Patterson and Hennessy, p. 714.
^ What is clustering? Webopedia computer dictionary. Truy cập ngày 7 tháng 11 năm 2007.
^ Beowulf definition. Lưu trữ 2012-10-10 tại Wayback Machine PC Magazine. Truy cập ngày 7 tháng 11 năm 2007.
^ Architecture share for 06/2007 Lưu trữ 2007-11-14 tại Wayback Machine. TOP500 Supercomputing Sites. Clusters make up 74.60% of the machines on the list. Truy cập ngày 7 tháng 11 năm 2007.
^ Hennessy and Patterson, p. 537.
^ MPP Definition. Lưu trữ 2013-05-11 tại Wayback Machine PC Magazine. Truy cập ngày 7 tháng 11 năm 2007.
^ Kirkpatrick, Scott (ngày 31 tháng 1 năm 2003). "Computer Science: Rough Times Ahead". Science, Vol. 299. No. 5607, pp. 668 - 669. DOI: 10.1126/science.1081623
^ ^a ^b ^c D'Amour, Michael R., Chief Operating Officer, DRC Computer Corporation. "Standard Reconfigurable Computing". Invited speaker at the University of Delaware, ngày 28 tháng 2 năm 2007.
^ Boggan, Sha'Kia and Daniel M. Pressel (August 2007). GPUs: An Emerging Platform for General-Purpose Computation Lưu trữ 2016-12-25 tại Wayback Machine (PDF). ARL-SR-154, U.S. Army Research Lab. Truy cập ngày 7 tháng 11 năm 2007.
^ Maslennikov, Oleg (2002). "Systematic Generation of Executing Programs for Processor Elements in Parallel ASIC or FPGA-Based Systems and Their Transformation into VHDL-Descriptions of Processor Element Control Units". Lưu trữ 2020-02-11 tại Wayback Machine Lecture Notes in Computer Science, 2328/2002: p. 272.
^ Shimokawa, Y.; Y. Fuwa and N. Aramaki (18–ngày 21 tháng 11 năm 1991). A parallel ASIC VLSI neurocomputer for a large number of neurons and billion connections per second speed. IEEE International Joint Conference on Neural Networks. 3: pp. 2162–67.
^ Acken, K.P.; M.J. Irwin, R.M. Owens (July 1998). "A Parallel ASIC Architecture for Efficient Fractal Image Coding". The Journal of VLSI Signal Processing, 19(2):97–113(17)
^ Kahng, Andrew B. (ngày 21 tháng 6 năm 2004) "Scoping the Problem of DFM in the Semiconductor Industry Lưu trữ 2012-03-03 tại Wayback Machine." University of California, San Diego. "Future design for manufacturing (DFM) technology must reduce design [non-recoverable expenditure] cost and directly address manufacturing [non-recoverable expenditures] – the cost of a mask set and probe card – which is well over $1 million at the 90 nm technology node and creates a significant damper on semiconductor-based innovation."
^ ^a ^b Patterson and Hennessy, p. 751. Lỗi chú thích: Thẻ <ref> không hợp lệ: tên “PH751” được định rõ nhiều lần, mỗi lần có nội dung khác
^ The Sidney Fernbach Award given to MPI inventor Bill Gropp Lưu trữ 2011-07-25 tại Wayback Machine refers to MPI as "the dominant HPC communications interface"
^ Shen, John Paul and Mikko H. Lipasti (2005). Modern Processor Design: Fundamentals of Superscalar Processors. McGraw-Hill Professional. p. 561. ISBN 0-07-057064-7. "However, the holy grail of such research - automated parallelization of serial programs - has yet to materialize. While automated parallelization of certain classes of algorithms has been demonstrated, such success has largely been limited to scientific and numeric applications with predictable flow control (e.g., nested loop structures with statically determined iteration counts) and statically analyzable memory access patterns. (e.g., walks over large multidimensional arrays of float-point data)."
^ Asanovic, Krste, et al. (ngày 18 tháng 12 năm 2006). The Landscape of Parallel Computing Research: A View from Berkeley (PDF). University of California, Berkeley. Technical Report No. UCB/EECS-2006-183. See table on pages 17–19.
^ ^a ^b Patterson and Hennessy, pp. 749–50: "Although successful in pushing several technologies useful in later projects, the ILLIAC IV failed as a computer. Costs escalated from the $8 million estimated in 1966 to $31 million by 1972, despite the construction of only a quarter of the planned machine... It was perhaps the most infamous of supercomputers. The project started in 1965 and ran its first real application in 1976."
^ Menabrea, L. F. (1842). Sketch of the Analytic Engine Invented by Charles Babbage. Bibliothèque Universelle de Genève. Truy cập ngày 7 tháng 11 năm 2007.
^ ^a ^b ^c Patterson and Hennessy, p. 753.
^ da Cruz, Frank (2003). “Columbia University Computing History: The IBM 704”. Columbia University. Truy cập ngày 8 tháng 1 năm 2008.
^ Parallel Programming, S. Gill, The Computer Journal Vol. 1 #1, pp2-10, British Computer Society, April 1958.
^ ^a ^b ^c ^d ^e Wilson, Gregory V (1994). “The History of the Development of Parallel Computing”. Virginia Tech/Norfolk State University, Interactive Learning with a Digital Library in Computer Science. Truy cập ngày 8 tháng 1 năm 2008.
^ Anthes, Gry (ngày 19 tháng 11 năm 2001). “The Power of Parallelism”. Computerworld. Bản gốc lưu trữ ngày 31 tháng 1 năm 2008. Truy cập ngày 8 tháng 1 năm 2008.
^ Patterson and Hennessy, p. 749.

Đọc thêm

C. Rodríguez, M. Villagra and B. Barán, 10.1109/BIMNICS.2007.4610083, Asynchronous team algorithms for Boolean Satisfiability, Bionetics2007, pp. 66–69, 2007.

Liên kết ngoài

Nghe bài viết này
(2 parts, 54 phút)

Part 2

Các tệp âm thanh này được tạo từ bản phiên bản sửa đổi bài viết ngày

Lỗi: không cung cấp được ngày tháng

và không phản ánh các chỉnh sửa tiếp theo.

Tính toán song song trên DMOZ
Lawrence Livermore National Laboratory: Introduction to Parallel Computing Lưu trữ 2013-06-10 tại Wayback Machine
Comparing programmability of Open MP and pthreads Lưu trữ 2011-05-29 tại Wayback Machine
What makes parallel programming hard? Lưu trữ 2011-05-29 tại Wayback Machine
Designing and Building Parallel Programs, by Ian Foster
Internet Parallel Computing Archive Lưu trữ 2002-10-12 tại Wayback Machine
Parallel processing topic area at IEEE Distributed Computing Online Lưu trữ 2011-09-28 tại Wayback Machine
Parallel Computing Works Free On-line Book Lưu trữ 2011-07-27 tại Wayback Machine
Frontiers of Supercomputing Free On-line Book Covering topics like algorithms and industrial applications
Universal Parallel Computing Research Center Lưu trữ 2008-10-20 tại Wayback Machine
Course in Parallel Programming at Columbia University (in collaboration with IBM T.J Watson X10 project) Lưu trữ 2010-01-22 tại Wayback Machine
Parallel and distributed Gr?obner bases computation in JAS
Course in Parallel Computing at University of Wisconsin-Madison Lưu trữ 2011-08-26 tại Wayback Machine

[1] Almasi, G.S. and A. Gottlieb (1989). Highly Parallel Computing. Benjamin-Cummings publishers, Redwood City, CA.

[2] S.V. Adve et al. (November 2008). "Parallel Computing Research at Illinois: The UPCRC Agenda" Lưu trữ 2008-12-09 tại Wayback Machine (PDF). Parallel@Illinois, University of Illinois at Urbana-Champaign. "The main techniques for these performance benefits – increased clock frequency and smarter but increasingly complex architectures – are now hitting the so-called power wall. The computer industry has accepted that future performance increases must largely come from increasing the number of processors (or cores) on a die, rather than making a single core go faster."

[3] Asanovic et al. Old [conventional wisdom]: Power is free, but transistors are expensive. New [conventional wisdom] is [that] power is expensive, but transistors are "free".

[View-Power-4] Asanovic, Krste et al. (ngày 18 tháng 12 năm 2006). "The Landscape of Parallel Computing Research: A View from Berkeley" (PDF). University of California, Berkeley. Technical Report No. UCB/EECS-2006-183. "Old [conventional wisdom]: Increasing clock frequency is the primary method of improving processor performance. New [conventional wisdom]: Increasing parallelism is the primary method of improving processor performance... Even representatives from Intel, a company generally associated with the 'higher clock-speed is better' position, warned that traditional approaches to maximizing performance through maximizing clock speed have been pushed to their limit."

[5] Patterson, David A. và John L. Hennessy (1998). Computer Organization and Design, Second Edition, Morgan Kaufmann Publishers, p. 715. ISBN 1-55860-428-6.

[llnltut-6] Barney, Blaise. “Introduction to Parallel Computing”. Lawrence Livermore National Laboratory. Bản gốc lưu trữ ngày 29 tháng 6 năm 2013. Truy cập ngày 9 tháng 11 năm 2007.

[7] Hennessy, John L. và David A. Patterson (2002). Computer Architecture: A Quantitative Approach. 3rd edition, Morgan Kaufmann, p. 43. ISBN 1-55860-724-2.

[8] Rabaey, J. M. (1996). Digital Integrated Circuits. Prentice Hall, p. 235. ISBN 0-13-178609-1.

[9] Flynn, Laurie J. "Intel Halts Development of 2 New Microprocessors". The New York Times, ngày 8 tháng 5 năm 2004. Truy cập ngày 22 tháng 4 năm 2008.

[Moore1965paper-10] Moore, Gordon E. (1965). “Cramming more components onto integrated circuits” (PDF). Electronics Magazine. tr. 4. Bản gốc (PDF) lưu trữ ngày 18 tháng 2 năm 2008. Truy cập ngày 11 tháng 11 năm 2006.

[11] Amdahl, G. (April 1967) "The validity of the single processor approach to achieving large-scale computing capabilities". In Proceedings of AFIPS Spring Joint Computer Conference, Atlantic City, N.J., AFIPS Press, pp. 483–85.

[12] Brooks, Frederick P. Jr. The Mythical Man-Month: Essays on Software Engineering. Chapter 2 – The Mythical Man Month. ISBN 0-201-83595-9

[13] Reevaluating Amdahl's Law Lưu trữ 2012-06-23 tại Wayback Machine (1988). Communications of the ACM 31(5), pp. 532–33.

[14] Bernstein, A. J. (October 1966). "Program Analysis for Parallel Processing,' IEEE Trans. on Electronic Computers". EC-15, pp. 757–62.

[15] Roosta, Seyed H. (2000). "Parallel processing and parallel algorithms: theory and computation". Springer, p. 114. ISBN 0-387-98716-9.

[16] Lamport, Leslie (September 1979). "How to Make a Multiprocessor Computer That Correctly Executes Multiprocess Programs", IEEE Transactions on Computers, C-28,9, pp. 690–91.

[17] Patterson and Hennessy, p. 748.

[18] Culler, David E.; Jaswinder Pal Singh and Anoop Gupta (1999). Parallel Computer Architecture - A Hardware/Software Approach. Morgan Kaufmann Publishers, p. 15. ISBN 1-55860-343-3.

[19] Culler et al. p. 15.

[20] Patt, Yale (April 2004). "The Microprocessor Ten Years From Now: What Are The Challenges, How Do We Meet Them? (wmv). Distinguished Lecturer talk at Carnegie Mellon University. Truy cập ngày 7 tháng 11 năm 2007.

[Culler124-21] Culler et al. p. 124.

[Culler125-22] Culler et al. p. 125.

[PH713-23] Patterson and Hennessy, p. 713.

[HP549-24] Hennessy and Patterson, p. 549. Lỗi chú thích: Thẻ <ref> không hợp lệ: tên “HP549” được định rõ nhiều lần, mỗi lần có nội dung khác

[25] Patterson and Hennessy, p. 714.

[26] What is clustering? Webopedia computer dictionary. Truy cập ngày 7 tháng 11 năm 2007.

[27] Beowulf definition. Lưu trữ 2012-10-10 tại Wayback Machine PC Magazine. Truy cập ngày 7 tháng 11 năm 2007.

[28] Architecture share for 06/2007 Lưu trữ 2007-11-14 tại Wayback Machine. TOP500 Supercomputing Sites. Clusters make up 74.60% of the machines on the list. Truy cập ngày 7 tháng 11 năm 2007.

[29] Hennessy and Patterson, p. 537.

[30] MPP Definition. Lưu trữ 2013-05-11 tại Wayback Machine PC Magazine. Truy cập ngày 7 tháng 11 năm 2007.

[31] Kirkpatrick, Scott (ngày 31 tháng 1 năm 2003). "Computer Science: Rough Times Ahead". Science, Vol. 299. No. 5607, pp. 668 - 669. DOI: 10.1126/science.1081623

[DAmour-32] D'Amour, Michael R., Chief Operating Officer, DRC Computer Corporation. "Standard Reconfigurable Computing". Invited speaker at the University of Delaware, ngày 28 tháng 2 năm 2007.

[33] Boggan, Sha'Kia and Daniel M. Pressel (August 2007). GPUs: An Emerging Platform for General-Purpose Computation Lưu trữ 2016-12-25 tại Wayback Machine (PDF). ARL-SR-154, U.S. Army Research Lab. Truy cập ngày 7 tháng 11 năm 2007.

[34] Maslennikov, Oleg (2002). "Systematic Generation of Executing Programs for Processor Elements in Parallel ASIC or FPGA-Based Systems and Their Transformation into VHDL-Descriptions of Processor Element Control Units". Lưu trữ 2020-02-11 tại Wayback Machine Lecture Notes in Computer Science, 2328/2002: p. 272.

[35] Shimokawa, Y.; Y. Fuwa and N. Aramaki (18–ngày 21 tháng 11 năm 1991). A parallel ASIC VLSI neurocomputer for a large number of neurons and billion connections per second speed. IEEE International Joint Conference on Neural Networks. 3: pp. 2162–67.

[36] Acken, K.P.; M.J. Irwin, R.M. Owens (July 1998). "A Parallel ASIC Architecture for Efficient Fractal Image Coding". The Journal of VLSI Signal Processing, 19(2):97–113(17)

[37] Kahng, Andrew B. (ngày 21 tháng 6 năm 2004) "Scoping the Problem of DFM in the Semiconductor Industry Lưu trữ 2012-03-03 tại Wayback Machine." University of California, San Diego. "Future design for manufacturing (DFM) technology must reduce design [non-recoverable expenditure] cost and directly address manufacturing [non-recoverable expenditures] – the cost of a mask set and probe card – which is well over $1 million at the 90 nm technology node and creates a significant damper on semiconductor-based innovation."

[PH751-38] Patterson and Hennessy, p. 751. Lỗi chú thích: Thẻ <ref> không hợp lệ: tên “PH751” được định rõ nhiều lần, mỗi lần có nội dung khác

[39] The Sidney Fernbach Award given to MPI inventor Bill Gropp Lưu trữ 2011-07-25 tại Wayback Machine refers to MPI as "the dominant HPC communications interface"

[40] Shen, John Paul and Mikko H. Lipasti (2005). Modern Processor Design: Fundamentals of Superscalar Processors. McGraw-Hill Professional. p. 561. ISBN 0-07-057064-7. "However, the holy grail of such research - automated parallelization of serial programs - has yet to materialize. While automated parallelization of certain classes of algorithms has been demonstrated, such success has largely been limited to scientific and numeric applications with predictable flow control (e.g., nested loop structures with statically determined iteration counts) and statically analyzable memory access patterns. (e.g., walks over large multidimensional arrays of float-point data)."

[41] Asanovic, Krste, et al. (ngày 18 tháng 12 năm 2006). The Landscape of Parallel Computing Research: A View from Berkeley (PDF). University of California, Berkeley. Technical Report No. UCB/EECS-2006-183. See table on pages 17–19.

[infamous-42] Patterson and Hennessy, pp. 749–50: "Although successful in pushing several technologies useful in later projects, the ILLIAC IV failed as a computer. Costs escalated from the $8 million estimated in 1966 to $31 million by 1972, despite the construction of only a quarter of the planned machine... It was perhaps the most infamous of supercomputers. The project started in 1965 and ran its first real application in 1976."

[43] Menabrea, L. F. (1842). Sketch of the Analytic Engine Invented by Charles Babbage. Bibliothèque Universelle de Genève. Truy cập ngày 7 tháng 11 năm 2007.

[PH753-44] Patterson and Hennessy, p. 753.

[45] Cruz, Frank (2003). “Columbia University Computing History: The IBM 704”. Columbia University. Truy cập ngày 8 tháng 1 năm 2008.

[46] Parallel Programming, S. Gill, The Computer Journal Vol. 1 #1, pp2-10, British Computer Society, April 1958.

[G_Wilson-47] Wilson, Gregory V (1994). “The History of the Development of Parallel Computing”. Virginia Tech/Norfolk State University, Interactive Learning with a Digital Library in Computer Science. Truy cập ngày 8 tháng 1 năm 2008.

[48] Anthes, Gry (ngày 19 tháng 11 năm 2001). “The Power of Parallelism”. Computerworld. Bản gốc lưu trữ ngày 31 tháng 1 năm 2008. Truy cập ngày 8 tháng 1 năm 2008.

[49] Patterson and Hennessy, p. 749.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]